Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Xử Lí Ngôn Ngữ Tự Nhiên bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật nào sau đây được sử dụng để chia một văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ, cụm từ hoặc ký hiệu?
- A. Lemmatization (Lema hóa)
- B. Tokenization (Mã hóa)
- C. Stemming (Gốc từ)
- D. Parsing (Phân tích cú pháp)
Câu 2: Mô hình Bag-of-Words (BoW) biểu diễn văn bản bằng cách nào?
- A. Duy trì thứ tự từ và ngữ pháp
- B. Mã hóa ngữ nghĩa của từ
- C. Đếm tần suất xuất hiện của từ trong văn bản
- D. Sử dụng mạng nơ-ron để biểu diễn từ
Câu 3: TF-IDF là một kỹ thuật quan trọng trong NLP, nó được sử dụng để làm gì?
- A. Đánh giá tầm quan trọng của một từ trong tài liệu so với toàn bộ tập hợp tài liệu
- B. Phân tích cảm xúc của văn bản
- C. Phát hiện ngôn ngữ của văn bản
- D. Tóm tắt văn bản dài thành văn bản ngắn hơn
Câu 4: Word embedding (biểu diễn từ) như Word2Vec và GloVe có ưu điểm gì so với mô hình Bag-of-Words?
- A. Yêu cầu ít bộ nhớ hơn để lưu trữ
- B. Tính toán nhanh hơn
- C. Dễ dàng diễn giải hơn
- D. Nắm bắt được ngữ nghĩa và quan hệ giữa các từ
Câu 5: Trong bài toán phân loại văn bản, thuật toán nào sau đây thường được sử dụng như một baseline (mô hình cơ sở) hiệu quả?
- A. Transformer
- B. Naive Bayes
- C. LSTM
- D. BERT
Câu 6: Recurrent Neural Networks (RNNs) đặc biệt phù hợp cho các nhiệm vụ NLP nào?
- A. Phân loại hình ảnh
- B. Phát hiện đối tượng trong ảnh
- C. Xử lý dữ liệu chuỗi tuần tự như dịch máy và phân tích văn bản
- D. Phân tích dữ liệu dạng bảng
Câu 7: Attention mechanism (cơ chế chú ý) trong mô hình Transformer giải quyết vấn đề gì của RNNs trong xử lý các chuỗi dài?
- A. Tăng tốc độ huấn luyện mô hình
- B. Giảm thiểu overfitting
- C. Cải thiện khả năng song song hóa tính toán
- D. Cho phép mô hình tập trung vào các phần quan trọng của chuỗi đầu vào, khắc phục vấn đề "quên" thông tin ở xa
Câu 8: Mô hình Transformer, ví dụ như BERT và GPT, dựa trên kiến trúc mạng nơ-ron nào?
- A. Self-attention (Tự chú ý)
- B. Convolutional Neural Network (Mạng nơ-ron tích chập)
- C. Recurrent Neural Network (Mạng nơ-ron hồi quy)
- D. Generative Adversarial Network (Mạng đối nghịch sinh tạo)
Câu 9: Nhiệm vụ Named Entity Recognition (NER) trong NLP là gì?
- A. Phân tích cảm xúc của văn bản
- B. Xác định và phân loại các thực thể có tên như người, tổ chức, địa điểm trong văn bản
- C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
- D. Tóm tắt nội dung chính của văn bản
Câu 10: Sentiment analysis (phân tích cảm xúc) được sử dụng để làm gì?
- A. Xác định chủ đề chính của văn bản
- B. Phát hiện ngôn ngữ của văn bản
- C. Xác định thái độ, cảm xúc hoặc quan điểm được thể hiện trong văn bản
- D. Trích xuất thông tin có cấu trúc từ văn bản
Câu 11: Trong ngữ cảnh dịch máy, BLEU score là gì?
- A. Một độ đo để đánh giá chất lượng của bản dịch máy bằng cách so sánh nó với bản dịch tham khảo
- B. Một thuật toán dịch máy dựa trên mạng nơ-ron
- C. Một phương pháp tiền xử lý văn bản cho dịch máy
- D. Một loại mô hình ngôn ngữ được sử dụng trong dịch máy
Câu 12: Kỹ thuật Stemming và Lemmatization khác nhau như thế nào trong tiền xử lý văn bản?
- A. Stemming phức tạp hơn Lemmatization
- B. Stemming loại bỏ hậu tố một cách đơn giản, có thể tạo ra từ không có nghĩa, trong khi Lemmatization đưa từ về dạng gốc có nghĩa dựa trên từ điển và ngữ pháp
- C. Lemmatization nhanh hơn Stemming
- D. Stemming chỉ áp dụng cho tiếng Anh, còn Lemmatization áp dụng cho nhiều ngôn ngữ
Câu 13: Mục đích chính của việc sử dụng stop words (từ dừng) trong NLP là gì?
- A. Tăng cường ngữ nghĩa của văn bản
- B. Phát hiện ngôn ngữ của văn bản
- C. Giảm kích thước dữ liệu và tập trung vào các từ quan trọng hơn
- D. Cải thiện độ chính xác của phân tích cú pháp
Câu 14: Trong lĩnh vực chatbot và trợ lý ảo, NLP được ứng dụng để làm gì?
- A. Xử lý hình ảnh đầu vào từ camera
- B. Điều khiển phần cứng của thiết bị
- C. Tạo đồ họa giao diện người dùng
- D. Hiểu ngôn ngữ tự nhiên của người dùng và tạo ra phản hồi phù hợp
Câu 15: Để xây dựng một hệ thống phân loại văn bản dựa trên học máy, quy trình điển hình bao gồm các bước nào?
- A. Thu thập dữ liệu -> Tiền xử lý văn bản -> Trích xuất đặc trưng -> Huấn luyện mô hình -> Đánh giá mô hình
- B. Huấn luyện mô hình -> Thu thập dữ liệu -> Tiền xử lý văn bản -> Đánh giá mô hình -> Trích xuất đặc trưng
- C. Trích xuất đặc trưng -> Thu thập dữ liệu -> Huấn luyện mô hình -> Tiền xử lý văn bản -> Đánh giá mô hình
- D. Đánh giá mô hình -> Huấn luyện mô hình -> Trích xuất đặc trưng -> Tiền xử lý văn bản -> Thu thập dữ liệu
Câu 16: Giả sử bạn muốn phân tích đánh giá sản phẩm trực tuyến để xác định xem khách hàng hài lòng hay không hài lòng. Nhiệm vụ NLP nào phù hợp nhất?
- A. Nhận dạng thực thể có tên (NER)
- B. Phân tích cảm xúc (Sentiment Analysis)
- C. Dịch máy (Machine Translation)
- D. Tóm tắt văn bản (Text Summarization)
Câu 17: Trong mô hình ngôn ngữ, perplexity được sử dụng để làm gì?
- A. Đo độ chính xác của mô hình
- B. Đo tốc độ huấn luyện của mô hình
- C. Đo khả năng dự đoán chuỗi từ tiếp theo của mô hình ngôn ngữ; perplexity càng thấp, mô hình càng tốt
- D. Đo kích thước của mô hình ngôn ngữ
Câu 18: Kỹ thuật back-translation (dịch ngược) trong dịch máy được sử dụng để làm gì?
- A. Đánh giá chất lượng của bản dịch
- B. Tăng tốc độ dịch
- C. Giảm kích thước mô hình dịch
- D. Tăng cường dữ liệu huấn luyện bằng cách dịch ngược văn bản đơn ngữ sang ngôn ngữ khác rồi dịch lại về ngôn ngữ gốc
Câu 19: Ưu điểm chính của việc sử dụng mô hình ngôn ngữ pre-trained (đã được huấn luyện trước) như BERT hoặc GPT là gì?
- A. Đơn giản hóa quá trình tiền xử lý dữ liệu
- B. Tận dụng kiến thức ngôn ngữ đã học từ lượng lớn dữ liệu, giúp cải thiện hiệu suất và giảm nhu cầu dữ liệu huấn luyện cho các nhiệm vụ cụ thể
- C. Giảm độ phức tạp tính toán khi huấn luyện mô hình
- D. Cải thiện khả năng diễn giải của mô hình
Câu 20: Trong phân tích cú pháp (parsing), dependency parsing (phân tích phụ thuộc) và constituency parsing (phân tích thành phần) khác nhau như thế nào?
- A. Constituency parsing tập trung vào quan hệ giữa các từ, còn dependency parsing tập trung vào cấu trúc ngữ pháp
- B. Dependency parsing phức tạp hơn constituency parsing
- C. Dependency parsing biểu diễn cấu trúc câu dựa trên quan hệ phụ thuộc giữa các từ, còn constituency parsing phân chia câu thành các cụm từ và thành phần ngữ pháp
- D. Constituency parsing chỉ áp dụng cho tiếng Anh, còn dependency parsing áp dụng cho nhiều ngôn ngữ
Câu 21: Để xử lý ngôn ngữ tiếng Việt trong NLP, thư viện Python nào cung cấp các công cụ chuyên biệt?
- A. NLTK
- B. SpaCy
- C. Transformers
- D. Underscore (underthesea)
Câu 22: Trong ngữ cảnh của mô hình ngôn ngữ, khái niệm "zero-shot learning" (học không cần ví dụ) có nghĩa là gì?
- A. Mô hình có khả năng thực hiện các nhiệm vụ mà nó chưa từng được huấn luyện trực tiếp, chỉ dựa trên mô tả bằng ngôn ngữ tự nhiên của nhiệm vụ
- B. Mô hình được huấn luyện trên dữ liệu tổng hợp
- C. Mô hình có thể học từ rất ít dữ liệu huấn luyện
- D. Mô hình có thể tự động cải thiện hiệu suất mà không cần con người can thiệp
Câu 23: Federated learning (học liên hợp) có thể được ứng dụng trong NLP như thế nào?
- A. Giảm kích thước mô hình NLP
- B. Huấn luyện mô hình ngôn ngữ trên nhiều thiết bị hoặc tổ chức mà không cần chia sẻ dữ liệu thô, bảo vệ quyền riêng tư của người dùng
- C. Tăng tốc độ huấn luyện mô hình NLP
- D. Cải thiện khả năng diễn giải của mô hình NLP
Câu 24: Để xử lý các từ "out-of-vocabulary" (OOV) (ngoài từ vựng) trong mô hình ngôn ngữ, kỹ thuật nào thường được sử dụng?
- A. Stemming
- B. Lemmatization
- C. Byte-Pair Encoding (BPE) hoặc WordPiece tokenization
- D. Stop word removal
Câu 25: Trong ngữ cảnh của chatbot, intent recognition (nhận dạng ý định) là gì?
- A. Phân tích cảm xúc của người dùng
- B. Xác định ngôn ngữ người dùng đang sử dụng
- C. Nhận dạng thực thể có tên trong câu hỏi của người dùng
- D. Xác định mục đích hoặc ý định của người dùng đằng sau câu nói của họ
Câu 26: Kỹ thuật "transfer learning" (học chuyển giao) được áp dụng trong NLP như thế nào?
- A. Sử dụng mô hình đã được huấn luyện trên một lượng lớn dữ liệu (ví dụ, mô hình ngôn ngữ pre-trained) và tinh chỉnh (fine-tune) nó cho một nhiệm vụ NLP cụ thể với dữ liệu nhỏ hơn
- B. Chuyển dữ liệu huấn luyện từ miền này sang miền khác
- C. Chuyển kiến trúc mô hình từ nhiệm vụ này sang nhiệm vụ khác
- D. Chuyển giao kết quả đánh giá mô hình giữa các nhà nghiên cứu
Câu 27: Để đánh giá hiệu suất của một hệ thống hỏi đáp (question answering), độ đo nào sau đây thường được sử dụng?
- A. Perplexity
- B. Accuracy, F1-score, Exact Match
- C. BLEU score
- D. ROUGE score
Câu 28: ROUGE score được sử dụng để đánh giá hiệu suất của nhiệm vụ NLP nào?
- A. Phân loại văn bản
- B. Phân tích cảm xúc
- C. Tóm tắt văn bản (Text Summarization)
- D. Dịch máy (Machine Translation)
Câu 29: Trong lĩnh vực NLP, "knowledge graph" (biểu đồ tri thức) được sử dụng để làm gì?
- A. Phân tích cú pháp của văn bản
- B. Biểu diễn văn bản dưới dạng vectơ
- C. Tạo ra văn bản mới
- D. Biểu diễn tri thức dưới dạng đồ thị, với các nút là thực thể và các cạnh là quan hệ giữa chúng, hỗ trợ suy luận và trả lời câu hỏi
Câu 30: Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?
- A. Trợ lý ảo (Virtual assistants)
- B. Dịch máy (Machine translation)
- C. Nhận dạng khuôn mặt (Facial recognition)
- D. Phân tích cảm xúc trên mạng xã hội (Social media sentiment analysis)