Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Xử Lí Ngôn Ngữ Tự Nhiên - Đề 05 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), quá trình nào liên quan đến việc chia một đoạn văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ, cụm từ hoặc ký hiệu?
- A. Lemmatization
- B. Tokenization
- C. Stemming
- D. Phân tích cú pháp
Câu 2: Mô hình Bag-of-Words (BoW) biểu diễn văn bản như thế nào?
- A. Một chuỗi các từ theo thứ tự xuất hiện trong văn bản
- B. Một đồ thị thể hiện mối quan hệ ngữ pháp giữa các từ
- C. Một vectơ tần số từ, trong đó mỗi chiều tương ứng với một từ trong từ vựng
- D. Một mạng lưới các khái niệm và mối liên kết giữa chúng
Câu 3: TF-IDF là viết tắt của thuật ngữ nào và nó được sử dụng để làm gì trong NLP?
- A. Term Frequency-Inverse Document Frequency; đo lường tầm quan trọng của từ trong tài liệu
- B. Text Filtering-Information Dissemination Function; lọc thông tin không liên quan
- C. Topic Factorization-Iterative Distribution Formula; phân tách chủ đề văn bản
- D. Treebank Formation-Independent Dependency Feature; xây dựng cây cú pháp
Câu 4: Word embedding (ví dụ: Word2Vec, GloVe) giúp biểu diễn từ ngữ như thế nào để máy tính có thể xử lý?
- A. Dạng hình ảnh trực quan của từ
- B. Mã nhị phân duy nhất cho mỗi từ
- C. Danh sách các từ đồng nghĩa và trái nghĩa
- D. Vectơ số thực trong không gian nhiều chiều, thể hiện ngữ nghĩa của từ
Câu 5: Recurrent Neural Network (RNN) đặc biệt phù hợp cho các nhiệm vụ NLP nào?
- A. Phân loại hình ảnh
- B. Xử lý dữ liệu chuỗi tuần tự như dịch máy và phân tích văn bản
- C. Phát hiện đối tượng trong ảnh
- D. Dự đoán giá cổ phiếu
Câu 6: Transformer networks, đặc biệt là cơ chế attention, cải thiện hiệu suất trong các bài toán NLP như dịch máy như thế nào so với RNN?
- A. RNN nhanh hơn Transformer trong quá trình huấn luyện
- B. RNN có thể xử lý song song toàn bộ chuỗi đầu vào tốt hơn Transformer
- C. Transformer cho phép mô hình tập trung vào các phần khác nhau của đầu vào một cách linh hoạt, xử lý tốt hơn các phụ thuộc xa trong câu
- D. Transformer không yêu cầu dữ liệu huấn luyện lớn như RNN
Câu 7: Nhiệm vụ "Named Entity Recognition" (NER) trong NLP là gì?
- A. Phân loại văn bản theo chủ đề
- B. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
- C. Tóm tắt văn bản dài thành văn bản ngắn hơn
- D. Xác định và phân loại các thực thể có tên (ví dụ: người, tổ chức, địa điểm) trong văn bản
Câu 8: Phân tích tình cảm (Sentiment Analysis) trong NLP nhằm mục đích gì?
- A. Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) được thể hiện trong văn bản
- B. Phân tích cấu trúc ngữ pháp của câu
- C. Tìm kiếm thông tin cụ thể trong văn bản
- D. Đo lường độ dài của văn bản
Câu 9: Trong ngữ cảnh của chatbot, NLP đóng vai trò quan trọng như thế nào?
- A. NLP chỉ được sử dụng để tạo giao diện đồ họa cho chatbot
- B. NLP cho phép chatbot hiểu ngôn ngữ tự nhiên của người dùng, diễn giải ý định và tạo phản hồi phù hợp
- C. NLP giới hạn khả năng của chatbot trong việc nhận dạng giọng nói
- D. NLP chỉ cần thiết cho chatbot đa ngôn ngữ
Câu 10: "Stop words" là gì và tại sao chúng thường bị loại bỏ trong quá trình tiền xử lý NLP?
- A. Các từ mang nghĩa tiêu cực cần loại bỏ để phân tích tình cảm chính xác hơn
- B. Các từ hiếm gặp cần loại bỏ để giảm kích thước từ vựng
- C. Các từ phổ biến (ví dụ: "và", "là", "của") thường ít mang ý nghĩa trong nhiều nhiệm vụ NLP và có thể gây nhiễu
- D. Các từ viết sai chính tả cần loại bỏ để làm sạch dữ liệu
Câu 11: Mục đích của "lemmatization" và "stemming" trong NLP là gì?
- A. Tăng số lượng từ trong văn bản
- B. Thay thế từ bằng từ đồng nghĩa
- C. Phân tích cấu trúc ngữ pháp của từ
- D. Đưa các từ về dạng gốc hoặc dạng chuẩn hóa để giảm sự phức tạp và cải thiện hiệu suất mô hình
Câu 12: Kỹ thuật "n-gram" được sử dụng để làm gì trong NLP?
- A. Mã hóa văn bản thành dạng số
- B. Phân tích chuỗi các từ liên tiếp để nắm bắt thông tin ngữ cảnh và thứ tự từ
- C. Loại bỏ nhiễu từ văn bản
- D. Tạo ra các từ mới từ văn bản hiện có
Câu 13: "Parse tree" (cây phân tích cú pháp) biểu diễn điều gì về một câu?
- A. Tần suất xuất hiện của các từ trong câu
- B. Ý nghĩa ngữ nghĩa của câu
- C. Cấu trúc cú pháp và mối quan hệ ngữ pháp giữa các thành phần của câu
- D. Tình cảm chủ đạo của câu
Câu 14: "Cosine similarity" thường được sử dụng để làm gì trong NLP?
- A. Đo độ tương đồng giữa hai vectơ, thường được sử dụng để so sánh văn bản hoặc word embeddings
- B. Phân loại văn bản thành các chủ đề khác nhau
- C. Tìm kiếm lỗi chính tả trong văn bản
- D. Đánh giá hiệu suất của mô hình dịch máy
Câu 15: "BLEU score" là gì và nó được sử dụng để đánh giá nhiệm vụ NLP nào?
- A. Đánh giá độ chính xác của phân tích tình cảm
- B. Đo lường tốc độ xử lý văn bản của mô hình
- C. Đánh giá khả năng tóm tắt văn bản
- D. Đánh giá chất lượng của đầu ra dịch máy so với bản dịch tham khảo
Câu 16: "Knowledge graph" (biểu đồ tri thức) được sử dụng để biểu diễn thông tin như thế nào trong NLP?
- A. Dạng văn bản thuần túy
- B. Dạng đồ thị với các nút (thực thể) và cạnh (mối quan hệ) giữa chúng
- C. Dạng bảng cơ sở dữ liệu quan hệ
- D. Dạng cây phân cấp
Câu 17: Ứng dụng nào sau đây thể hiện việc sử dụng NLP để cải thiện khả năng tiếp cận thông tin cho người dùng?
- A. Phát hiện tin giả
- B. Tạo quảng cáo cá nhân hóa
- C. Tóm tắt văn bản tự động để nhanh chóng nắm bắt nội dung chính
- D. Phân loại email spam
Câu 18: Trong bối cảnh NLP, "contextual embeddings" (ví dụ: BERT, ELMo) khác biệt như thế nào so với word embeddings truyền thống (ví dụ: Word2Vec, GloVe)?
- A. Word embeddings truyền thống có kích thước vectơ lớn hơn
- B. Contextual embeddings dễ huấn luyện hơn
- C. Word embeddings truyền thống biểu diễn từ dựa trên ngữ cảnh
- D. Contextual embeddings tạo ra biểu diễn khác nhau cho cùng một từ tùy thuộc vào ngữ cảnh sử dụng, trong khi word embeddings truyền thống tạo ra một biểu diễn duy nhất cho mỗi từ
Câu 19: Phương pháp "back-translation" được sử dụng để làm gì trong dịch máy?
- A. Đánh giá chất lượng bản dịch
- B. Tăng cường dữ liệu huấn luyện bằng cách tạo ra các cặp câu song ngữ mới từ dữ liệu đơn ngữ
- C. Giảm thiểu lỗi dịch do từ vựng ngoài tập huấn luyện
- D. Cải thiện tốc độ dịch
Câu 20: "Attention mechanism" trong Transformer hoạt động như thế nào?
- A. Tăng tốc độ tính toán của mạng nơ-ron
- B. Giảm số lượng tham số của mô hình
- C. Cho phép mô hình tập trung vào các phần khác nhau của chuỗi đầu vào khi tạo ra đầu ra, bằng cách gán trọng số khác nhau cho mỗi vị trí đầu vào
- D. Chuẩn hóa dữ liệu đầu vào
Câu 21: Thách thức chính của NLP khi xử lý ngôn ngữ tiếng Việt là gì, so với tiếng Anh?
- A. Tiếng Việt là ngôn ngữ đơn lập, việc phân tách từ (word segmentation) phức tạp hơn do không có dấu cách rõ ràng giữa các từ ghép
- B. Tiếng Việt có số lượng từ vựng ít hơn tiếng Anh
- C. Tiếng Việt ít biến thể ngữ pháp hơn tiếng Anh
- D. Tiếng Việt không có thanh điệu, gây khó khăn trong việc phân biệt nghĩa
Câu 22: Trong phát triển mô hình NLP, "overfitting" (quá khớp) xảy ra khi nào và nó ảnh hưởng đến hiệu suất mô hình như thế nào?
- A. Khi mô hình học quá chậm trên dữ liệu huấn luyện
- B. Khi mô hình sử dụng quá nhiều dữ liệu huấn luyện
- C. Khi mô hình không đủ phức tạp để nắm bắt được mẫu trong dữ liệu
- D. Khi mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến hiệu suất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới (dữ liệu kiểm thử)
Câu 23: Kỹ thuật "dropout" thường được sử dụng trong mạng nơ-ron sâu (deep neural networks) để giải quyết vấn đề gì?
- A. Tăng tốc độ huấn luyện mô hình
- B. Giảm kích thước mô hình
- C. Giảm overfitting bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện
- D. Cải thiện khả năng diễn giải của mô hình
Câu 24: "Zero-shot learning" trong NLP có nghĩa là gì?
- A. Huấn luyện mô hình với dữ liệu không có nhãn
- B. Khả năng của mô hình thực hiện một nhiệm vụ mới mà không cần được huấn luyện trực tiếp trên nhiệm vụ đó, mà chỉ dựa trên kiến thức đã học từ các nhiệm vụ liên quan
- C. Huấn luyện mô hình với dữ liệu tổng hợp
- D. Sử dụng mô hình được huấn luyện trên một ngôn ngữ để thực hiện nhiệm vụ trên ngôn ngữ khác
Câu 25: "Few-shot learning" khác với "zero-shot learning" như thế nào?
- A. Few-shot learning không sử dụng dữ liệu huấn luyện, trong khi zero-shot learning có sử dụng
- B. Few-shot learning chỉ áp dụng cho phân loại văn bản, còn zero-shot learning áp dụng cho dịch máy
- C. Few-shot learning cho phép mô hình học từ một số lượng rất ít ví dụ có nhãn cho một nhiệm vụ mới, trong khi zero-shot learning không sử dụng bất kỳ ví dụ có nhãn nào cho nhiệm vụ mới
- D. Few-shot learning luôn đạt hiệu suất cao hơn zero-shot learning
Câu 26: "Explainable AI" (XAI) quan trọng như thế nào trong NLP, đặc biệt trong các ứng dụng nhạy cảm như phân tích ý kiến khách hàng hay sàng lọc hồ sơ?
- A. Rất quan trọng, vì XAI giúp hiểu rõ cách mô hình NLP đưa ra quyết định, tăng tính minh bạch, trách nhiệm giải trình và độ tin cậy, đặc biệt cần thiết trong các ứng dụng nhạy cảm
- B. Không quan trọng, vì hiệu suất dự đoán là yếu tố duy nhất cần quan tâm
- C. Chỉ quan trọng trong nghiên cứu, không cần thiết trong ứng dụng thực tế
- D. Ít quan trọng hơn so với các lĩnh vực AI khác như thị giác máy tính
Câu 27: "Adversarial attacks" (tấn công đối nghịch) trong NLP là gì và chúng gây ra vấn đề gì?
- A. Các phương pháp huấn luyện mô hình NLP nhanh hơn
- B. Các kỹ thuật làm tăng tính đa dạng của dữ liệu huấn luyện
- C. Các biện pháp bảo vệ mô hình NLP khỏi bị sao chép
- D. Các đầu vào được thiết kế đặc biệt để đánh lừa mô hình NLP, dẫn đến dự đoán sai và làm lộ ra các lỗ hổng bảo mật
Câu 28: "Data augmentation" (tăng cường dữ liệu) có thể được thực hiện như thế nào trong NLP?
- A. Giảm kích thước dữ liệu huấn luyện
- B. Loại bỏ dữ liệu nhiễu
- C. Sử dụng các kỹ thuật như thay thế từ đồng nghĩa, dịch ngược, xáo trộn từ để tạo thêm dữ liệu huấn luyện đa dạng hơn
- D. Chuẩn hóa dữ liệu đầu vào
Câu 29: Phương pháp "cross-lingual transfer learning" (học chuyển giao đa ngôn ngữ) cho phép mô hình NLP làm gì?
- A. Dịch văn bản giữa nhiều ngôn ngữ khác nhau
- B. Áp dụng kiến thức học được từ một ngôn ngữ (thường là ngôn ngữ có nhiều tài nguyên) sang ngôn ngữ khác (thường là ngôn ngữ ít tài nguyên) để cải thiện hiệu suất
- C. Phân tích văn bản đa ngôn ngữ
- D. Tạo ra văn bản đa ngôn ngữ
Câu 30: Trong đánh giá mô hình NLP, "precision" (độ chính xác) và "recall" (độ phủ) có ý nghĩa gì và chúng khác nhau như thế nào?
- A. Precision đo tổng số dự đoán đúng, recall đo tổng số dự đoán sai
- B. Precision và recall đều đo lường tỷ lệ dự đoán đúng trên tổng số mẫu
- C. Precision đo tỷ lệ dự đoán đúng trên tổng số mẫu dương tính thực tế, recall đo tỷ lệ dự đoán đúng trên tổng số mẫu dự đoán dương tính
- D. Precision đo tỷ lệ dự đoán đúng trong số các mẫu được dự đoán là dương tính, còn recall đo tỷ lệ dự đoán đúng trong số các mẫu thực sự là dương tính