Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Xử Lí Ngôn Ngữ Tự Nhiên - Đề 01 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), quá trình nào liên quan đến việc phân tách văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ, cụm từ, ký hiệu hoặc các thành phần có ý nghĩa khác?
- A. Token hóa (Tokenization)
- B. Gán nhãn POS (Part-of-Speech Tagging)
- C. Phân tích cú pháp (Parsing)
- D. Chuẩn hóa văn bản (Text Normalization)
Câu 2: Xét câu: "Tôi rất thích bộ phim này, nhưng hơi dài.". Phân tích tình cảm (Sentiment Analysis) ở mức độ câu văn bản này sẽ đưa ra kết quả gì?
- A. Tích cực
- B. Trung tính
- C. Tiêu cực
- D. Không xác định
Câu 3: Phương pháp "Bag-of-Words" (BoW) biểu diễn văn bản bằng cách nào?
- A. Biểu diễn văn bản dưới dạng đồ thị quan hệ giữa các từ.
- B. Biểu diễn văn bản bằng cách mã hóa vị trí tương đối của các từ.
- C. Biểu diễn văn bản dựa trên tần suất xuất hiện của mỗi từ trong toàn bộ văn bản.
- D. Biểu diễn văn bản bằng cách sử dụng mạng nơ-ron để học ngữ nghĩa.
Câu 4: Trong các mô hình ngôn ngữ n-gram, điều gì quyết định kích thước của "n"?
- A. Số lượng từ vựng trong tập dữ liệu huấn luyện.
- B. Độ dài trung bình của câu trong văn bản.
- C. Số lượng lớp ẩn trong mạng nơ-ron của mô hình.
- D. Số lượng từ liên tiếp được xem xét để dự đoán từ tiếp theo.
Câu 5: Word2Vec và GloVe là những kỹ thuật gì trong NLP?
- A. Kỹ thuật phân tích cú pháp câu.
- B. Kỹ thuật biểu diễn từ dưới dạng vectơ (word embeddings).
- C. Kỹ thuật giảm chiều dữ liệu văn bản.
- D. Kỹ thuật sinh văn bản tự động.
Câu 6: Mục đích chính của việc sử dụng "stop words" (từ dừng) trong tiền xử lý văn bản là gì?
- A. Tăng cường tính đa dạng từ vựng trong văn bản.
- B. Đảm bảo tính chính xác ngữ pháp của văn bản.
- C. Giảm kích thước dữ liệu và loại bỏ các từ phổ biến không mang nhiều thông tin ngữ nghĩa.
- D. Chuẩn hóa cách viết của các từ trong văn bản.
Câu 7: Trong nhiệm vụ Nhận dạng Thực thể Có tên (Named Entity Recognition - NER), mục tiêu là gì?
- A. Phân loại văn bản theo chủ đề.
- B. Phân tích cảm xúc và thái độ trong văn bản.
- C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
- D. Xác định và phân loại các thực thể có tên (ví dụ: người, tổ chức, địa điểm) trong văn bản.
Câu 8: Kỹ thuật "stemming" (gốc từ) và "lemmatization" (từ gốc) có điểm chung nào?
- A. Cả hai đều nhằm mục đích giảm các từ về dạng gốc của chúng.
- B. Cả hai đều sử dụng từ điển để tra cứu dạng gốc của từ.
- C. Cả hai đều loại bỏ hoàn toàn hậu tố và tiền tố của từ.
- D. Cả hai đều giữ lại tất cả các dạng biến thể của từ để phân tích.
Câu 9: Mô hình Transformer, được sử dụng rộng rãi trong NLP, dựa trên cơ chế chính nào?
- A. Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN).
- B. Cơ chế tự chú ý (Self-attention).
- C. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN).
- D. Mô hình Markov ẩn (Hidden Markov Model - HMM).
Câu 10: Trong bài toán dịch máy (Machine Translation), BLEU score được sử dụng để làm gì?
- A. Đo tốc độ dịch của mô hình.
- B. Đánh giá khả năng hiểu ngôn ngữ nguồn của mô hình.
- C. Đo mức độ tương đồng giữa bản dịch của mô hình với bản dịch tham khảo.
- D. Xác định ngôn ngữ nguồn và ngôn ngữ đích của văn bản.
Câu 11: Phân tích cú pháp phụ thuộc (Dependency Parsing) trong NLP tập trung vào việc xác định điều gì?
- A. Mối quan hệ phụ thuộc giữa các từ trong câu.
- B. Cấu trúc ngữ pháp tổng thể của câu.
- C. Ý nghĩa ngữ nghĩa của từng từ trong câu.
- D. Loại từ (part-of-speech) của mỗi từ trong câu.
Câu 12: Kỹ thuật "TF-IDF" (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?
- A. Phân cụm các văn bản tương tự nhau.
- B. Đánh giá tầm quan trọng của từ trong một văn bản so với toàn bộ tập văn bản.
- C. Giảm số chiều của dữ liệu văn bản.
- D. Tăng cường tính biểu cảm của văn bản.
Câu 13: Mạng nơ-ron hồi quy (RNN) đặc biệt phù hợp với việc xử lý loại dữ liệu nào?
- A. Dữ liệu hình ảnh tĩnh.
- B. Dữ liệu dạng bảng.
- C. Dữ liệu âm thanh độc lập.
- D. Dữ liệu chuỗi tuần tự (ví dụ: văn bản, chuỗi thời gian).
Câu 14: "Contextual word embeddings" (ví dụ: BERT, ELMo) khác biệt so với "static word embeddings" (ví dụ: Word2Vec, GloVe) như thế nào?
- A. Contextual embeddings có kích thước vectơ cố định, static embeddings thì thay đổi.
- B. Static embeddings учитывают ngữ cảnh của từ, contextual embeddings thì không.
- C. Contextual embeddings tạo ra biểu diễn khác nhau cho cùng một từ tùy thuộc vào ngữ cảnh sử dụng, static embeddings thì tạo ra biểu diễn cố định.
- D. Static embeddings yêu cầu lượng dữ liệu huấn luyện lớn hơn contextual embeddings.
Câu 15: Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?
- A. Trợ lý ảo (Chatbots).
- B. Phân tích và nhận diện hình ảnh.
- C. Phân tích tình cảm trên mạng xã hội.
- D. Dịch máy tự động.
Câu 16: "Fine-tuning" (tinh chỉnh) một mô hình ngôn ngữ tiền huấn luyện (pre-trained language model) là gì?
- A. Huấn luyện mô hình ngôn ngữ từ đầu với dữ liệu lớn.
- B. Sử dụng mô hình ngôn ngữ đã huấn luyện sẵn mà không cần điều chỉnh gì thêm.
- C. Nén kích thước của mô hình ngôn ngữ để triển khai hiệu quả hơn.
- D. Huấn luyện tiếp mô hình ngôn ngữ tiền huấn luyện trên một tập dữ liệu nhỏ hơn, cụ thể cho một nhiệm vụ nhất định.
Câu 17: Khi xử lý văn bản tiếng Việt, điều gì cần đặc biệt lưu ý so với tiếng Anh?
- A. Tiếng Việt có số lượng từ vựng ít hơn tiếng Anh.
- B. Tiếng Việt có cấu trúc ngữ pháp đơn giản hơn tiếng Anh.
- C. Tiếng Việt là ngôn ngữ đơn lập, có thanh điệu và không có dạng biến tố, đòi hỏi các phương pháp xử lý đặc thù.
- D. Các công cụ NLP cho tiếng Việt phát triển hơn tiếng Anh.
Câu 18: Trong ngữ cảnh của chatbot, "intent recognition" (nhận diện ý định) là gì?
- A. Quá trình tạo ra câu trả lời tự động từ chatbot.
- B. Quá trình xác định mục đích hoặc ý định của người dùng dựa trên câu nói của họ.
- C. Quá trình chuyển đổi văn bản thành giọng nói trong chatbot.
- D. Quá trình ghi nhớ lịch sử hội thoại của người dùng với chatbot.
Câu 19: "Zero-shot learning" trong NLP có nghĩa là gì?
- A. Huấn luyện mô hình NLP với dữ liệu không nhãn.
- B. Huấn luyện mô hình NLP chỉ với một lượng nhỏ dữ liệu.
- C. Khả năng của mô hình NLP thực hiện nhiệm vụ trên các lớp hoặc nhãn mà nó chưa từng được huấn luyện trực tiếp.
- D. Khả năng của mô hình NLP tự động sửa lỗi chính tả trong văn bản.
Câu 20: Phương pháp "back-translation" (dịch ngược) được sử dụng để làm gì trong NLP?
- A. Tăng cường dữ liệu huấn luyện cho các mô hình dịch máy bằng cách tạo ra các biến thể của dữ liệu gốc.
- B. Đánh giá chất lượng của mô hình dịch máy.
- C. Cải thiện khả năng hiểu ngôn ngữ nguồn của mô hình NLP.
- D. Giảm độ phức tạp tính toán của mô hình dịch máy.
Câu 21: "Attention mechanism" (cơ chế chú ý) giúp mô hình Transformer cải thiện hiệu suất trong các nhiệm vụ NLP như thế nào?
- A. Giảm số lượng tham số của mô hình.
- B. Tăng tốc độ huấn luyện mô hình.
- C. Cải thiện khả năng xử lý dữ liệu không có cấu trúc.
- D. Cho phép mô hình tập trung vào các phần liên quan nhất của dữ liệu đầu vào khi đưa ra dự đoán.
Câu 22: "Knowledge graph" (đồ thị tri thức) được sử dụng trong NLP để làm gì?
- A. Phân tích cấu trúc cú pháp của câu.
- B. Biểu diễn văn bản dưới dạng đồ thị từ.
- C. Biểu diễn tri thức và quan hệ giữa các thực thể để hỗ trợ suy luận và trả lời câu hỏi.
- D. Tạo ra các biểu diễn vectơ cho từ và câu.
Câu 23: Phương pháp "cross-lingual transfer" (chuyển giao tri thức đa ngôn ngữ) trong NLP nhằm mục đích gì?
- A. Dịch văn bản giữa nhiều ngôn ngữ khác nhau.
- B. Chuyển giao kiến thức từ mô hình huấn luyện trên một ngôn ngữ sang ngôn ngữ khác, đặc biệt hữu ích cho các ngôn ngữ ít tài nguyên.
- C. Đánh giá hiệu suất của mô hình NLP trên nhiều ngôn ngữ.
- D. Chuẩn hóa văn bản đa ngôn ngữ về một định dạng chung.
Câu 24: "Explainable AI (XAI)" trong NLP có vai trò gì?
- A. Tăng độ chính xác của các mô hình NLP.
- B. Giảm thời gian huấn luyện các mô hình NLP.
- C. Tự động hóa quá trình gán nhãn dữ liệu huấn luyện.
- D. Làm cho các quyết định của mô hình NLP trở nên dễ hiểu và minh bạch hơn cho con người.
Câu 25: Trong bài toán tóm tắt văn bản (Text Summarization), phương pháp "extractive summarization" (tóm tắt trích rút) hoạt động như thế nào?
- A. Chọn lọc và kết hợp các câu quan trọng nhất từ văn bản gốc để tạo thành bản tóm tắt.
- B. Diễn giải lại nội dung của văn bản gốc bằng ngôn ngữ mới ngắn gọn hơn.
- C. Sử dụng mô hình sinh văn bản để tạo ra bản tóm tắt hoàn toàn mới.
- D. Loại bỏ các thông tin không quan trọng trong văn bản gốc để tạo bản tóm tắt.
Câu 26: "Adversarial attacks" (tấn công đối nghịch) trong NLP là gì?
- A. Các phương pháp tăng cường độ mạnh mẽ của mô hình NLP trước dữ liệu nhiễu.
- B. Các kỹ thuật phát hiện lỗi và sửa lỗi trong văn bản.
- C. Các kỹ thuật tạo ra dữ liệu đầu vào gây nhiễu một cách có chủ ý để đánh lừa các mô hình NLP.
- D. Các phương pháp bảo vệ dữ liệu văn bản khỏi bị truy cập trái phép.
Câu 27: "Few-shot learning" trong NLP là gì và tại sao nó quan trọng?
- A. Phương pháp huấn luyện mô hình NLP trên dữ liệu không nhãn để giảm chi phí.
- B. Phương pháp cho phép mô hình NLP học hiệu quả từ một lượng nhỏ dữ liệu huấn luyện, quan trọng khi dữ liệu nhãn khan hiếm.
- C. Kỹ thuật giảm kích thước mô hình NLP để triển khai trên các thiết bị hạn chế về tài nguyên.
- D. Kỹ thuật tăng tốc độ suy luận của mô hình NLP trong thời gian thực.
Câu 28: Trong ngữ cảnh của hệ thống hỏi đáp (Question Answering), "reading comprehension" (đọc hiểu) đề cập đến khả năng gì?
- A. Khả năng tạo ra câu hỏi tự động từ văn bản.
- B. Khả năng chuyển đổi câu hỏi từ dạng văn bản sang dạng truy vấn cơ sở dữ liệu.
- C. Khả năng đọc và hiểu văn bản để trả lời các câu hỏi liên quan đến nội dung văn bản đó.
- D. Khả năng tóm tắt nội dung chính của một đoạn văn bản dài.
Câu 29: "Bias" (thiên kiến) trong mô hình NLP có thể phát sinh từ đâu và gây ra hậu quả gì?
- A. Chỉ phát sinh từ lỗi thuật toán và không liên quan đến dữ liệu.
- B. Chỉ ảnh hưởng đến tốc độ xử lý của mô hình, không ảnh hưởng đến kết quả.
- C. Chỉ xảy ra khi mô hình được huấn luyện trên dữ liệu quá nhỏ.
- D. Có thể phát sinh từ dữ liệu huấn luyện và dẫn đến kết quả không công bằng, phân biệt đối xử trong ứng dụng thực tế.
Câu 30: "Active learning" (học chủ động) có thể được áp dụng như thế nào trong NLP để cải thiện hiệu suất mô hình?
- A. Tự động tăng cường dữ liệu huấn luyện bằng cách sinh dữ liệu giả.
- B. Chọn lọc các mẫu dữ liệu "khó" hoặc "không chắc chắn" nhất để con người gán nhãn, giúp mô hình học hiệu quả hơn với ít dữ liệu hơn.
- C. Phân chia dữ liệu huấn luyện thành các nhóm nhỏ hơn để huấn luyện song song.
- D. Sử dụng phản hồi từ người dùng để điều chỉnh mô hình NLP trong quá trình sử dụng thực tế.