Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Xử Lí Ngôn Ngữ Tự Nhiên - Đề 10 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), bước tiền xử lý nào sau đây giúp giảm số chiều dữ liệu và tập trung vào các từ gốc bằng cách loại bỏ các hậu tố và tiền tố?
- A. Tách từ (Tokenization)
- B. Stemming (Cắt gốc từ)
- C. Lemmatization (Lemma hóa)
- D. Loại bỏ từ dừng (Stop word removal)
Câu 2: Mô hình Bag-of-Words (BoW) biểu diễn văn bản bằng cách nào?
- A. Duy trì thứ tự từ và ngữ pháp trong câu
- B. Mã hóa văn bản thành một chuỗi các embedding từ
- C. Đếm tần suất xuất hiện của mỗi từ trong văn bản và bỏ qua thứ tự từ
- D. Phân tích mối quan hệ ngữ nghĩa giữa các từ trong văn bản
Câu 3: Xét bài toán phân loại văn bản, kỹ thuật TF-IDF (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?
- A. Giảm số chiều của dữ liệu văn bản
- B. Phân tích ngữ nghĩa của văn bản
- C. Tìm kiếm các văn bản tương tự nhau
- D. Đánh trọng số cho các từ trong văn bản dựa trên tần suất xuất hiện trong văn bản hiện tại và toàn bộ tập văn bản
Câu 4: Nhiệm vụ "Named Entity Recognition" (NER) trong NLP nhằm mục đích gì?
- A. Xác định và phân loại các thực thể có tên (ví dụ: người, tổ chức, địa điểm) trong văn bản
- B. Phân tích cảm xúc và thái độ thể hiện trong văn bản
- C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
- D. Tóm tắt nội dung chính của văn bản
Câu 5: Word embedding (ví dụ: Word2Vec, GloVe) là gì và tại sao chúng hữu ích trong NLP?
- A. Phương pháp mã hóa văn bản thành dạng số để máy tính có thể xử lý, giúp tăng tốc độ tính toán
- B. Biểu diễn từ dưới dạng vectơ số trong không gian nhiều chiều, sao cho các từ có nghĩa tương tự nhau thì nằm gần nhau trong không gian vectơ, giúp mô hình hiểu được ngữ nghĩa
- C. Kỹ thuật giảm kích thước dữ liệu văn bản bằng cách loại bỏ các từ ít quan trọng, giúp giảm độ phức tạp của mô hình
- D. Mô hình ngôn ngữ dự đoán từ tiếp theo trong câu, giúp tạo ra văn bản tự nhiên và mạch lạc hơn
Câu 6: Trong các mô hình ngôn ngữ dựa trên mạng nơ-ron (neural network language models), cơ chế "attention" (chú ý) đóng vai trò gì?
- A. Tăng tốc độ huấn luyện mô hình bằng cách song song hóa các phép tính
- B. Giảm hiện tượng "vanishing gradient" trong quá trình huấn luyện mạng nơ-ron sâu
- C. Cho phép mô hình tập trung có chọn lọc vào các phần khác nhau của dữ liệu đầu vào khi đưa ra dự đoán, đặc biệt quan trọng trong xử lý các chuỗi dài
- D. Cải thiện khả năng khái quát hóa của mô hình bằng cách thêm nhiễu vào quá trình huấn luyện
Câu 7: Mô hình Transformer, đặc biệt là kiến trúc Transformer, đã cách mạng hóa lĩnh vực NLP như thế nào?
- A. Transformer là mô hình ngôn ngữ đầu tiên sử dụng mạng nơ-ron tích chập (CNN) cho xử lý văn bản
- B. Transformer giới thiệu khái niệm word embedding, giúp biểu diễn từ dưới dạng vectơ số
- C. Transformer loại bỏ hoàn toàn việc sử dụng cơ chế "attention", giúp mô hình đơn giản và hiệu quả hơn
- D. Transformer cho phép xử lý song song các phần của chuỗi đầu vào, khắc phục hạn chế của mạng RNN trong việc xử lý chuỗi dài và mở đường cho các mô hình lớn như BERT, GPT
Câu 8: "Sentiment analysis" (Phân tích cảm xúc) là gì và ứng dụng của nó trong thực tế?
- A. Quá trình chuyển đổi văn bản từ dạng viết sang dạng nói, ứng dụng trong tổng hợp giọng nói
- B. Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) thể hiện trong văn bản, ứng dụng trong đánh giá phản hồi khách hàng, theo dõi dư luận mạng xã hội
- C. Phân loại văn bản theo chủ đề hoặc thể loại, ứng dụng trong tổ chức và quản lý tài liệu
- D. Trích xuất thông tin quan trọng từ văn bản, ứng dụng trong tổng hợp tin tức, tạo báo cáo tự động
Câu 9: "Machine Translation" (Dịch máy) là một bài toán NLP phức tạp. Phương pháp dịch máy dựa trên thống kê (Statistical Machine Translation - SMT) khác biệt như thế nào so với dịch máy nơ-ron (Neural Machine Translation - NMT)?
- A. SMT sử dụng mạng nơ-ron sâu, trong khi NMT dựa trên các mô hình thống kê truyền thống
- B. NMT tập trung vào việc dịch từng từ một, còn SMT dịch cả câu cùng một lúc
- C. SMT dựa trên các mô hình thống kê và quy tắc ngôn ngữ học, trong khi NMT học cách dịch trực tiếp từ dữ liệu song ngữ lớn thông qua mạng nơ-ron
- D. NMT chỉ có thể dịch giữa các ngôn ngữ có cấu trúc tương tự nhau, còn SMT có thể dịch giữa mọi cặp ngôn ngữ
Câu 10: Trong NLP, "parsing" (phân tích cú pháp) là gì và tại sao nó quan trọng?
- A. Quá trình loại bỏ các từ dừng (stop words) khỏi văn bản, giúp giảm nhiễu và tăng hiệu quả xử lý
- B. Phân tích ý nghĩa của từ và cụm từ trong ngữ cảnh, giúp hiểu sâu hơn về nội dung văn bản
- C. Chia văn bản thành các câu hoặc đoạn văn nhỏ hơn để dễ dàng xử lý
- D. Phân tích cấu trúc ngữ pháp của câu, xác định vai trò và mối quan hệ giữa các thành phần câu (chủ ngữ, vị ngữ, tân ngữ...), giúp máy tính hiểu được cấu trúc và ý nghĩa của câu
Câu 11: "Coreference resolution" (Giải quyết đồng tham chiếu) là gì và tại sao nó cần thiết trong NLP?
- A. Xác định các cụm từ (ví dụ: đại từ, danh từ chung) cùng tham chiếu đến một thực thể duy nhất trong văn bản, giúp mô hình hiểu được sự liên kết và mạch lạc của văn bản
- B. Phân loại văn bản theo chủ đề chính, giúp tổ chức và tìm kiếm thông tin hiệu quả hơn
- C. Dịch văn bản sang ngôn ngữ khác một cách chính xác và tự nhiên
- D. Tóm tắt văn bản bằng cách chọn ra các câu quan trọng nhất, giúp tiết kiệm thời gian đọc
Câu 12: Kỹ thuật "topic modeling" (mô hình hóa chủ đề) như Latent Dirichlet Allocation (LDA) được sử dụng để làm gì trong NLP?
- A. Phân tích cảm xúc và thái độ của tác giả văn bản
- B. Khám phá các chủ đề tiềm ẩn trong một tập hợp văn bản lớn và phân loại văn bản theo chủ đề
- C. Dự đoán từ tiếp theo trong một chuỗi văn bản
- D. Nhận dạng và phân loại các thực thể có tên trong văn bản
Câu 13: "Question Answering" (Hỏi đáp tự động) là một lĩnh vực ứng dụng quan trọng của NLP. Hệ thống hỏi đáp tự động (QA system) hoạt động như thế nào?
- A. Hệ thống QA dịch câu hỏi sang ngôn ngữ khác và tìm kiếm câu trả lời trong các văn bản dịch
- B. Hệ thống QA tạo ra câu trả lời mới dựa trên thông tin được học từ tập dữ liệu huấn luyện lớn
- C. Hệ thống QA phân tích câu hỏi và tìm kiếm thông tin liên quan trong một nguồn dữ liệu (ví dụ: tập văn bản, cơ sở tri thức) để trích xuất hoặc tổng hợp câu trả lời
- D. Hệ thống QA sử dụng các quy tắc ngữ pháp và từ vựng để trả lời câu hỏi một cách chính xác
Câu 14: "Text summarization" (Tóm tắt văn bản) có hai phương pháp chính: extractive summarization và abstractive summarization. Sự khác biệt chính giữa hai phương pháp này là gì?
- A. Extractive summarization tạo ra bản tóm tắt ngắn hơn bản gốc, còn abstractive summarization tạo ra bản tóm tắt dài hơn
- B. Abstractive summarization tập trung vào việc tóm tắt các văn bản khoa học, còn extractive summarization phù hợp với văn bản báo chí
- C. Extractive summarization cần dữ liệu huấn luyện song ngữ, còn abstractive summarization chỉ cần dữ liệu đơn ngữ
- D. Extractive summarization chọn lọc và kết hợp các câu hoặc đoạn quan trọng từ văn bản gốc, còn abstractive summarization diễn giải lại và tạo ra bản tóm tắt bằng cách sử dụng từ ngữ và cấu trúc câu mới
Câu 15: Trong ngữ cảnh của mô hình ngôn ngữ, "perplexity" là gì và nó được sử dụng để đánh giá điều gì?
- A. Độ phức tạp tính toán của mô hình ngôn ngữ, đo lường thời gian cần thiết để huấn luyện mô hình
- B. Đo lường khả năng dự đoán của mô hình ngôn ngữ, perplexity thấp hơn cho thấy mô hình dự đoán tốt hơn (ít "bối rối" hơn) về chuỗi văn bản
- C. Số lượng tham số trong mô hình ngôn ngữ, perplexity cao hơn cho thấy mô hình có nhiều tham số hơn
- D. Tỷ lệ lỗi chính tả và ngữ pháp trong văn bản do mô hình ngôn ngữ tạo ra
Câu 16: "Zero-shot learning" trong NLP có nghĩa là gì?
- A. Mô hình học cách dịch giữa hai ngôn ngữ mà không cần dữ liệu song ngữ
- B. Mô hình có thể thực hiện nhiệm vụ phân tích cảm xúc mà không cần bất kỳ dữ liệu huấn luyện nào
- C. Mô hình có khả năng thực hiện các nhiệm vụ hoặc phân loại các đối tượng mà nó chưa từng được huấn luyện trực tiếp trên dữ liệu của nhiệm vụ/đối tượng đó, dựa trên sự hiểu biết về ngôn ngữ và thế giới
- D. Mô hình chỉ sử dụng dữ liệu không nhãn để học biểu diễn ngôn ngữ
Câu 17: "Few-shot learning" khác với "zero-shot learning" như thế nào trong NLP?
- A. Few-shot learning cho phép mô hình học từ một số lượng nhỏ ví dụ huấn luyện cho nhiệm vụ mới, trong khi zero-shot learning không sử dụng bất kỳ ví dụ huấn luyện nào cho nhiệm vụ mới
- B. Zero-shot learning chỉ áp dụng cho các bài toán phân loại văn bản, còn few-shot learning có thể áp dụng cho nhiều loại bài toán NLP khác nhau
- C. Few-shot learning sử dụng mô hình Transformer, còn zero-shot learning sử dụng các mô hình thống kê truyền thống
- D. Không có sự khác biệt nào đáng kể giữa few-shot learning và zero-shot learning
Câu 18: "Knowledge graph" (Đồ thị tri thức) là gì và ứng dụng của nó trong NLP?
- A. Một loại mô hình ngôn ngữ được huấn luyện trên dữ liệu văn bản khổng lồ
- B. Một mạng lưới các thực thể (ví dụ: người, địa điểm, sự kiện) và mối quan hệ giữa chúng, được sử dụng để lưu trữ và truy xuất tri thức, hỗ trợ các ứng dụng như hỏi đáp tự động, suy luận, và khám phá tri thức
- C. Một kỹ thuật giảm chiều dữ liệu văn bản bằng cách loại bỏ các thông tin không liên quan
- D. Một phương pháp đánh giá hiệu suất của mô hình dịch máy
Câu 19: "Dialogue system" (Hệ thống đối thoại) hay "chatbot" là gì và có những loại hệ thống đối thoại nào?
- A. Hệ thống đối thoại là phần mềm dịch văn bản sang ngôn ngữ khác
- B. Hệ thống đối thoại là công cụ phân tích cảm xúc văn bản
- C. Hệ thống đối thoại là phần mềm tương tác với người dùng thông qua ngôn ngữ tự nhiên, có thể phân loại thành hệ thống định hướng nhiệm vụ (task-oriented) và hệ thống trò chuyện phiếm (chit-chat/conversational)
- D. Hệ thống đối thoại là cơ sở dữ liệu lưu trữ tri thức về ngôn ngữ tự nhiên
Câu 20: "Text generation" (Sinh văn bản) là gì và một số ứng dụng của nó?
- A. Quá trình chuyển đổi văn bản từ dạng viết sang dạng nói
- B. Phân tích cấu trúc ngữ pháp của văn bản
- C. Tóm tắt nội dung chính của văn bản
- D. Quá trình tạo ra văn bản mới một cách tự động, ứng dụng trong tạo nội dung tự động, viết email, chatbot, và nhiều ứng dụng khác
Câu 21: "Adversarial attacks" (Tấn công đối nghịch) là gì trong NLP và tại sao chúng là một mối quan tâm?
- A. Các kỹ thuật tạo ra các mẫu đầu vào (ví dụ: văn bản) được thiết kế đặc biệt để đánh lừa mô hình NLP đưa ra dự đoán sai, gây ra rủi ro bảo mật và độ tin cậy trong các ứng dụng thực tế
- B. Các phương pháp cải thiện hiệu suất của mô hình NLP bằng cách "tấn công" vào các điểm yếu của dữ liệu huấn luyện
- C. Các kỹ thuật đánh giá mô hình NLP bằng cách đo lường khả năng chống lại các loại nhiễu khác nhau trong dữ liệu đầu vào
- D. Các biện pháp bảo vệ mô hình NLP khỏi bị sao chép hoặc đánh cắp
Câu 22: "Interpretability" (Khả năng diễn giải) trong NLP là gì và tại sao nó quan trọng?
- A. Khả năng dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác một cách chính xác
- B. Khả năng hiểu được cách mô hình NLP đưa ra quyết định hoặc dự đoán, giúp tăng cường độ tin cậy, phát hiện lỗi và cải thiện mô hình, đặc biệt quan trọng trong các ứng dụng nhạy cảm
- C. Khả năng xử lý văn bản nhanh chóng và hiệu quả về mặt tính toán
- D. Khả năng học từ dữ liệu không nhãn mà không cần sự giám sát của con người
Câu 23: "Bias" (Thiên kiến) trong dữ liệu và mô hình NLP là gì và làm thế nào để giảm thiểu nó?
- A. Bias là lỗi trong mã chương trình NLP, có thể được sửa bằng cách gỡ lỗi cẩn thận
- B. Bias là thuật ngữ chỉ sự khác biệt về hiệu suất giữa các mô hình NLP khác nhau
- C. Bias là sự thiên lệch hoặc không công bằng trong dữ liệu huấn luyện hoặc mô hình NLP, có thể dẫn đến kết quả phân biệt đối xử hoặc không chính xác cho một số nhóm người dùng nhất định. Giảm thiểu bias đòi hỏi sự chú ý đến việc thu thập dữ liệu, thiết kế mô hình và đánh giá một cách cẩn thận
- D. Bias là hiện tượng mô hình NLP hoạt động kém trên dữ liệu mới so với dữ liệu huấn luyện
Câu 24: "Active learning" (Học chủ động) có thể được sử dụng như thế nào trong NLP?
- A. Active learning là phương pháp huấn luyện mô hình NLP trên dữ liệu không nhãn
- B. Active learning được sử dụng để phát hiện và giảm thiểu bias trong dữ liệu NLP
- C. Active learning là kỹ thuật tấn công đối nghịch để kiểm tra độrobust của mô hình NLP
- D. Active learning có thể được sử dụng để chọn lọc các mẫu dữ liệu "thông tin" nhất để con người gán nhãn, giúp giảm chi phí gán nhãn và tăng hiệu quả huấn luyện mô hình với dữ liệu hạn chế
Câu 25: "Transfer learning" (Học chuyển giao) là gì và tại sao nó hữu ích trong NLP?
- A. Transfer learning là phương pháp dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
- B. Transfer learning là kỹ thuật tận dụng kiến thức đã học từ một nhiệm vụ (ví dụ: huấn luyện mô hình ngôn ngữ trên dữ liệu lớn) để cải thiện hiệu suất trên một nhiệm vụ khác liên quan (ví dụ: phân loại văn bản với dữ liệu nhỏ), giúp tiết kiệm thời gian và dữ liệu huấn luyện
- C. Transfer learning là phương pháp tạo ra các bản tóm tắt văn bản ngắn gọn và súc tích
- D. Transfer learning là kỹ thuật phân tích cảm xúc và thái độ trong văn bản
Câu 26: "Data augmentation" (Tăng cường dữ liệu) là gì và làm thế nào nó được áp dụng trong NLP?
- A. Data augmentation là phương pháp giảm kích thước dữ liệu văn bản để tăng tốc độ huấn luyện mô hình
- B. Data augmentation là kỹ thuật loại bỏ dữ liệu nhiễu hoặc không liên quan khỏi tập huấn luyện
- C. Data augmentation là kỹ thuật tạo ra các mẫu dữ liệu huấn luyện mới từ dữ liệu hiện có bằng cách áp dụng các phép biến đổi (ví dụ: thay thế từ đồng nghĩa, xáo trộn câu), giúp tăng tính đa dạng của dữ liệu và cải thiện khả năng khái quát hóa của mô hình
- D. Data augmentation là phương pháp gán nhãn dữ liệu không nhãn một cách tự động
Câu 27: "Evaluation metrics" (Độ đo đánh giá) nào thường được sử dụng để đánh giá hiệu suất của các mô hình phân loại văn bản?
- A. Perplexity
- B. BLEU score
- C. ROUGE score
- D. Accuracy, Precision, Recall, F1-score
Câu 28: "BLEU score" và "ROUGE score" là gì và chúng được sử dụng để đánh giá hiệu suất của các mô hình NLP trong nhiệm vụ nào?
- A. Các độ đo đánh giá chất lượng của văn bản được sinh ra bởi mô hình so với văn bản tham chiếu, thường được sử dụng trong dịch máy (BLEU) và tóm tắt văn bản (ROUGE)
- B. Các độ đo đánh giá tốc độ xử lý văn bản của mô hình NLP
- C. Các độ đo đánh giá khả năng diễn giải của mô hình NLP
- D. Các độ đo đánh giá mức độ bias trong mô hình NLP
Câu 29: "Cross-lingual NLP" (NLP đa ngôn ngữ) là gì và tại sao nó trở nên quan trọng?
- A. Cross-lingual NLP là lĩnh vực nghiên cứu về dịch máy giữa các ngôn ngữ khác nhau
- B. Cross-lingual NLP là lĩnh vực nghiên cứu và phát triển các mô hình NLP có thể xử lý và hiểu nhiều ngôn ngữ khác nhau, giúp vượt qua rào cản ngôn ngữ và tiếp cận thông tin đa dạng trên toàn cầu
- C. Cross-lingual NLP là kỹ thuật tăng cường dữ liệu bằng cách dịch văn bản sang nhiều ngôn ngữ khác nhau
- D. Cross-lingual NLP là phương pháp đánh giá hiệu suất của mô hình NLP trên nhiều ngôn ngữ khác nhau
Câu 30: "Explainable AI" (XAI) trong NLP hướng đến mục tiêu gì?
- A. XAI trong NLP tập trung vào việc tăng tốc độ xử lý văn bản của các mô hình AI
- B. XAI trong NLP nhằm mục đích giảm thiểu bias trong dữ liệu và mô hình AI
- C. XAI trong NLP hướng đến việc làm cho các mô hình AI trở nên dễ hiểu và dễ diễn giải hơn đối với con người, cung cấp lý do cho các quyết định và dự đoán của mô hình, tăng cường sự tin tưởng và khả năng kiểm soát của con người đối với hệ thống AI
- D. XAI trong NLP tập trung vào việc cải thiện độ chính xác của các mô hình AI trên các nhiệm vụ phức tạp