Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Xử Lí Ngôn Ngữ Tự Nhiên - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quá trình tiền xử lý văn bản cho NLP, kỹ thuật nào giúp giảm số lượng chiều dữ liệu bằng cách chuyển các từ về dạng cơ sở, từ đó gom nhóm các biến thể của từ (ví dụ: "chạy", "đã chạy", "đang chạy" về "chạy")?
- A. Tách từ (Tokenization)
- B. Loại bỏ từ dừng (Stop word removal)
- C. Nguyên thể hóa (Lemmatization)
- D. Chuẩn hóa văn bản (Text normalization)
Câu 2: Mô hình không gian vectơ từ (Word embedding) nào sau đây thể hiện mối quan hệ ngữ nghĩa giữa các từ bằng cách chiếu chúng vào một không gian vectơ đa chiều, nơi các từ có nghĩa tương tự nằm gần nhau hơn?
- A. Word2Vec
- B. Bag-of-Words
- C. TF-IDF
- D. One-hot encoding
Câu 3: Trong các bài toán phân loại văn bản, kỹ thuật nào sau đây giúp đánh giá mức độ quan trọng của một từ trong một văn bản so với toàn bộ tập văn bản, từ đó giúp xác định các từ khóa đặc trưng cho từng loại văn bản?
- A. Đếm tần suất từ (Term Frequency - TF)
- B. TF-IDF (Term Frequency-Inverse Document Frequency)
- C. Bag-of-Words
- D. N-gram
Câu 4: Xét bài toán phân tích cảm xúc văn bản. Khi một mô hình NLP dự đoán một bình luận là "tích cực" trong khi thực tế nó là "tiêu cực", điều này được gọi là lỗi gì trong đánh giá mô hình?
- A. Độ chính xác (Accuracy)
- B. ĐộRecall (Recall)
- C. Điểm F1 (F1-score)
- D. Lỗi dương tính giả (False Positive)
Câu 5: Trong kiến trúc Transformer, cơ chế "self-attention" đóng vai trò gì quan trọng trong việc xử lý ngôn ngữ?
- A. Tăng tốc độ tính toán song song
- B. Cho phép mô hình học được mối quan hệ giữa các từ trong cùng một câu
- C. Giảm thiểu hiện tượng biến mất gradient
- D. Thay thế hoàn toàn mạng nơ-ron tích chập (CNN)
Câu 6: Để xây dựng một hệ thống chatbot có khả năng duy trì ngữ cảnh hội thoại, loại mô hình mạng nơ-ron hồi quy (RNN) nào sau đây thường được sử dụng vì khả năng ghi nhớ thông tin từ các bước thời gian trước đó?
- A. Mạng nơ-ron truyền thẳng (Feedforward Neural Network)
- B. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN)
- C. Mạng nơ-ron hồi quy dài-ngắn hạn (Long Short-Term Memory - LSTM)
- D. Mạng tự mã hóa (Autoencoder)
Câu 7: Trong dịch máy thống kê, mô hình ngôn ngữ (Language Model) được sử dụng với mục đích chính nào?
- A. Phân tích cấu trúc cú pháp của câu nguồn
- B. Đảm bảo tính trôi chảy và ngữ pháp của câu dịch ở ngôn ngữ đích
- C. Đối chiếu từ vựng giữa ngôn ngữ nguồn và ngôn ngữ đích
- D. Xử lý các từ không có trong từ điển
Câu 8: Khi đánh giá hiệu suất của một hệ thống nhận dạng thực thể có tên (Named Entity Recognition - NER), chỉ số nào sau đây đo lường tỷ lệ thực thể có tên được hệ thống xác định chính xác trong số tất cả các thực thể có tên thực sự tồn tại trong văn bản?
- A. Độ chính xác (Precision)
- B. Độ đo F1 (F1-score)
- C. ĐộRecall (Recall)
- D. Độ đo AUC (AUC-score)
Câu 9: Kỹ thuật "back-translation" (dịch ngược) được sử dụng trong NLP với mục đích chính nào, đặc biệt trong các bài toán dịch máy?
- A. Đánh giá chất lượng bản dịch máy
- B. Cải thiện tốc độ dịch máy
- C. Giảm kích thước mô hình dịch máy
- D. Tăng cường dữ liệu huấn luyện cho mô hình dịch máy
Câu 10: Trong xử lý ngôn ngữ tự nhiên, "parsing" (phân tích cú pháp) đề cập đến nhiệm vụ nào?
- A. Phân tích cấu trúc ngữ pháp của một câu để xác định mối quan hệ giữa các từ
- B. Chuyển đổi văn bản thành giọng nói
- C. Phân loại văn bản theo chủ đề
- D. Loại bỏ các từ không quan trọng trong văn bản
Câu 11: Để xử lý hiệu quả các từ "out-of-vocabulary" (OOV - từ ngoại từ điển) mà mô hình chưa từng gặp trong quá trình huấn luyện, kỹ thuật nào thường được sử dụng trong các mô hình ngôn ngữ hiện đại, ví dụ như mô hình dựa trên Transformer?
- A. Thay thế từ OOV bằng từ đồng nghĩa
- B. Sử dụng mã hóa theo cặp byte (Byte Pair Encoding - BPE) hoặc các phương pháp phân tách từ con
- C. Bỏ qua hoàn toàn các từ OOV trong quá trình xử lý
- D. Gán ngẫu nhiên vectơ cho các từ OOV
Câu 12: Trong các ứng dụng NLP, "chunking" (phân đoạn cú pháp nông) là quá trình nhận dạng và nhóm các thành phần nào trong câu?
- A. Các mệnh đề độc lập và phụ thuộc
- B. Các từ khóa quan trọng nhất trong câu
- C. Các cụm từ có nghĩa (ví dụ: cụm danh từ, cụm động từ)
- D. Các thực thể có tên (Named Entities)
Câu 13: Mô hình BERT (Bidirectional Encoder Representations from Transformers) nổi tiếng với khả năng hiểu ngữ cảnh hai chiều của từ trong câu. Điều này có nghĩa là gì?
- A. BERT chỉ xử lý văn bản từ trái sang phải, giống như các mô hình RNN truyền thống.
- B. BERT xem xét cả ngữ cảnh bên trái và bên phải của một từ khi tạo biểu diễn vectơ từ đó.
- C. BERT chỉ phù hợp cho các bài toán phân loại văn bản, không dùng được cho nhận dạng thực thể.
- D. BERT là một mô hình ngôn ngữ dựa trên CNN, không phải Transformer.
Câu 14: Trong bài toán tóm tắt văn bản tự động, phương pháp "extractive summarization" (tóm tắt trích rút) hoạt động bằng cách nào?
- A. Chọn lọc và kết hợp các câu quan trọng nhất từ văn bản gốc để tạo bản tóm tắt
- B. Diễn giải lại nội dung của văn bản gốc bằng ngôn ngữ khác
- C. Sử dụng mô hình sinh văn bản để tạo ra bản tóm tắt mới hoàn toàn
- D. Loại bỏ các thông tin không quan trọng và giữ lại các từ khóa chính
Câu 15: Để đánh giá độ tương đồng ngữ nghĩa giữa hai câu văn, phương pháp nào sau đây thường được sử dụng trong NLP?
- A. So sánh số lượng từ chung giữa hai câu
- B. Kiểm tra xem hai câu có cùng chủ đề hay không
- C. Đếm số lượng thực thể có tên giống nhau
- D. Sử dụng biểu diễn vectơ câu (sentence embeddings) và tính độ tương đồng cosine giữa chúng
Câu 16: Trong xử lý ngôn ngữ tự nhiên cho tiếng Việt, công cụ nào sau đây cung cấp chức năng tách từ (word segmentation) hiệu quả, đặc biệt khi tiếng Việt là ngôn ngữ không có dấu cách giữa các từ?
- A. NLTK (Natural Language Toolkit)
- B. SpaCy
- C. underthesea
- D. Stanford CoreNLP
Câu 17: Ứng dụng nào sau đây của NLP tập trung vào việc chuyển đổi ngôn ngữ viết thành ngôn ngữ nói?
- A. Nhận dạng giọng nói (Speech Recognition)
- B. Tổng hợp tiếng nói (Text-to-Speech - TTS)
- C. Dịch máy (Machine Translation)
- D. Phân tích văn bản (Text Analytics)
Câu 18: Giả sử bạn có một tập dữ liệu lớn các đánh giá sản phẩm trực tuyến. Nhiệm vụ NLP nào sẽ giúp bạn tự động phân loại các đánh giá này thành "tích cực", "tiêu cực", hoặc "trung lập"?
- A. Nhận dạng thực thể có tên (Named Entity Recognition)
- B. Tóm tắt văn bản (Text Summarization)
- C. Phân tích cú pháp (Syntactic Parsing)
- D. Phân tích cảm xúc (Sentiment Analysis)
Câu 19: Để xây dựng một hệ thống hỏi đáp tự động (Question Answering system), thành phần nào của NLP giúp trích xuất thông tin quan trọng từ văn bản để trả lời câu hỏi?
- A. Sinh văn bản (Text Generation)
- B. Dịch máy (Machine Translation)
- C. Trích xuất thông tin (Information Extraction)
- D. Phân loại văn bản (Text Classification)
Câu 20: Trong ngữ cảnh của mô hình ngôn ngữ, "perplexity" là một độ đo đánh giá điều gì?
- A. Khả năng dự đoán chuỗi từ tiếp theo của mô hình ngôn ngữ
- B. Tốc độ huấn luyện của mô hình ngôn ngữ
- C. Kích thước bộ nhớ cần thiết để lưu trữ mô hình ngôn ngữ
- D. Độ phức tạp của kiến trúc mô hình ngôn ngữ
Câu 21: Kỹ thuật "word sense disambiguation" (WSD - phân biệt nghĩa của từ) trong NLP nhằm giải quyết vấn đề gì?
- A. Phân tích cấu trúc cú pháp của câu chứa từ đó
- B. Xác định nghĩa chính xác của một từ trong ngữ cảnh cụ thể khi từ đó có nhiều nghĩa
- C. Tìm ra các từ đồng nghĩa và trái nghĩa của từ
- D. Chuyển đổi từ về dạng nguyên thể của nó
Câu 22: Trong lĩnh vực chatbot và trợ lý ảo, "intent recognition" (nhận dạng ý định) là bước quan trọng để làm gì?
- A. Tạo ra phản hồi tự nhiên và trôi chảy
- B. Lưu trữ lịch sử hội thoại của người dùng
- C. Xác định mục đích hoặc mong muốn của người dùng thông qua câu nói của họ
- D. Chuyển đổi giọng nói của người dùng thành văn bản
Câu 23: Để giảm thiểu kích thước từ vựng trong mô hình NLP và xử lý các ngôn ngữ có hình thái phong phú (morphologically rich languages), kỹ thuật nào sau đây thường được sử dụng?
- A. Loại bỏ từ dừng (Stop word removal)
- B. Nguyên thể hóa (Lemmatization)
- C. Stemming
- D. Phân tách từ thành đơn vị con (Subword tokenization)
Câu 24: Trong các mô hình sequence-to-sequence như Transformer, cơ chế "encoder-decoder attention" (chú ý bộ mã hóa-giải mã) giúp ích gì trong quá trình dịch máy?
- A. Tăng tốc độ huấn luyện mô hình
- B. Cho phép bộ giải mã (decoder) tập trung vào các phần liên quan của câu nguồn khi tạo từ dịch
- C. Giảm độ phức tạp tính toán của mô hình
- D. Cải thiện khả năng xử lý ngữ cảnh hai chiều của mô hình
Câu 25: Để đảm bảo tính công bằng và tránh thiên kiến (bias) trong các hệ thống NLP, ví dụ như trong phân tích cảm xúc hoặc tuyển dụng tự động, cần thực hiện những biện pháp nào?
- A. Chỉ sử dụng dữ liệu từ một nguồn duy nhất để đảm bảo tính nhất quán
- B. Tăng cường sử dụng các thuật toán phức tạp hơn để tự động loại bỏ thiên kiến
- C. Đa dạng hóa dữ liệu huấn luyện và kiểm tra, đồng thời giám sát và đánh giá thiên kiến trong mô hình
- D. Giấu thông tin nhạy cảm (ví dụ: giới tính, chủng tộc) trong dữ liệu huấn luyện
Câu 26: Trong lĩnh vực xử lý ngôn ngữ tự nhiên, "knowledge graph" (biểu đồ tri thức) được sử dụng để biểu diễn điều gì?
- A. Các thực thể và mối quan hệ giữa chúng trong thế giới thực
- B. Cấu trúc ngữ pháp của ngôn ngữ
- C. Biểu diễn vectơ của từ và câu
- D. Quy trình xử lý văn bản từ đầu đến cuối
Câu 27: Trong các hệ thống đối thoại, "dialogue state tracking" (theo dõi trạng thái hội thoại) là quá trình quản lý thông tin gì?
- A. Lịch sử các câu hỏi và câu trả lời trong hội thoại
- B. Thông tin về ngữ cảnh hiện tại và mục tiêu của người dùng trong hội thoại
- C. Các thực thể có tên được đề cập trong hội thoại
- D. Cảm xúc của người dùng trong suốt hội thoại
Câu 28: Để xây dựng một hệ thống gợi ý sản phẩm dựa trên đánh giá văn bản của người dùng, kỹ thuật NLP nào sau đây có thể được sử dụng để xác định các khía cạnh (aspects) khác nhau của sản phẩm mà người dùng quan tâm (ví dụ: "pin", "màn hình", "camera" của điện thoại)?
- A. Phân loại văn bản (Text Classification)
- B. Tóm tắt văn bản (Text Summarization)
- C. Phân tích cảm xúc tổng thể (Overall Sentiment Analysis)
- D. Phân tích cảm xúc dựa trên khía cạnh (Aspect-Based Sentiment Analysis)
Câu 29: Trong NLP, kỹ thuật "zero-shot learning" (học không mẫu) cho phép mô hình làm gì?
- A. Học từ dữ liệu không có nhãn
- B. Huấn luyện mô hình trên dữ liệu tổng hợp
- C. Tổng quát hóa và thực hiện nhiệm vụ trên các lớp hoặc nhãn chưa từng thấy trong quá trình huấn luyện
- D. Tăng tốc độ học của mô hình bằng cách bỏ qua một số mẫu dữ liệu
Câu 30: Trong lĩnh vực đạo đức và trách nhiệm giải trình của AI, vấn đề "explainability" (khả năng giải thích) trong NLP có ý nghĩa gì?
- A. Khả năng mô hình tự động sửa lỗi sai trong quá trình xử lý ngôn ngữ
- B. Khả năng hiểu và giải thích được lý do tại sao mô hình đưa ra một dự đoán hoặc quyết định cụ thể
- C. Khả năng mô hình học hỏi từ ít dữ liệu huấn luyện hơn
- D. Khả năng mô hình hoạt động hiệu quả trên nhiều ngôn ngữ khác nhau