Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Xử Lí Ngôn Ngữ Tự Nhiên - Đề 02 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quá trình tiền xử lý văn bản cho NLP, kỹ thuật nào giúp đưa các từ về dạng cơ sở hoặc dạng gốc của chúng, nhằm giảm số lượng biến thể từ và chuẩn hóa văn bản?
- A. Mã hóa token (Tokenization)
- B. Loại bỏ từ dừng (Stop word removal)
- C. Lemma hóa (Lemmatization)
- D. Phân tích cú pháp (Parsing)
Câu 2: Mô hình Bag-of-Words (BoW) biểu diễn văn bản bằng cách nào?
- A. Bằng cách mã hóa thứ tự từ trong câu
- B. Bằng cách đếm tần suất xuất hiện của mỗi từ trong văn bản
- C. Bằng cách sử dụng mạng nơ-ron để học biểu diễn từ
- D. Bằng cách phân tích quan hệ ngữ pháp giữa các từ
Câu 3: TF-IDF là một kỹ thuật được sử dụng để làm gì trong NLP?
- A. Phân tích tình cảm của văn bản
- B. Phát hiện ngôn ngữ của văn bản
- C. Tóm tắt văn bản
- D. Đánh giá tầm quan trọng của từ trong một văn bản so với tập hợp văn bản
Câu 4: Word embedding (biểu diễn từ dạng वेक्टर) như Word2Vec và GloVe giúp ích gì trong các bài toán NLP?
- A. Biểu diễn từ dưới dạng vector số, giúp máy tính hiểu được quan hệ ngữ nghĩa giữa các từ
- B. Loại bỏ các từ không quan trọng trong văn bản
- C. Phân chia văn bản thành các câu
- D. Đếm tần suất xuất hiện của các từ
Câu 5: Nhiệm vụ nào sau đây thuộc về phân tích cú pháp (syntactic analysis) trong NLP?
- A. Xác định chủ đề của văn bản
- B. Xác định cấu trúc ngữ pháp và quan hệ giữa các thành phần trong câu
- C. Phân loại văn bản theo tình cảm (tích cực, tiêu cực, trung lập)
- D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
Câu 6: Mô hình ngôn ngữ N-gram hoạt động dựa trên nguyên tắc nào?
- A. Dựa trên mạng nơ-ron sâu để học ngữ cảnh
- B. Dựa trên quy tắc ngữ pháp được lập trình sẵn
- C. Dựa trên xác suất xuất hiện của N từ liên tiếp trong dữ liệu huấn luyện
- D. Dựa trên phân tích ngữ nghĩa của từ
Câu 7: Trong ngữ cảnh của mô hình Transformer, "attention mechanism" (cơ chế chú ý) có vai trò gì?
- A. Tăng tốc độ tính toán của mô hình
- B. Giảm thiểu hiện tượng overfitting
- C. Thay thế cho lớp mạng nơ-ron tích chập (CNN)
- D. Cho phép mô hình tập trung vào các phần quan trọng nhất của đầu vào khi xử lý
Câu 8: BERT (Bidirectional Encoder Representations from Transformers) là một mô hình ngôn ngữ được biết đến với điều gì?
- A. Khả năng hiểu ngữ cảnh hai chiều của từ trong câu
- B. Khả năng dịch ngôn ngữ theo thời gian thực
- C. Khả năng tạo sinh văn bản tự do
- D. Khả năng phân tích hình ảnh và văn bản đồng thời
Câu 9: Mục tiêu chính của nhiệm vụ "Named Entity Recognition" (NER - Nhận dạng thực thể có tên) là gì?
- A. Phân loại văn bản theo chủ đề
- B. Xác định và phân loại các thực thể có tên (ví dụ: người, tổ chức, địa điểm) trong văn bản
- C. Phân tích cảm xúc và thái độ trong văn bản
- D. Tóm tắt nội dung chính của văn bản
Câu 10: "Sentiment Analysis" (Phân tích tình cảm) được sử dụng để làm gì?
- A. Dịch văn bản sang ngôn ngữ khác
- B. Nhận dạng các thực thể có tên trong văn bản
- C. Xác định cảm xúc, thái độ (ví dụ: tích cực, tiêu cực, trung lập) được thể hiện trong văn bản
- D. Tạo ra văn bản mới dựa trên phong cách đã học
Câu 11: Trong Machine Translation (Dịch máy), thách thức "out-of-vocabulary" (OOV) đề cập đến vấn đề gì?
- A. Tốc độ dịch chậm do từ vựng quá lớn
- B. Sự mơ hồ về nghĩa của từ trong các ngôn ngữ khác nhau
- C. Khó khăn trong việc xử lý các câu phức tạp về mặt ngữ pháp
- D. Việc mô hình gặp phải các từ không xuất hiện trong dữ liệu huấn luyện
Câu 12: Kỹ thuật "back-translation" (dịch ngược) được sử dụng để làm gì trong dịch máy?
- A. Đánh giá chất lượng của bản dịch
- B. Tăng cường dữ liệu huấn luyện bằng cách tạo ra dữ liệu song ngữ tổng hợp
- C. Giảm kích thước của mô hình dịch máy
- D. Cải thiện khả năng xử lý từ OOV
Câu 13: "Text Summarization" (Tóm tắt văn bản) có hai phương pháp chính là extractive và abstractive. Phương pháp abstractive khác biệt như thế nào so với extractive?
- A. Abstractive chỉ tóm tắt các đoạn đầu của văn bản, còn extractive tóm tắt toàn bộ văn bản
- B. Extractive tạo ra bản tóm tắt ngắn hơn abstractive
- C. Abstractive tạo ra bản tóm tắt bằng cách diễn đạt lại ý chính, còn extractive chọn lọc và ghép nối các câu có sẵn trong văn bản gốc
- D. Extractive sử dụng mô hình học sâu, còn abstractive sử dụng phương pháp thống kê truyền thống
Câu 14: Nhiệm vụ "Question Answering" (QA - Hỏi đáp) trong NLP nhằm mục đích gì?
- A. Xây dựng hệ thống có thể trả lời câu hỏi của con người bằng ngôn ngữ tự nhiên
- B. Phân loại câu hỏi theo chủ đề
- C. Tạo ra các câu hỏi kiểm tra kiến thức
- D. Đánh giá độ khó của câu hỏi
Câu 15: "Chatbot" (Trợ lý ảo) sử dụng NLP để thực hiện điều gì?
- A. Phân tích dữ liệu người dùng để cải thiện sản phẩm
- B. Hiểu ngôn ngữ tự nhiên của người dùng và phản hồi một cách phù hợp
- C. Tự động tạo ra nội dung quảng cáo
- D. Theo dõi hành vi trực tuyến của người dùng
Câu 16: Độ đo "Precision" (Độ chính xác) trong đánh giá mô hình NLP được tính như thế nào?
- A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là tích cực
- B. Tỷ lệ dự đoán sai trên tổng số mẫu
- C. Tỷ lệ dự đoán đúng là tích cực trên tổng số mẫu dự đoán là tích cực
- D. Tỷ lệ mẫu thực tế là tích cực được dự đoán đúng
Câu 17: "Recall" (Độ phủ) trong đánh giá mô hình NLP thể hiện điều gì?
- A. Khả năng mô hình tìm ra tất cả các mẫu thực sự thuộc lớp tích cực
- B. Khả năng mô hình dự đoán chính xác các mẫu thuộc lớp tiêu cực
- C. Độ chính xác của mô hình trên toàn bộ tập dữ liệu
- D. Tỷ lệ dự đoán sai trên tổng số mẫu dự đoán
Câu 18: F1-score là gì và tại sao nó hữu ích trong đánh giá mô hình NLP?
- A. Đo lường tốc độ xử lý của mô hình
- B. Trung bình điều hòa của Precision và Recall, hữu ích khi cần cân bằng giữa độ chính xác và độ phủ
- C. Đo lường độ phức tạp của mô hình
- D. Đo lường khả năng khái quát hóa của mô hình trên dữ liệu mới
Câu 19: Vấn đề "bias" (thiên kiến) trong NLP có thể phát sinh từ đâu?
- A. Do thuật toán học máy không đủ mạnh
- B. Do kích thước dữ liệu huấn luyện quá nhỏ
- C. Do lỗi lập trình trong quá trình xây dựng mô hình
- D. Từ dữ liệu huấn luyện có sẵn chứa đựng các định kiến xã hội và văn hóa
Câu 20: Làm thế nào để giảm thiểu "bias" trong mô hình NLP?
- A. Tăng cường độ phức tạp của mô hình
- B. Sử dụng nhiều dữ liệu huấn luyện hơn
- C. Cải thiện chất lượng và tính đa dạng của dữ liệu huấn luyện, áp dụng các kỹ thuật de-biasing
- D. Giảm số lượng tham số trong mô hình
Câu 21: Thư viện spaCy trong Python được sử dụng chủ yếu cho mục đích gì trong NLP?
- A. Xây dựng mô hình dịch máy phức tạp
- B. Xử lý văn bản hiệu suất cao, bao gồm tokenization, POS tagging, NER, và phân tích cú pháp
- C. Phân tích dữ liệu âm thanh và giọng nói
- D. Thực hiện các thuật toán học máy cổ điển như SVM và Random Forest
Câu 22: NLTK (Natural Language Toolkit) là gì và nó cung cấp những gì cho người làm NLP?
- A. Một nền tảng đám mây để triển khai mô hình NLP
- B. Một công cụ trực tuyến để dịch văn bản
- C. Một thư viện chuyên biệt cho deep learning trong NLP
- D. Một bộ công cụ toàn diện cho NLP, bao gồm tài nguyên văn bản, thuật toán và công cụ đánh giá
Câu 23: Mô hình ngôn ngữ "word embeddings" có thể được sử dụng trực tiếp cho nhiệm vụ nào sau đây?
- A. Phân tích cú pháp câu
- B. Tạo sinh văn bản hoàn chỉnh
- C. Tính toán độ tương đồng ngữ nghĩa giữa các từ hoặc văn bản
- D. Nhận dạng thực thể có tên trong văn bản
Câu 24: RNN (Recurrent Neural Network - Mạng nơ-ron hồi quy) phù hợp với loại dữ liệu nào trong NLP?
- A. Dữ liệu chuỗi tuần tự, như văn bản và giọng nói
- B. Dữ liệu dạng bảng
- C. Dữ liệu hình ảnh tĩnh
- D. Dữ liệu phi cấu trúc không có thứ tự
Câu 25: LSTM (Long Short-Term Memory) là một loại mạng nơ-ron hồi quy được thiết kế để giải quyết vấn đề gì của RNN truyền thống?
- A. Vấn đề overfitting
- B. Vấn đề vanishing gradient (mất mát đạo hàm) khi xử lý chuỗi dài
- C. Vấn đề tính toán chậm
- D. Vấn đề thiếu dữ liệu huấn luyện
Câu 26: "Tokenization" (Mã hóa token) là quá trình đầu tiên trong nhiều quy trình NLP. Nó làm gì?
- A. Phân tích cấu trúc ngữ pháp của câu
- B. Loại bỏ các từ dừng (stop words) khỏi văn bản
- C. Chia văn bản thành các đơn vị nhỏ hơn, thường là từ hoặc cụm từ
- D. Chuyển đổi văn bản thành dạng số
Câu 27: "Stop words" (Từ dừng) là gì và tại sao chúng thường được loại bỏ trong tiền xử lý văn bản?
- A. Các từ mang thông tin ngữ nghĩa quan trọng nhất
- B. Các từ mới xuất hiện trong văn bản
- C. Các từ được sử dụng để liên kết các câu
- D. Các từ phổ biến, ít mang thông tin đặc trưng cho văn bản (ví dụ: "và", "là", "của"), thường được loại bỏ để giảm nhiễu
Câu 28: "Stemming" (Rút gốc từ) và "Lemmatization" (Lemma hóa) đều nhằm mục đích chuẩn hóa từ, nhưng khác nhau ở điểm nào?
- A. Stemming phức tạp hơn Lemmatization
- B. Stemming chỉ đơn giản cắt bỏ hậu tố, có thể tạo ra từ không có nghĩa, còn Lemmatization đưa về dạng từ điển có nghĩa
- C. Lemmatization nhanh hơn Stemming
- D. Stemming chỉ áp dụng cho tiếng Anh, còn Lemmatization có thể dùng cho nhiều ngôn ngữ
Câu 29: "Part-of-speech tagging" (Gán nhãn từ loại) là gì?
- A. Quá trình gán nhãn từ loại (ví dụ: danh từ, động từ, tính từ) cho mỗi từ trong câu
- B. Quá trình phân tích mối quan hệ giữa các từ trong câu
- C. Quá trình chuyển đổi văn bản thành giọng nói
- D. Quá trình dịch từ loại từ ngôn ngữ này sang ngôn ngữ khác
Câu 30: Trong ngữ cảnh của NLP, "corpus" (ngữ liệu) dùng để chỉ điều gì?
- A. Một thuật toán học máy cụ thể
- B. Một phương pháp đánh giá mô hình NLP
- C. Một tập hợp lớn các văn bản được sử dụng để huấn luyện hoặc đánh giá mô hình NLP
- D. Một loại word embedding đặc biệt