Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 09 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quy trình Khám phá Tri thức từ Dữ liệu (KDD), bước nào sau đây tập trung vào việc chuyển đổi dữ liệu thô sang định dạng phù hợp cho phân tích, bao gồm xử lý giá trị thiếu và loại bỏ nhiễu?
- A. Khai phá dữ liệu (Data Mining)
- B. Tiền xử lý dữ liệu (Data Preprocessing)
- C. Đánh giá mẫu (Pattern Evaluation)
- D. Lựa chọn dữ liệu (Data Selection)
Câu 2: Giả sử bạn có một tập dữ liệu giao dịch bán lẻ. Bạn muốn tìm ra các nhóm sản phẩm thường được mua cùng nhau. Kỹ thuật khai phá dữ liệu nào sau đây phù hợp nhất để giải quyết vấn đề này?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai thác luật kết hợp (Association Rule Mining)
- D. Hồi quy (Regression)
Câu 3: Độ đo "độ hỗ trợ" (support) trong khai thác luật kết hợp thể hiện điều gì?
- A. Tần suất xuất hiện của một tập mục trong tập dữ liệu giao dịch.
- B. Độ tin cậy của một luật kết hợp.
- C. Mức độ quan trọng của một thuộc tính trong phân lớp.
- D. Sự tương đồng giữa các đối tượng trong phân cụm.
Câu 4: Thuật toán Apriori sử dụng nguyên lý "tính chất Apriori". Nguyên lý này phát biểu rằng:
- A. Các tập mục không thường xuyên có tất cả các tập con cũng không thường xuyên.
- B. Các tập mục thường xuyên có tất cả các tập con cũng thường xuyên.
- C. Độ hỗ trợ của một tập mục luôn lớn hơn độ tin cậy của luật kết hợp sinh ra từ nó.
- D. Thuật toán Apriori chỉ hiệu quả với dữ liệu giao dịch nhỏ.
Câu 5: Trong thuật toán FP-Growth, cấu trúc dữ liệu FP-Tree được sử dụng để:
- A. Lưu trữ tất cả các luật kết hợp có thể có.
- B. Thay thế cơ sở dữ liệu giao dịch gốc để giảm kích thước dữ liệu.
- C. Nén dữ liệu giao dịch và biểu diễn các tập mục thường xuyên một cách hiệu quả.
- D. Tính toán độ hỗ trợ cho tất cả các tập mục một cách trực tiếp.
Câu 6: Phân loại (Classification) là một kỹ thuật khai phá dữ liệu thuộc loại:
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 7: Cho một bài toán phân lớp với hai lớp "Có" và "Không". Ma trận nhầm lẫn (Confusion Matrix) được sử dụng để đánh giá hiệu suất của mô hình phân lớp. Ô "True Negative" (TN) trong ma trận nhầm lẫn thể hiện:
- A. Số lượng trường hợp thực tế là "Có" nhưng mô hình dự đoán là "Không".
- B. Số lượng trường hợp thực tế là "Không" nhưng mô hình dự đoán là "Có".
- C. Tổng số trường hợp "Có" trong tập dữ liệu.
- D. Số lượng trường hợp thực tế là "Không" và mô hình dự đoán đúng là "Không".
Câu 8: Độ đo "độ chính xác" (accuracy) trong đánh giá mô hình phân lớp được tính bằng công thức nào sau đây (với TP=True Positive, TN=True Negative, FP=False Positive, FN=False Negative)?
- A. TP / (TP + FP)
- B. (TP + TN) / (TP + TN + FP + FN)
- C. TP / (TP + FN)
- D. TN / (TN + FP)
Câu 9: Cây quyết định (Decision Tree) là một phương pháp phân lớp dựa trên:
- A. Mạng nơ-ron nhân tạo.
- B. Nguyên lý Bayes.
- C. Luật dạng IF-THEN được suy diễn từ dữ liệu.
- D. Khoảng cách giữa các điểm dữ liệu.
Câu 10: Entropy và Information Gain là các độ đo quan trọng trong việc xây dựng cây quyết định. Information Gain được sử dụng để:
- A. Chọn thuộc tính tốt nhất để phân chia nút trong quá trình xây dựng cây.
- B. Đo lường độ phức tạp của cây quyết định.
- C. Xác định ngưỡng dừng phân chia nút.
- D. Cân bằng kích thước giữa các nhánh của cây.
Câu 11: Phân cụm (Clustering) khác với phân lớp (Classification) ở điểm nào chính?
- A. Phân cụm chỉ áp dụng cho dữ liệu số, phân lớp áp dụng cho dữ liệuCategorical.
- B. Phân cụm là học không giám sát, phân lớp là học có giám sát.
- C. Phân cụm luôn cho kết quả tốt hơn phân lớp.
- D. Phân cụm chỉ tìm nhóm, phân lớp chỉ dự đoán giá trị.
Câu 12: Thuật toán K-Means là một thuật toán phân cụm phổ biến. Đầu vào của thuật toán K-Means là:
- A. Tập dữ liệu và nhãn lớp.
- B. Tập luật kết hợp.
- C. Tập dữ liệu và số lượng cụm k mong muốn.
- D. Cây quyết định đã được xây dựng.
Câu 13: Trong phân cụm K-Means, các "centroids" (tâm cụm) ban đầu thường được chọn:
- A. Luôn cố định từ trước.
- B. Dựa trên thông tin nhãn lớp (nếu có).
- C. Là các điểm dữ liệu xa nhau nhất.
- D. Ngẫu nhiên hoặc theo heuristic đơn giản.
Câu 14: Khoảng cách Euclidean thường được sử dụng trong thuật toán K-Means để:
- A. Đo độ tương đồng giữa các luật kết hợp.
- B. Tính khoảng cách giữa các điểm dữ liệu và centroids.
- C. Xác định độ phân tách giữa các cụm.
- D. Chuẩn hóa dữ liệu trước khi phân cụm.
Câu 15: Đánh giá "silhouette coefficient" được sử dụng để:
- A. Đánh giá độ chính xác của mô hình phân lớp.
- B. Xác định số lượng cụm tối ưu trong K-Means.
- C. Đánh giá chất lượng của kết quả phân cụm.
- D. So sánh hiệu suất của thuật toán Apriori và FP-Growth.
Câu 16: Giả sử bạn muốn giảm số chiều của dữ liệu để giảm độ phức tạp tính toán và cải thiện hiệu suất mô hình. Kỹ thuật nào sau đây phù hợp?
- A. Rời rạc hóa dữ liệu (Data Discretization)
- B. Chuẩn hóa dữ liệu (Data Normalization)
- C. Làm sạch dữ liệu (Data Cleaning)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 17: Phân tích thành phần chính (Principal Component Analysis - PCA) là một kỹ thuật:
- A. Giảm chiều dữ liệu tuyến tính.
- B. Phân cụm dựa trên mật độ.
- C. Khai thác luật kết hợp tuần tự.
- D. Phân lớp phi tuyến tính.
Câu 18: Mục tiêu chính của PCA là:
- A. Tăng số chiều của dữ liệu để dễ dàng trực quan hóa.
- B. Tìm các thành phần chính (principal components) giữ lại phương sai lớn nhất của dữ liệu.
- C. Loại bỏ hoàn toàn nhiễu từ dữ liệu.
- D. Phân cụm dữ liệu thành các nhóm có ý nghĩa.
Câu 19: Trong ngữ cảnh khai phá dữ liệu web, "web usage mining" (khai phá sử dụng web) tập trung vào việc:
- A. Phân tích cấu trúc liên kết giữa các trang web.
- B. Trích xuất thông tin từ nội dung văn bản trên web.
- C. Phân tích nhật ký truy cập web (web logs) để hiểu hành vi người dùng.
- D. Tối ưu hóa công cụ tìm kiếm web.
Câu 20: Dữ liệu dạng chuỗi thời gian (time series data) thường xuất hiện trong lĩnh vực nào sau đây?
- A. Phân tích cảm xúc văn bản.
- B. Phân tích mạng xã hội.
- C. Khai thác luật kết hợp trong giao dịch bán lẻ.
- D. Dự báo chứng khoán và phân tích thị trường tài chính.
Câu 21: Kỹ thuật "outlier detection" (phát hiện ngoại lệ) trong khai phá dữ liệu được sử dụng để:
- A. Phân loại dữ liệu thành các lớp khác nhau.
- B. Xác định các điểm dữ liệu bất thường hoặc khác biệt đáng kể so với phần lớn dữ liệu.
- C. Dự báo giá trị tương lai dựa trên dữ liệu quá khứ.
- D. Phân nhóm dữ liệu dựa trên độ tương đồng.
Câu 22: Trong ngữ cảnh dữ liệu lớn (Big Data), framework nào sau đây thường được sử dụng để xử lý và phân tích dữ liệu phân tán?
- A. SQL Server
- B. Microsoft Excel
- C. Apache Hadoop và Spark
- D. Microsoft Access
Câu 23: Giả sử bạn có một mô hình phân lớp dự đoán khả năng khách hàng rời bỏ dịch vụ (customer churn). Độ đo "Precision" (Độ chính xác) trong ngữ cảnh này thể hiện điều gì?
- A. Trong số các khách hàng được dự đoán là rời bỏ, tỷ lệ khách hàng thực sự rời bỏ là bao nhiêu.
- B. Trong số các khách hàng thực sự rời bỏ, tỷ lệ khách hàng được dự đoán đúng là rời bỏ là bao nhiêu.
- C. Tổng tỷ lệ dự đoán đúng (cả rời bỏ và không rời bỏ).
- D. Tỷ lệ khách hàng không rời bỏ bị dự đoán sai là rời bỏ.
Câu 24: Đường cong ROC (Receiver Operating Characteristic) và diện tích dưới đường cong AUC (Area Under the Curve) được sử dụng để:
- A. Phân cụm dữ liệu thành các nhóm.
- B. Đánh giá và so sánh hiệu suất của các mô hình phân lớp nhị phân ở các ngưỡng khác nhau.
- C. Trực quan hóa cây quyết định.
- D. Tìm luật kết hợp mạnh nhất.
Câu 25: Trong khai phá dữ liệu văn bản (text mining), kỹ thuật "phân tích tình cảm" (sentiment analysis) nhằm mục đích:
- A. Xác định chủ đề chính của văn bản.
- B. Trích xuất thực thể có tên (named entities) từ văn bản.
- C. Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) được thể hiện trong văn bản.
- D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
Câu 26: "Word embedding" (biểu diễn từ nhúng) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên (NLP) và khai phá dữ liệu văn bản, giúp:
- A. Loại bỏ từ dừng (stop words) khỏi văn bản.
- B. Đếm tần suất xuất hiện của các từ trong văn bản.
- C. Phân loại văn bản theo chủ đề.
- D. Biểu diễn từ ngữ thành các vector số, thể hiện ý nghĩa ngữ nghĩa và quan hệ giữa các từ.
Câu 27: Liên kết giữa khai phá dữ liệu và đạo đức là gì?
- A. Khai phá dữ liệu có thể dẫn đến các vấn đề về quyền riêng tư, phân biệt đối xử và sử dụng dữ liệu không đúng mục đích.
- B. Khai phá dữ liệu luôn đảm bảo tính khách quan và không chứa yếu tố chủ quan.
- C. Vấn đề đạo đức chỉ liên quan đến việc thu thập dữ liệu, không liên quan đến khai phá dữ liệu.
- D. Luật pháp đã đủ để giải quyết tất cả các vấn đề đạo đức liên quan đến khai phá dữ liệu.
Câu 28: Để đảm bảo tính riêng tư trong khai phá dữ liệu, kỹ thuật nào sau đây có thể được sử dụng?
- A. Tăng cường độ phức tạp của thuật toán khai phá dữ liệu.
- B. Ẩn danh hóa dữ liệu (Data Anonymization) và sử dụng kỹ thuật riêng tư vi phân (Differential Privacy).
- C. Chỉ sử dụng dữ liệu tổng hợp, không sử dụng dữ liệu cá nhân.
- D. Công khai toàn bộ quy trình khai phá dữ liệu để đảm bảo minh bạch.
Câu 29: Trong một dự án khai phá dữ liệu, bước nào sau đây thường chiếm nhiều thời gian và công sức nhất?
- A. Lựa chọn thuật toán khai phá dữ liệu phù hợp nhất.
- B. Đánh giá và diễn giải kết quả khai phá.
- C. Thu thập, làm sạch và tiền xử lý dữ liệu.
- D. Triển khai mô hình khai phá dữ liệu vào thực tế.
Câu 30: Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?
- A. Phân tích hành vi khách hàng và cá nhân hóa dịch vụ.
- B. Phát hiện gian lận trong giao dịch tài chính.
- C. Dự đoán xu hướng thị trường và quản lý rủi ro.
- D. Soạn thảo văn bản pháp luật tự động.