Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quy trình Khai phá Dữ liệu (KDD), giai đoạn nào tập trung vào việc làm sạch dữ liệu nhiễu, xử lý dữ liệu thiếu và chuyển đổi dữ liệu sang định dạng phù hợp cho phân tích?
- A. Tiền xử lý dữ liệu (Data Preprocessing)
- B. Lựa chọn dữ liệu (Data Selection)
- C. Khai phá dữ liệu (Data Mining)
- D. Đánh giá tri thức (Knowledge Evaluation)
Câu 2: Một siêu thị muốn dự đoán sản phẩm nào khách hàng có khả năng mua cùng nhau. Phương pháp khai phá dữ liệu nào phù hợp nhất để khám phá ra các mối quan hệ này?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai phá luật kết hợp (Association Rule Mining)
- D. Hồi quy (Regression)
Câu 3: Thuật toán Apriori trong khai phá luật kết hợp hoạt động dựa trên nguyên tắc nào sau đây?
- A. Chia để trị (Divide and Conquer)
- B. Tính chất phản đơn điệu (Apriori property): Nếu một tập mục là phổ biến, thì mọi tập con của nó cũng phải phổ biến.
- C. Tìm kiếm theo chiều rộng (Breadth-First Search)
- D. Tìm kiếm theo chiều sâu (Depth-First Search)
Câu 4: Độ đo "độ tin cậy" (confidence) trong khai phá luật kết hợp cho biết điều gì?
- A. Tần suất xuất hiện đồng thời của X và Y trong tập dữ liệu.
- B. Tỷ lệ giao dịch chứa X hoặc Y trên tổng số giao dịch.
- C. Mức độ thú vị của luật X → Y so với tần suất ngẫu nhiên.
- D. Xác suất giao dịch chứa Y khi biết rằng giao dịch đó đã chứa X.
Câu 5: Trong bài toán phân lớp, mục tiêu chính là gì?
- A. Xây dựng mô hình dự đoán lớp (nhãn) cho các đối tượng dữ liệu mới dựa trên tập dữ liệu đã biết lớp.
- B. Phân chia dữ liệu thành các nhóm có đặc điểm tương đồng mà không cần nhãn lớp.
- C. Tìm kiếm các mối quan hệ và luật lệ ẩn giữa các thuộc tính dữ liệu.
- D. Dự đoán giá trị số của một thuộc tính mục tiêu dựa trên các thuộc tính đầu vào.
Câu 6: Phương pháp phân lớp nào dựa trên việc xây dựng một cấu trúc dạng cây, trong đó mỗi nút trên cây đại diện cho một thuộc tính và các nhánh thể hiện các giá trị của thuộc tính đó?
- A. Mạng nơ-ron (Neural Network)
- B. Cây quyết định (Decision Tree)
- C. Máy học vector hỗ trợ (Support Vector Machine)
- D. Phân lớp Bayes ngây thơ (Naive Bayes Classifier)
Câu 7: Trong thuật toán k-means, tham số "k" đại diện cho điều gì?
- A. Số chiều của dữ liệu đầu vào.
- B. Số lần lặp tối đa của thuật toán.
- C. Số lượng cụm (clusters) mà thuật toán sẽ phân chia dữ liệu thành.
- D. Ngưỡng hội tụ của thuật toán.
Câu 8: Phân cụm (clustering) khác biệt với phân lớp (classification) ở điểm nào?
- A. Phân cụm chỉ áp dụng cho dữ liệu số, phân lớp áp dụng cho dữ liệu phi số.
- B. Phân cụm sử dụng cây quyết định, phân lớp sử dụng mạng nơ-ron.
- C. Phân cụm đòi hỏi dữ liệu đã được gán nhãn lớp trước, phân lớp thì không.
- D. Phân cụm là học không giám sát (unsupervised learning), trong khi phân lớp là học có giám sát (supervised learning).
Câu 9: Độ đo "lift" trong khai phá luật kết hợp được sử dụng để đánh giá điều gì?
- A. Độ phổ biến của tập mục X.
- B. Mức độ tương quan giữa X và Y so với trường hợp chúng độc lập thống kê.
- C. Độ tin cậy của luật X → Y.
- D. Tỷ lệ giao dịch chứa cả X và Y.
Câu 10: Phương pháp giảm chiều dữ liệu (dimensionality reduction) nhằm mục đích gì?
- A. Giảm số lượng thuộc tính (features) của dữ liệu, giúp đơn giản hóa mô hình và tăng hiệu suất tính toán.
- B. Tăng số lượng mẫu dữ liệu để cải thiện độ chính xác của mô hình.
- C. Làm sạch dữ liệu nhiễu và dữ liệu thiếu.
- D. Chuyển đổi dữ liệu sang định dạng phù hợp cho khai phá luật kết hợp.
Câu 11: Trong các giai đoạn của quy trình KDD, giai đoạn nào liên quan đến việc diễn giải các mẫu (patterns) đã được khai phá và chuyển chúng thành tri thức hữu ích cho người dùng?
- A. Tiền xử lý dữ liệu
- B. Khai phá dữ liệu
- C. Lựa chọn dữ liệu
- D. Đánh giá tri thức (Knowledge Evaluation)
Câu 12: Kỹ thuật "chuẩn hóa dữ liệu" (data normalization) thường được áp dụng trong giai đoạn tiền xử lý để làm gì?
- A. Loại bỏ dữ liệu trùng lặp.
- B. Đưa các thuộc tính về cùng một thang đo giá trị, tránh sự chênh lệch lớn về khoảng giá trị giữa các thuộc tính.
- C. Xử lý dữ liệu bị thiếu.
- D. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng.
Câu 13: Khi nào thì kỹ thuật "rời rạc hóa dữ liệu" (data discretization) trở nên hữu ích?
- A. Khi dữ liệu chứa nhiều giá trị ngoại lai.
- B. Khi dữ liệu bị thiếu giá trị.
- C. Khi thuật toán khai phá dữ liệu hiệu quả hơn với dữ liệu rời rạc (ví dụ: một số thuật toán phân lớp dựa trên luật).
- D. Khi cần giảm kích thước tập dữ liệu.
Câu 14: Mô hình khai phá dữ liệu được coi là "quá khớp" (overfitting) khi nào?
- A. Khi mô hình hoạt động kém hiệu quả trên cả dữ liệu huấn luyện và dữ liệu kiểm thử.
- B. Khi mô hình quá đơn giản và không nắm bắt được các đặc trưng quan trọng của dữ liệu.
- C. Khi mô hình được huấn luyện trên dữ liệu nhiễu.
- D. Khi mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu kiểm thử mới.
Câu 15: Độ đo "độ chính xác" (accuracy) trong đánh giá mô hình phân lớp được tính như thế nào?
- A. Tỷ lệ số lượng dự đoán đúng trên tổng số lượng dự đoán.
- B. Tỷ lệ số lượng dự đoán đúng là dương tính trên tổng số lượng thực tế là dương tính.
- C. Tỷ lệ số lượng dự đoán đúng là âm tính trên tổng số lượng thực tế là âm tính.
- D. Trung bình cộng của độ chính xác và độ phủ.
Câu 16: Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là gì?
- A. Phân cụm các chuỗi thời gian có hình dạng tương tự.
- B. Dự đoán giá trị tương lai của chuỗi thời gian hoặc phát hiện các mẫu, xu hướng trong chuỗi thời gian.
- C. Tìm kiếm luật kết hợp giữa các sự kiện trong chuỗi thời gian.
- D. Phân lớp các chuỗi thời gian vào các danh mục khác nhau.
Câu 17: Kỹ thuật "bagging" và "boosting" được sử dụng trong học máy ансамбль (ensemble learning) để làm gì?
- A. Giảm chiều dữ liệu đầu vào.
- B. Xử lý dữ liệu thiếu.
- C. Cải thiện độ chính xác và độ ổn định của mô hình dự đoán bằng cách kết hợp kết quả của nhiều mô hình học yếu.
- D. Tăng tốc độ huấn luyện mô hình.
Câu 18: Phương pháp phân cụm DBSCAN có ưu điểm nổi bật nào so với k-means?
- A. DBSCAN nhanh hơn k-means trên dữ liệu lớn.
- B. DBSCAN luôn tạo ra số lượng cụm xác định trước.
- C. DBSCAN hiệu quả hơn với dữ liệu nhiễu.
- D. DBSCAN có thể phát hiện các cụm có hình dạng bất kỳ và không yêu cầu xác định trước số lượng cụm.
Câu 19: Trong ngữ cảnh khai phá dữ liệu web, "web usage mining" tập trung vào việc phân tích dữ liệu nào?
- A. Nội dung của các trang web.
- B. Nhật ký truy cập (log) của người dùng trên các trang web.
- C. Cấu trúc liên kết giữa các trang web.
- D. Thông tin về tác giả và thời gian tạo lập các trang web.
Câu 20: Thước đo F1-score là trung bình điều hòa của độ đo nào?
- A. Độ chính xác (Accuracy) và Độ tin cậy (Confidence).
- B. Độ tin cậy (Confidence) và Độ nâng (Lift).
- C. Độ chính xác (Precision) và Độ phủ (Recall).
- D. Độ phủ (Recall) và Độ hỗ trợ (Support).
Câu 21: Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu ngoại lai (outlier) trong giai đoạn tiền xử lý?
- A. Chuẩn hóa Min-Max.
- B. Rời rạc hóa dữ liệu.
- C. Lấp đầy giá trị thiếu bằng giá trị trung bình.
- D. Sử dụng phương pháp Z-score hoặc IQR để xác định và loại bỏ/điều chỉnh các giá trị ngoại lai.
Câu 22: Trong khai phá dữ liệu, "feature selection" (lựa chọn thuộc tính) có mục đích chính là gì?
- A. Tạo ra các thuộc tính mới từ các thuộc tính hiện có.
- B. Chọn ra một tập hợp con các thuộc tính quan trọng nhất, loại bỏ các thuộc tính không liên quan hoặc dư thừa.
- C. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng.
- D. Giảm số lượng mẫu dữ liệu.
Câu 23: Phân tích cảm xúc (sentiment analysis) là một ứng dụng của khai phá dữ liệu trong lĩnh vực nào?
- A. Khai phá dữ liệu giao dịch.
- B. Khai phá dữ liệu chuỗi thời gian.
- C. Xử lý ngôn ngữ tự nhiên (Natural Language Processing) và khai phá văn bản.
- D. Khai phá dữ liệu không gian.
Câu 24: Trong thuật toán phân lớp Naive Bayes, giả định "ngây thơ" (naive) đề cập đến điều gì?
- A. Các thuộc tính đầu vào là độc lập có điều kiện với nhau khi biết nhãn lớp.
- B. Thuật toán này đơn giản và dễ hiểu.
- C. Thuật toán không yêu cầu dữ liệu huấn luyện lớn.
- D. Thuật toán luôn cho kết quả chính xác cao.
Câu 25: Khai phá dữ liệu có thể hỗ trợ quá trình ra quyết định trong kinh doanh bằng cách nào?
- A. Tự động hóa hoàn toàn các quyết định kinh doanh mà không cần sự can thiệp của con người.
- B. Thay thế hoàn toàn các phương pháp thống kê truyền thống.
- C. Đảm bảo chắc chắn 100% thành công cho mọi quyết định kinh doanh.
- D. Cung cấp tri thức và thông tin chi tiết từ dữ liệu, giúp người ra quyết định đưa ra các lựa chọn sáng suốt hơn.
Câu 26: "Độ hỗ trợ" (support) của một tập mục trong khai phá luật kết hợp được định nghĩa là gì?
- A. Xác suất xuất hiện tập mục trong một giao dịch bất kỳ.
- B. Tỷ lệ các giao dịch trong cơ sở dữ liệu chứa tập mục đó.
- C. Mức độ tin cậy của các luật kết hợp được sinh ra từ tập mục.
- D. Số lần tập mục xuất hiện trong cơ sở dữ liệu.
Câu 27: Trong mô hình hóa dữ liệu, lược đồ "ngôi sao" (star schema) thường được sử dụng cho loại hình khai phá dữ liệu nào?
- A. Khai phá luật kết hợp trong dữ liệu giao dịch.
- B. Phân lớp dữ liệu văn bản.
- C. Kho dữ liệu (Data Warehousing) và phân tích OLAP (Online Analytical Processing).
- D. Phân cụm dữ liệu không gian.
Câu 28: Phương pháp "principal component analysis" (PCA) được sử dụng để làm gì trong khai phá dữ liệu?
- A. Giảm chiều dữ liệu bằng cách tìm ra các thành phần chính (principal components) giữ lại phần lớn phương sai của dữ liệu.
- B. Phân cụm dữ liệu dựa trên mật độ.
- C. Xây dựng cây quyết định.
- D. Tìm kiếm luật kết hợp.
Câu 29: Khi đánh giá mô hình phân lớp, ma trận nhầm lẫn (confusion matrix) cung cấp thông tin gì?
- A. Độ chính xác tổng thể của mô hình.
- B. Số lượng dự đoán đúng và sai cho từng lớp, bao gồm True Positives, True Negatives, False Positives, và False Negatives.
- C. Độ đo F1-score.
- D. Độ cong ROC (Receiver Operating Characteristic).
Câu 30: Trong khai phá dữ liệu, vấn đề "xử lý dữ liệu không cân bằng" (imbalanced data) thường xảy ra khi nào?
- A. Khi dữ liệu chứa nhiều thuộc tính không liên quan.
- B. Khi dữ liệu có nhiều giá trị thiếu.
- C. Khi số lượng mẫu dữ liệu ở các lớp mục tiêu phân phối không đều, có lớp chiếm số lượng mẫu rất ít so với các lớp khác.
- D. Khi dữ liệu có nhiều giá trị ngoại lai.