Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 04 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm chiều dữ liệu, loại bỏ các thuộc tính không liên quan hoặc dư thừa, nhằm cải thiện hiệu suất và độ chính xác của mô hình?
- A. Rời rạc hóa dữ liệu (Data Discretization)
- B. Lựa chọn thuộc tính (Feature Selection) / Giảm chiều dữ liệu (Dimensionality Reduction)
- C. Chuẩn hóa dữ liệu (Data Normalization)
- D. Làm sạch dữ liệu (Data Cleaning)
Câu 2: Một siêu thị muốn phân tích hành vi mua sắm của khách hàng để tối ưu hóa vị trí sản phẩm và chiến lược khuyến mãi. Kỹ thuật khai phá dữ liệu nào sau đây phù hợp nhất để khám phá ra các nhóm sản phẩm thường được mua cùng nhau?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai phá luật kết hợp (Association Rule Mining)
- D. Hồi quy (Regression)
Câu 3: Thuật toán Apriori được sử dụng phổ biến trong khai phá luật kết hợp. Nguyên tắc cốt lõi của thuật toán này là gì?
- A. Tập mục thường xuyên có kích thước k phải được tạo ra từ các tập mục thường xuyên có kích thước k-1.
- B. Các tập mục không thường xuyên có kích thước k luôn có thể mở rộng thành tập mục thường xuyên có kích thước k+1.
- C. Độ tin cậy (confidence) là thước đo chính để xác định tính hữu ích của một luật kết hợp.
- D. Thuật toán Apriori sử dụng cấu trúc cây FP-Tree để lưu trữ dữ liệu giao dịch.
Câu 4: Trong bài toán phân lớp, độ đo "độ chính xác" (accuracy) được tính như thế nào?
- A. Số lượng dự đoán đúng trên tổng số mẫu thực tế thuộc lớp dương tính.
- B. Số lượng dự đoán đúng trên tổng số mẫu.
- C. Số lượng dự đoán đúng thuộc lớp dương tính trên tổng số mẫu được dự đoán là lớp dương tính.
- D. Tỷ lệ mẫu thực tế thuộc lớp dương tính được dự đoán đúng.
Câu 5: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời mạng (churn). Họ có dữ liệu về thông tin cá nhân, lịch sử sử dụng dịch vụ và gói cước của khách hàng. Bài toán này thuộc loại khai phá dữ liệu nào?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Hồi quy (Regression)
- D. Khai phá chuỗi thời gian (Time Series Mining)
Câu 6: Phương pháp "K-means" là một thuật toán phổ biến trong:
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai phá luật kết hợp (Association Rule Mining)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 7: Trong quá trình tiền xử lý dữ liệu, "dữ liệu nhiễu" (noisy data) thường đề cập đến loại dữ liệu nào?
- A. Dữ liệu bị thiếu giá trị
- B. Dữ liệu không nhất quán về định dạng
- C. Dữ liệu trùng lặp
- D. Dữ liệu chứa lỗi, giá trị ngoại lai hoặc không chính xác
Câu 8: "Độ tin cậy" (confidence) của một luật kết hợp {A} -> {B} được tính bằng công thức nào?
- A. support({A, B}) / support({B})
- B. support({A, B}) / tổng số giao dịch
- C. support({A, B}) / support({A})
- D. support({A}) / support({A, B})
Câu 9: Khi xây dựng cây quyết định (decision tree), tiêu chí phân tách nút (splitting criterion) nào thường được sử dụng để chọn thuộc tính phân tách tốt nhất?
- A. Độ chính xác (Accuracy)
- B. Information Gain / Gini Index
- C. Độ tin cậy (Confidence)
- D. Hỗ trợ (Support)
Câu 10: Trong mô hình hóa dữ liệu, kỹ thuật "chuẩn hóa dữ liệu" (data normalization) nhằm mục đích gì?
- A. Loại bỏ dữ liệu trùng lặp
- B. Xử lý dữ liệu bị thiếu
- C. Giảm chiều dữ liệu
- D. Đưa các thuộc tính về cùng một thang đo giá trị để tránh sự chênh lệch quá lớn ảnh hưởng đến mô hình
Câu 11: Cho một tập dữ liệu về bệnh nhân ung thư vú, với các thuộc tính như kích thước khối u, tuổi bệnh nhân, và kết quả chẩn đoán (ung thư ác tính hoặc lành tính). Để xây dựng mô hình dự đoán khả năng ung thư ác tính, kỹ thuật khai phá dữ liệu nào phù hợp?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai phá luật kết hợp (Association Rule Mining)
- D. Hồi quy (Regression)
Câu 12: Phương pháp "FP-Growth" là một cải tiến so với thuật toán Apriori trong khai phá luật kết hợp. Ưu điểm chính của FP-Growth là gì?
- A. Đơn giản và dễ hiểu hơn Apriori.
- B. Yêu cầu ít bộ nhớ hơn Apriori.
- C. Hiệu quả hơn Apriori trong việc tìm tập mục thường xuyên, đặc biệt với cơ sở dữ liệu lớn.
- D. Có thể tìm được luật kết hợp mạnh hơn Apriori.
Câu 13: Trong khai phá dữ liệu, "tập mục thường xuyên" (frequent itemset) là gì?
- A. Một tập hợp các mục xuất hiện cùng nhau trong cơ sở dữ liệu giao dịch với tần suất vượt quá một ngưỡng tối thiểu (min_support).
- B. Một tập hợp các luật kết hợp có độ tin cậy cao.
- C. Một tập hợp các thuộc tính quan trọng nhất trong bài toán phân lớp.
- D. Một nhóm các đối tượng tương tự nhau được phát hiện bằng thuật toán phân cụm.
Câu 14: "Độ nâng" (lift) của một luật kết hợp {A} -> {B} được sử dụng để đánh giá điều gì?
- A. Độ phổ biến của tập mục {A, B} trong cơ sở dữ liệu.
- B. Mức độ tương quan giữa sự xuất hiện của A và B, so với việc chúng xuất hiện độc lập.
- C. Độ tin cậy của luật kết hợp {A} -> {B}.
- D. Tỷ lệ giao dịch chứa cả A và B.
Câu 15: Trong phân cụm, "phân cụm phân cấp" (hierarchical clustering) tạo ra kết quả như thế nào?
- A. Một phân hoạch duy nhất của dữ liệu thành các cụm rời rạc.
- B. Các cụm chồng lấn lên nhau.
- C. Một cấu trúc cây phân cấp các cụm, thể hiện mối quan hệ lồng nhau giữa các cụm.
- D. Các cụm có hình dạng và kích thước cố định.
Câu 16: Để đánh giá hiệu quả của một mô hình hồi quy, độ đo nào sau đây thường được sử dụng?
- A. RMSE (Root Mean Squared Error)
- B. Độ chính xác (Accuracy)
- C. Độ thu hồi (Recall)
- D. F1-score
Câu 17: Kỹ thuật "rời rạc hóa dữ liệu" (data discretization) thường được áp dụng cho loại thuộc tính nào?
- A. Thuộc tính định danh (Nominal attributes)
- B. Thuộc tính liên tục (Continuous attributes)
- C. Thuộc tính thứ bậc (Ordinal attributes)
- D. Thuộc tính nhị phân (Binary attributes)
Câu 18: Trong khai phá dữ liệu, "dữ liệu ngoại lai" (outlier) là gì?
- A. Dữ liệu bị thiếu giá trị.
- B. Dữ liệu không nhất quán.
- C. Dữ liệu có giá trị khác biệt đáng kể so với phần lớn dữ liệu còn lại.
- D. Dữ liệu đã được chuẩn hóa.
Câu 19: Mô hình "máy học véc tơ hỗ trợ" (Support Vector Machine - SVM) thường được sử dụng cho bài toán nào?
- A. Phân cụm (Clustering) là chủ yếu
- B. Khai phá luật kết hợp (Association Rule Mining)
- C. Hồi quy (Regression) là chủ yếu
- D. Cả phân lớp (Classification) và hồi quy (Regression)
Câu 20: "Độ đo Silhouette" được sử dụng để đánh giá chất lượng của kết quả trong kỹ thuật nào?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai phá luật kết hợp (Association Rule Mining)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 21: Trong quy trình KDD (Knowledge Discovery in Databases), bước nào liên quan đến việc lựa chọn thuật toán khai phá dữ liệu phù hợp và thiết lập các tham số?
- A. Tiền xử lý dữ liệu (Data Preprocessing)
- B. Làm sạch dữ liệu (Data Cleaning)
- C. Khai phá dữ liệu (Data Mining)
- D. Đánh giá tri thức (Knowledge Evaluation)
Câu 22: "Mạng nơ-ron" (Neural Network) là một mô hình học máy thuộc loại nào?
- A. Mô hình học có giám sát (Supervised Learning) duy nhất
- B. Mô hình học không giám sát (Unsupervised Learning) duy nhất
- C. Mô hình học tăng cường (Reinforcement Learning)
- D. Có thể là mô hình học có giám sát (Supervised Learning) hoặc không giám sát (Unsupervised Learning)
Câu 23: Khi dữ liệu có thuộc tính "thời gian" là yếu tố quan trọng, kỹ thuật khai phá dữ liệu nào thường được sử dụng để phân tích xu hướng và dự đoán?
- A. Phân cụm (Clustering)
- B. Khai phá chuỗi thời gian (Time Series Mining)
- C. Phân lớp (Classification)
- D. Khai phá luật kết hợp (Association Rule Mining)
Câu 24: "Độ chính xác" (precision) trong bài toán phân lớp được tính như thế nào?
- A. Số lượng dự đoán đúng trên tổng số mẫu.
- B. Số lượng dự đoán đúng trên tổng số mẫu thực tế thuộc lớp dương tính.
- C. Số lượng dự đoán đúng thuộc lớp dương tính trên tổng số mẫu được dự đoán là lớp dương tính.
- D. Tỷ lệ mẫu thực tế thuộc lớp dương tính được dự đoán đúng.
Câu 25: Trong khai phá dữ liệu, "siêu tham số" (hyperparameter) là gì?
- A. Tham số của mô hình được học từ dữ liệu.
- B. Tham số được thiết lập trước khi huấn luyện mô hình, ảnh hưởng đến quá trình học và hiệu suất mô hình.
- C. Các thuộc tính của dữ liệu đầu vào.
- D. Các độ đo đánh giá hiệu suất mô hình.
Câu 26: Kỹ thuật "bagging" và "boosting" là các phương pháp thuộc loại nào trong học máy?
- A. Tiền xử lý dữ liệu (Data Preprocessing)
- B. Giảm chiều dữ liệu (Dimensionality Reduction)
- C. Học tập kết hợp (Ensemble Learning)
- D. Phân cụm (Clustering)
Câu 27: Để xử lý dữ liệu bị thiếu giá trị (missing values), phương pháp "điền giá trị trung bình" (mean imputation) thực hiện như thế nào?
- A. Thay thế giá trị thiếu bằng giá trị trung bình của thuộc tính đó trong tập dữ liệu.
- B. Loại bỏ các bản ghi chứa giá trị thiếu.
- C. Thay thế giá trị thiếu bằng giá trị 0.
- D. Sử dụng mô hình học máy để dự đoán giá trị thiếu.
Câu 28: "Độ đo Recall" (độ thu hồi) trong bài toán phân lớp được tính như thế nào?
- A. Số lượng dự đoán đúng trên tổng số mẫu.
- B. Số lượng dự đoán đúng trên tổng số mẫu thực tế thuộc lớp dương tính.
- C. Số lượng dự đoán đúng thuộc lớp dương tính trên tổng số mẫu được dự đoán là lớp dương tính.
- D. Tỷ lệ mẫu thực tế thuộc lớp âm tính bị dự đoán sai thành lớp dương tính.
Câu 29: Trong ngữ cảnh khai phá dữ liệu, "tri thức" (knowledge) được phát hiện thường có đặc điểm gì?
- A. Luôn luôn rõ ràng và dễ dàng nhận thấy trong dữ liệu.
- B. Chỉ hữu ích cho mục đích học thuật, ít ứng dụng thực tế.
- C. Thường trùng lặp với thông tin đã biết.
- D. Tiềm ẩn, không tầm thường, hữu ích và có thể hành động được.
Câu 30: Phương pháp "PCA" (Principal Component Analysis) được sử dụng cho mục đích gì trong khai phá dữ liệu?
- A. Giảm chiều dữ liệu (Dimensionality Reduction)
- B. Phân cụm (Clustering)
- C. Phân lớp (Classification)
- D. Khai phá luật kết hợp (Association Rule Mining)