Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 03 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quá trình Khai phá Dữ liệu, bước nào sau đây tập trung vào việc chuyển đổi dữ liệu thô sang định dạng phù hợp để phân tích, bao gồm xử lý giá trị thiếu, loại bỏ nhiễu và chuẩn hóa dữ liệu?
- A. Đánh giá mô hình (Model Evaluation)
- B. Tiền xử lý dữ liệu (Data Preprocessing)
- C. Khai thác mẫu (Pattern Mining)
- D. Biểu diễn tri thức (Knowledge Representation)
Câu 2: Một siêu thị muốn dự đoán sản phẩm nào khách hàng có khả năng mua cùng nhau. Kỹ thuật khai phá dữ liệu nào phù hợp nhất để giải quyết vấn đề này?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai thác luật kết hợp (Association Rule Mining)
- D. Hồi quy (Regression)
Câu 3: Thuật toán Apriori được sử dụng phổ biến trong khai thác luật kết hợp. Nguyên tắc cốt lõi của Apriori là gì?
- A. Tính chất "tập con tiên nghiệm": Nếu một tập mục là thường xuyên, thì mọi tập con của nó cũng là thường xuyên.
- B. Sử dụng cây FP-Tree để nén dữ liệu và giảm số lần quét cơ sở dữ liệu.
- C. Phân chia dữ liệu thành các cụm dựa trên khoảng cách đến trung tâm cụm.
- D. Xây dựng cây quyết định dựa trên độ lợi thông tin lớn nhất của thuộc tính.
Câu 4: Phương pháp đánh giá mô hình phân lớp nào đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?
- A. Độ chính xác (Precision)
- B. Độ thu hồi (Recall)
- C. F1-score
- D. Độ đúng (Accuracy)
Câu 5: Trong bài toán phân cụm, phương pháp K-means hoạt động dựa trên việc tối ưu hóa tiêu chí nào?
- A. Khoảng cách Manhattan giữa các điểm dữ liệu.
- B. Tổng khoảng cách bình phương từ mỗi điểm dữ liệu đến trung tâm cụm gần nhất (Within-cluster Sum of Squares - WCSS).
- C. Độ tương đồng cosine giữa các vector đặc trưng.
- D. Entropy của phân phối dữ liệu trong mỗi cụm.
Câu 6: Cho một tập dữ liệu về thông tin khách hàng và hành vi mua sắm. Mục tiêu là phân nhóm khách hàng thành các phân khúc khác nhau để có chiến lược marketing phù hợp. Kỹ thuật khai phá dữ liệu nào thích hợp nhất?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai thác luật kết hợp (Association Rule Mining)
- D. Dự báo chuỗi thời gian (Time Series Forecasting)
Câu 7: "Overfitting" là một vấn đề thường gặp trong mô hình học máy. Overfitting xảy ra khi nào?
- A. Mô hình quá đơn giản và không thể nắm bắt được cấu trúc dữ liệu.
- B. Dữ liệu huấn luyện chứa quá nhiều giá trị thiếu.
- C. Mô hình học quá kỹ trên dữ liệu huấn luyện và kém hiệu quả trên dữ liệu mới.
- D. Quá trình tiền xử lý dữ liệu chưa được thực hiện đầy đủ.
Câu 8: Kỹ thuật "giảm chiều dữ liệu" (dimensionality reduction) được sử dụng để làm gì trong khai phá dữ liệu?
- A. Tăng số lượng thuộc tính của dữ liệu để mô tả chi tiết hơn.
- B. Giảm số lượng thuộc tính đầu vào, giúp giảm độ phức tạp tính toán và tránh "lời nguyền chiều cao" (curse of dimensionality).
- C. Tăng cường tính bảo mật cho dữ liệu.
- D. Cải thiện chất lượng dữ liệu bằng cách loại bỏ giá trị ngoại lai.
Câu 9: PCA (Principal Component Analysis) là một phương pháp giảm chiều dữ liệu phổ biến. PCA hoạt động dựa trên nguyên tắc nào?
- A. Tìm các thuộc tính quan trọng nhất dựa trên độ lợi thông tin.
- B. Phân cụm dữ liệu thành các nhóm có phương sai nhỏ nhất.
- C. Xây dựng cây quyết định để phân loại dữ liệu.
- D. Tìm các thành phần chính (principal components) là tổ hợp tuyến tính của các thuộc tính gốc, sao cho phương sai của dữ liệu trên các thành phần này là lớn nhất.
Câu 10: Trong quá trình khai phá dữ liệu, "dữ liệu ngoại lai" (outlier) là gì?
- A. Các điểm dữ liệu có giá trị khác biệt đáng kể so với phần lớn dữ liệu còn lại.
- B. Dữ liệu bị thiếu giá trị hoặc không đầy đủ.
- C. Dữ liệu được thu thập từ nguồn bên ngoài.
- D. Dữ liệu đã được chuẩn hóa và làm sạch.
Câu 11: Phương pháp nào sau đây KHÔNG phải là một kỹ thuật tiền xử lý dữ liệu?
- A. Chuẩn hóa dữ liệu (Data Normalization)
- B. Rời rạc hóa dữ liệu (Data Discretization)
- C. Khai thác luật kết hợp (Association Rule Mining)
- D. Làm sạch dữ liệu (Data Cleaning)
Câu 12: Trong mô hình cây quyết định, "độ lợi thông tin" (information gain) được sử dụng để làm gì?
- A. Đo lường độ chính xác của mô hình trên dữ liệu kiểm thử.
- B. Chọn thuộc tính tốt nhất để phân chia nút trong quá trình xây dựng cây.
- C. Tính toán độ phức tạp của cây quyết định.
- D. Xác định ngưỡng để phân loại dữ liệu.
Câu 13: "Confusion matrix" (ma trận nhầm lẫn) là công cụ đánh giá hiệu suất của mô hình nào?
- A. Mô hình phân lớp (Classification Model)
- B. Mô hình hồi quy (Regression Model)
- C. Mô hình phân cụm (Clustering Model)
- D. Mô hình khai thác luật kết hợp (Association Rule Mining Model)
Câu 14: Độ đo "lift" trong khai thác luật kết hợp được sử dụng để đánh giá điều gì?
- A. Độ phổ biến của một tập mục trong cơ sở dữ liệu.
- B. Độ tin cậy của một luật kết hợp.
- C. Mức độ tương quan giữa tiền đề và hệ quả của một luật, so với trường hợp chúng độc lập.
- D. Tỷ lệ giao dịch chứa cả tiền đề và hệ quả của luật.
Câu 15: Trong thuật toán DBSCAN, tham số "epsilon" (ε) và "minPts" có vai trò gì?
- A. Xác định số lượng cụm mong muốn và trung tâm cụm ban đầu.
- B. ε xác định bán kính lân cận, minPts xác định số lượng điểm tối thiểu trong vùng lân cận để tạo thành một cụm lõi.
- C. Điều chỉnh tốc độ học và hệ số chính quy hóa trong mô hình.
- D. Kiểm soát độ sâu và số lượng nhánh của cây quyết định.
Câu 16: Kiến trúc "Data Warehouse" (kho dữ liệu) được thiết kế chủ yếu cho mục đích gì?
- A. Xử lý giao dịch trực tuyến (OLTP).
- B. Lưu trữ dữ liệu giao dịch thời gian thực.
- C. Quản lý cơ sở dữ liệu quan hệ truyền thống.
- D. Hỗ trợ ra quyết định và phân tích dữ liệu (OLAP).
Câu 17: Kỹ thuật "cross-validation" (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình học máy?
- A. Tăng tốc độ huấn luyện mô hình.
- B. Giảm kích thước dữ liệu huấn luyện.
- C. Đánh giá khả năng tổng quát hóa của mô hình và ước tính hiệu suất trên dữ liệu mới.
- D. Chọn thuật toán học máy phù hợp nhất cho bài toán.
Câu 18: Trong ngữ cảnh khai phá dữ liệu, "feature selection" (lựa chọn đặc trưng) là quá trình?
- A. Tạo ra các đặc trưng mới từ các đặc trưng hiện có.
- B. Chọn ra một tập con các đặc trưng gốc có liên quan nhất đến bài toán, loại bỏ các đặc trưng không liên quan hoặc dư thừa.
- C. Biến đổi các đặc trưng số thành đặc trưng phân loại.
- D. Chuẩn hóa giá trị của các đặc trưng về cùng một thang đo.
Câu 19: Phương pháp "Naive Bayes" thuộc nhóm thuật toán phân lớp nào?
- A. Dựa trên cây quyết định (Decision Tree-based)
- B. Dựa trên khoảng cách (Distance-based)
- C. Dựa trên mạng nơ-ron (Neural Network-based)
- D. Dựa trên xác suất (Probability-based)
Câu 20: "Ensemble learning" (học tập hợp) là gì?
- A. Kết hợp dự đoán của nhiều mô hình học máy khác nhau để cải thiện hiệu suất tổng thể.
- B. Huấn luyện một mô hình duy nhất trên tập dữ liệu lớn.
- C. Chia nhỏ dữ liệu thành các phần nhỏ hơn để huấn luyện mô hình nhanh hơn.
- D. Sử dụng một mô hình đơn giản để giải quyết bài toán phức tạp.
Câu 21: Ví dụ nào sau đây là ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?
- A. Dự báo thời tiết.
- B. Phân tích thị trường chứng khoán.
- C. Dự đoán nguy cơ tái nhập viện của bệnh nhân.
- D. Quản lý chuỗi cung ứng.
Câu 22: "Support", "confidence", và "lift" là các độ đo quan trọng trong kỹ thuật khai phá nào?
- A. Phân cụm (Clustering)
- B. Khai thác luật kết hợp (Association Rule Mining)
- C. Phân lớp (Classification)
- D. Hồi quy (Regression)
Câu 23: Thuật toán "K-Nearest Neighbors" (KNN) thuộc loại học máy nào?
- A. Học có giám sát (Supervised learning)
- B. Học không giám sát (Unsupervised learning)
- C. Học tăng cường (Reinforcement learning)
- D. Học bán giám sát (Semi-supervised learning)
Câu 24: Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là gì?
- A. Phân nhóm các chuỗi thời gian tương tự nhau.
- B. Tìm các luật kết hợp xuất hiện trong chuỗi thời gian.
- C. Dự báo giá trị tương lai dựa trên các mẫu trong quá khứ.
- D. Phân loại các chuỗi thời gian vào các danh mục khác nhau.
Câu 25: "Precision" và "Recall" là các độ đo đánh giá hiệu suất mô hình phân lớp. Precision tập trung vào điều gì?
- A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là tích cực.
- B. Tỷ lệ dự đoán đúng là tích cực trên tổng số mẫu được dự đoán là tích cực.
- C. Tỷ lệ dự đoán sai trên tổng số mẫu thực tế là tiêu cực.
- D. Tỷ lệ dự đoán sai là tiêu cực trên tổng số mẫu được dự đoán là tiêu cực.
Câu 26: Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu dạng văn bản trong khai phá dữ liệu?
- A. Chuẩn hóa Z-score.
- B. Phân tích thành phần chính PCA.
- C. Phân cụm K-means.
- D. Mô hình hóa chủ đề (Topic Modeling) như LDA.
Câu 27: Khái niệm "sparsity" (thưa thớt) thường xuất hiện trong loại dữ liệu nào?
- A. Dữ liệu ảnh.
- B. Dữ liệu âm thanh.
- C. Dữ liệu giao dịch mua sắm (transactional data) hoặc dữ liệu văn bản.
- D. Dữ liệu chuỗi thời gian.
Câu 28: "Bias-variance tradeoff" (đánh đổi giữa độ chệch và phương sai) là một khái niệm quan trọng trong học máy. Mô hình có độ chệch cao (high bias) thường có đặc điểm gì?
- A. Quá đơn giản và bỏ qua các mẫu phức tạp trong dữ liệu huấn luyện (underfitting).
- B. Quá phức tạp và học quá sát dữ liệu huấn luyện (overfitting).
- C. Rất nhạy cảm với nhiễu trong dữ liệu.
- D. Có khả năng tổng quát hóa tốt trên dữ liệu mới.
Câu 29: Trong ngữ cảnh đạo đức khai phá dữ liệu, vấn đề "privacy" (quyền riêng tư) liên quan đến điều gì?
- A. Đảm bảo tính chính xác của các thuật toán khai phá dữ liệu.
- B. Bảo vệ thông tin cá nhân của người dùng và tránh lạm dụng dữ liệu cho mục đích không được phép.
- C. Công khai kết quả khai phá dữ liệu cho cộng đồng.
- D. Tối ưu hóa hiệu suất tính toán của các mô hình khai phá dữ liệu.
Câu 30: Cho một bài toán phân lớp với dữ liệu không cân bằng (imbalanced data), tức là một lớp chiếm tỷ lệ rất nhỏ so với các lớp khác. Phương pháp nào sau đây có thể giúp cải thiện hiệu suất mô hình?
- A. Sử dụng thuật toán K-means clustering.
- B. Áp dụng chuẩn hóa Z-score cho dữ liệu.
- C. Sử dụng kỹ thuật "oversampling" (tăng mẫu thiểu số) hoặc "undersampling" (giảm mẫu đa số).
- D. Giảm chiều dữ liệu bằng PCA.