Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quy trình KDD, bước nào liên quan đến việc làm sạch dữ liệu nhiễu, xử lý giá trị thiếu và chuyển đổi dữ liệu sang định dạng phù hợp cho khai phá?
- A. Khai phá dữ liệu (Data Mining)
- B. Tiền xử lý dữ liệu (Data Preprocessing)
- C. Đánh giá tri thức (Evaluation)
- D. Chọn lọc dữ liệu (Data Selection)
Câu 2: Phương pháp khai phá dữ liệu nào thường được sử dụng để khám phá các nhóm khách hàng có hành vi mua sắm tương tự nhau?
- A. Phân lớp (Classification)
- B. Hồi quy (Regression)
- C. Phân cụm (Clustering)
- D. Luật kết hợp (Association Rule Mining)
Câu 3: Thuật toán Apriori được sử dụng chủ yếu trong kỹ thuật khai phá dữ liệu nào?
- A. Phân lớp (Classification)
- B. Phân cụm (Clustering)
- C. Dự báo chuỗi thời gian (Time Series Forecasting)
- D. Khai phá luật kết hợp (Association Rule Mining)
Câu 4: Độ đo "độ tin cậy" (confidence) trong khai phá luật kết hợp cho biết điều gì?
- A. Xác suất vế phải xuất hiện khi vế trái đã xuất hiện trong giao dịch
- B. Tần suất đồng thời xuất hiện của cả vế trái và vế phải trong giao dịch
- C. Mức độ phổ biến của vế trái trong tất cả các giao dịch
- D. Mức độ hữu ích của luật kết hợp trong thực tế
Câu 5: Trong bài toán phân lớp, mục tiêu chính của việc xây dựng mô hình là gì?
- A. Tìm ra các thuộc tính quan trọng nhất của dữ liệu
- B. Dự đoán lớp (category) của một đối tượng mới dựa trên các thuộc tính của nó
- C. Phân nhóm các đối tượng tương tự nhau vào cùng một cụm
- D. Khám phá các mối quan hệ ẩn giữa các thuộc tính dữ liệu
Câu 6: Phương pháp đánh giá mô hình phân lớp nào đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?
- A. Độ thu hồi (Recall)
- B. Độ chính xác (Precision)
- C. Độ đo chính xác tổng thể (Accuracy)
- D. F1-score
Câu 7: Kỹ thuật "bagging" và "boosting" trong học máy thuộc nhóm phương pháp nào?
- A. Phương pháp giảm chiều dữ liệu (Dimensionality Reduction)
- B. Phương pháp học tập kết hợp (Ensemble Learning)
- C. Phương pháp tiền xử lý dữ liệu (Data Preprocessing)
- D. Phương pháp khai phá luật (Rule-based Mining)
Câu 8: Trong thuật toán k-means clustering, điều gì xảy ra ở mỗi bước lặp?
- A. Chọn ngẫu nhiên các điểm trung tâm mới
- B. Tính khoảng cách giữa tất cả các cặp điểm dữ liệu
- C. Xây dựng cây phân cấp các cụm
- D. Gán lại các điểm dữ liệu vào cụm gần nhất và cập nhật trung tâm cụm
Câu 9: Biểu đồ hộp (boxplot) thường được sử dụng trong bước tiền xử lý dữ liệu để làm gì?
- A. Phát hiện giá trị ngoại lai (outlier)
- B. Phân tích mối tương quan giữa các thuộc tính
- C. Trực quan hóa phân phối tần suất của dữ liệu
- D. Giảm số chiều dữ liệu
Câu 10: Ma trận nhầm lẫn (confusion matrix) được sử dụng để đánh giá hiệu suất của mô hình nào?
- A. Mô hình hồi quy (Regression Model)
- B. Mô hình phân lớp (Classification Model)
- C. Mô hình phân cụm (Clustering Model)
- D. Mô hình luật kết hợp (Association Rule Model)
Câu 11: Trong khai phá dữ liệu chuỗi thời gian, phương pháp ARIMA được sử dụng để làm gì?
- A. Phân cụm các chuỗi thời gian tương tự
- B. Phân loại các chuỗi thời gian vào các nhóm khác nhau
- C. Dự báo giá trị tương lai của chuỗi thời gian
- D. Tìm kiếm các mẫu tuần hoàn trong chuỗi thời gian
Câu 12: Kỹ thuật "one-hot encoding" thường được sử dụng để xử lý loại dữ liệu nào trước khi đưa vào mô hình học máy?
- A. Dữ liệu số liên tục (Continuous numerical data)
- B. Dữ liệu số rời rạc (Discrete numerical data)
- C. Dữ liệu văn bản (Text data)
- D. Dữ liệu định tính (Categorical data)
Câu 13: Trong thuật toán DBSCAN, tham số "epsilon" (ε) xác định điều gì?
- A. Bán kính lân cận để tìm điểm lân cận
- B. Số lượng cụm mong muốn
- C. Độ đo khoảng cách sử dụng
- D. Số lần lặp tối đa của thuật toán
Câu 14: Mục tiêu của việc giảm chiều dữ liệu (dimensionality reduction) là gì?
- A. Tăng độ chính xác của mô hình khai phá dữ liệu
- B. Giảm số lượng thuộc tính trong dữ liệu, đơn giản hóa mô hình và giảm chi phí tính toán
- C. Cải thiện chất lượng dữ liệu bằng cách loại bỏ giá trị ngoại lai
- D. Phân cụm dữ liệu hiệu quả hơn
Câu 15: PCA (Principal Component Analysis) là một kỹ thuật thuộc nhóm nào trong khai phá dữ liệu?
- A. Phân lớp (Classification)
- B. Phân cụm (Clustering)
- C. Giảm chiều dữ liệu (Dimensionality Reduction)
- D. Khai phá luật kết hợp (Association Rule Mining)
Câu 16: Trong ngữ cảnh của khai phá dữ liệu web, "web usage mining" tập trung vào việc phân tích loại dữ liệu nào?
- A. Nội dung trang web (Web content)
- B. Cấu trúc liên kết website (Web link structure)
- C. Thông tin người dùng đăng ký (User registration data)
- D. Log truy cập website (Web access logs)
Câu 17: ROC curve và AUC (Area Under the Curve) được sử dụng để đánh giá mô hình nào?
- A. Mô hình phân lớp nhị phân (Binary Classification Model)
- B. Mô hình hồi quy (Regression Model)
- C. Mô hình phân cụm (Clustering Model)
- D. Mô hình phát hiện bất thường (Anomaly Detection Model)
Câu 18: Trong khai phá dữ liệu, "feature selection" (lựa chọn đặc trưng) khác với "feature extraction" (trích xuất đặc trưng) như thế nào?
- A. Feature selection tạo ra các đặc trưng mới, feature extraction chọn đặc trưng hiện có
- B. Feature selection chọn một tập con các đặc trưng hiện có, feature extraction tạo ra các đặc trưng mới từ các đặc trưng ban đầu
- C. Feature selection áp dụng cho dữ liệu số, feature extraction cho dữ liệu văn bản
- D. Feature selection luôn tốt hơn feature extraction về hiệu suất
Câu 19: Phương pháp "k-fold cross-validation" được sử dụng để làm gì trong quá trình xây dựng mô hình học máy?
- A. Tăng kích thước tập dữ liệu huấn luyện
- B. Giảm độ phức tạp của mô hình
- C. Đánh giá độ tin cậy của mô hình và lựa chọn tham số mô hình
- D. Cải thiện tốc độ huấn luyện mô hình
Câu 20: Trong khai phá văn bản (text mining), TF-IDF được sử dụng để làm gì?
- A. Phân loại văn bản
- B. Phân cụm văn bản
- C. Tóm tắt văn bản
- D. Tính trọng số của từ trong văn bản
Câu 21: Bài toán phát hiện gian lận thẻ tín dụng (credit card fraud detection) thường được tiếp cận như một bài toán nào trong khai phá dữ liệu?
- A. Phân lớp (Classification) hoặc Phát hiện bất thường (Anomaly Detection)
- B. Hồi quy (Regression)
- C. Phân cụm (Clustering)
- D. Khai phá luật kết hợp (Association Rule Mining)
Câu 22: Trong mạng nơ-ron (neural networks), hàm kích hoạt (activation function) có vai trò gì?
- A. Chuẩn hóa dữ liệu đầu vào
- B. Giới thiệu tính phi tuyến tính vào mạng
- C. Tính toán độ lỗi của mạng
- D. Tối ưu hóa trọng số của mạng
Câu 23: "Overfitting" trong học máy xảy ra khi nào?
- A. Mô hình quá đơn giản và không nắm bắt được cấu trúc dữ liệu
- B. Dữ liệu huấn luyện chứa quá nhiều nhiễu
- C. Mô hình học quá kỹ trên dữ liệu huấn luyện và kém khái quát hóa trên dữ liệu mới
- D. Quá trình huấn luyện mô hình chưa hội tụ
Câu 24: Phương pháp nào sau đây giúp giảm thiểu overfitting trong mô hình cây quyết định?
- A. Tăng độ sâu của cây
- B. Sử dụng nhiều thuộc tính hơn
- C. Giảm kích thước tập dữ liệu huấn luyện
- D. Cắt tỉa cây (Pruning)
Câu 25: Trong khai phá dữ liệu y tế, ứng dụng nào sau đây là phổ biến?
- A. Phân tích thị trường chứng khoán
- B. Dự đoán nguy cơ mắc bệnh và hỗ trợ chẩn đoán
- C. Tối ưu hóa chuỗi cung ứng
- D. Phân tích cảm xúc trên mạng xã hội
Câu 26: Khái niệm "sparsity" (tính thưa thớt) thường xuất hiện trong loại dữ liệu nào?
- A. Dữ liệu ảnh (Image data)
- B. Dữ liệu âm thanh (Audio data)
- C. Dữ liệu văn bản và dữ liệu giao dịch (Text data and Transaction data)
- D. Dữ liệu chuỗi thời gian (Time series data)
Câu 27: Trong thuật toán PageRank, mục tiêu chính là gì?
- A. Xếp hạng độ quan trọng của các trang web trong mạng lưới
- B. Phân cụm các trang web theo chủ đề
- C. Tìm kiếm các trang web chứa thông tin cụ thể
- D. Phân tích cấu trúc liên kết của website
Câu 28: "Lift" trong khai phá luật kết hợp đo lường điều gì?
- A. Độ phổ biến của luật kết hợp
- B. Mức độ tương quan giữa vế trái và vế phải của luật
- C. Độ chính xác của luật kết hợp
- D. Độ tin cậy của luật kết hợp
Câu 29: Phương pháp "gradient descent" được sử dụng để làm gì trong huấn luyện mô hình học máy?
- A. Tiền xử lý dữ liệu đầu vào
- B. Đánh giá hiệu suất mô hình
- C. Tối ưu hóa các tham số của mô hình để giảm thiểu hàm mất mát
- D. Lựa chọn đặc trưng quan trọng
Câu 30: Trong khai phá dữ liệu, vấn đề "class imbalance" (mất cân bằng lớp) xảy ra khi nào?
- A. Dữ liệu chứa nhiều thuộc tính không liên quan
- B. Mô hình học máy quá phức tạp
- C. Dữ liệu huấn luyện và dữ liệu kiểm tra khác nhau về phân phối
- D. Số lượng mẫu của các lớp mục tiêu phân phối không đều, có lớp chiếm đa số và lớp thiểu số