Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 05 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong khai phá dữ liệu, bước nào thường được thực hiện đầu tiên để đảm bảo chất lượng và tính phù hợp của dữ liệu trước khi áp dụng các thuật toán?
- A. Lựa chọn mô hình khai phá dữ liệu
- B. Tiền xử lý dữ liệu (Data Preprocessing)
- C. Đánh giá mô hình và tri thức
- D. Khai thác mẫu và tri thức
Câu 2: Phương pháp tiền xử lý dữ liệu nào sau đây giúp giảm số chiều của dữ liệu bằng cách loại bỏ các thuộc tính ít quan trọng hoặc dư thừa?
- A. Chuẩn hóa dữ liệu (Data Normalization)
- B. Rời rạc hóa dữ liệu (Data Discretization)
- C. Giảm chiều dữ liệu (Dimensionality Reduction)
- D. Làm sạch dữ liệu (Data Cleaning)
Câu 3: Trong khai phá luật kết hợp, độ đo "độ hỗ trợ" (support) của một tập mục {A, B} được tính như thế nào?
- A. Tỷ lệ giao dịch chứa cả mục A và mục B trên tổng số giao dịch
- B. Tỷ lệ giao dịch chứa mục A trên tổng số giao dịch
- C. Số lượng giao dịch chứa cả mục A và mục B
- D. Tỷ lệ giao dịch chứa mục B khi đã biết giao dịch chứa mục A
Câu 4: Thuật toán Apriori sử dụng nguyên lý nào để giảm không gian tìm kiếm tập mục thường xuyên?
- A. Nguyên lý chia để trị
- B. Nguyên lý tham lam
- C. Nguyên lý quy hoạch động
- D. Nguyên lý phản đơn điệu (Apriori property): Nếu một tập mục là không thường xuyên, thì mọi siêu tập của nó cũng không thường xuyên.
Câu 5: Để đánh giá hiệu quả của một mô hình phân lớp, độ đo "độ chính xác" (accuracy) được tính bằng công thức nào?
- A. Số mẫu dự đoán sai / Tổng số mẫu
- B. Số mẫu dự đoán đúng / Tổng số mẫu
- C. Số mẫu dự đoán đúng là dương tính / Tổng số mẫu thực tế là dương tính
- D. Số mẫu dự đoán đúng là âm tính / Tổng số mẫu thực tế là âm tính
Câu 6: Trong bài toán phân cụm dữ liệu, thuật toán K-means thuộc loại phương pháp phân cụm nào?
- A. Phân cụm phân cấp (Hierarchical clustering)
- B. Phân cụm dựa trên mật độ (Density-based clustering)
- C. Phân cụm dựa trên phân hoạch (Partitioning clustering)
- D. Phân cụm dựa trên mô hình (Model-based clustering)
Câu 7: Khi nào thì kỹ thuật "kiểm định chéo" (cross-validation) thường được sử dụng trong khai phá dữ liệu?
- A. Để đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới
- B. Để tăng tốc độ huấn luyện mô hình
- C. Để trực quan hóa dữ liệu đầu vào
- D. Để làm sạch dữ liệu bị thiếu
Câu 8: Cho một tập dữ liệu giao dịch như sau:
T1: {Bánh mì, Sữa}
T2: {Bánh mì, Tã, Bia}
T3: {Sữa, Tã, Bia, Trứng}
T4: {Bánh mì, Sữa, Tã}
T5: {Bánh mì, Tã, Nước ngọt}
Với độ hỗ trợ tối thiểu là 40%, tập mục {Bánh mì, Tã} có phải là tập mục thường xuyên không?
- A. Không, vì độ hỗ trợ của {Bánh mì, Tã} chỉ là 20%
- B. Có, vì độ hỗ trợ của {Bánh mì, Tã} là 60% (3/5 giao dịch)
- C. Có, vì độ hỗ trợ tối thiểu chỉ là 40%
- D. Không thể xác định vì không biết tổng số mục trong dữ liệu
Câu 9: Trong thuật toán ID3 xây dựng cây quyết định, tiêu chí phân tách nút nào được sử dụng?
- A. Khoảng cách Euclidean
- B. Hệ số tương quan Pearson
- C. Độ lợi thông tin (Information Gain)
- D. Phương sai (Variance)
Câu 10: Kỹ thuật "bagging" và "boosting" được sử dụng trong phương pháp học máy nào?
- A. Phân cụm
- B. Khai phá luật kết hợp
- C. Giảm chiều dữ liệu
- D. Học ансамбль (Ensemble learning)
Câu 11: Ứng dụng nào sau đây thể hiện việc sử dụng khai phá dữ liệu trong lĩnh vực thương mại điện tử?
- A. Dự báo thời tiết
- B. Đề xuất sản phẩm cho khách hàng dựa trên lịch sử mua hàng
- C. Phân tích геном người
- D. Điều khiển робот tự hành
Câu 12: Trong mô hình mạng nơ-ron, hàm kích hoạt (activation function) có vai trò gì?
- A. Đưa tính phi tuyến vào mô hình, giúp mô hình biểu diễn được các quan hệ phức tạp
- B. Chuẩn hóa dữ liệu đầu vào
- C. Giảm số lượng tham số của mô hình
- D. Tăng tốc độ hội tụ của mô hình
Câu 13: Để xử lý dữ liệu thuộc tính dạng văn bản (textual data), kỹ thuật nào sau đây thường được sử dụng để chuyển đổi văn bản thành dạng số?
- A. Chuẩn hóa Min-Max
- B. Phân tích thành phần chính (PCA)
- C. Mô hình túi từ (Bag-of-Words) hoặc TF-IDF
- D. Rời rạc hóa theo tần suất
Câu 14: Trong phân tích cảm xúc (sentiment analysis), mục tiêu chính là gì?
- A. Phân loại văn bản theo chủ đề
- B. Xác định thái độ, quan điểm hoặc cảm xúc thể hiện trong văn bản
- C. Tóm tắt nội dung chính của văn bản
- D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
Câu 15: Phương pháp "phân tích thành phần chính" (PCA) được sử dụng chủ yếu cho mục đích gì trong khai phá dữ liệu?
- A. Phân cụm dữ liệu
- B. Phân lớp dữ liệu
- C. Giảm chiều dữ liệu và trực quan hóa dữ liệu
- D. Khai phá luật kết hợp
Câu 16: Trong khai phá chuỗi thời gian (time series mining), nhiệm vụ "dự báo" (forecasting) liên quan đến việc gì?
- A. Phân loại các chuỗi thời gian vào các nhóm khác nhau
- B. Tìm kiếm các mẫu lặp lại trong chuỗi thời gian
- C. Phát hiện các điểm bất thường trong chuỗi thời gian
- D. Ước tính giá trị tương lai của chuỗi thời gian dựa trên dữ liệu quá khứ
Câu 17: Độ đo "lift" trong khai phá luật kết hợp được sử dụng để đánh giá điều gì?
- A. Độ phổ biến của một tập mục
- B. Mức độ liên quan giữa tiền đề và hệ quả của luật so với sự xuất hiện ngẫu nhiên
- C. Độ tin cậy của một luật kết hợp
- D. Tỷ lệ giao dịch chứa một tập mục
Câu 18: Giả sử bạn có một mô hình phân lớp dự đoán bệnh tim. Nếu mô hình có "độ nhạy" (sensitivity) cao, điều này có nghĩa là gì?
- A. Mô hình dự đoán chính xác các trường hợp không mắc bệnh tim
- B. Mô hình có độ chính xác tổng thể cao
- C. Mô hình có khả năng phát hiện tốt các trường hợp thực sự mắc bệnh tim
- D. Mô hình ít mắc lỗi dự đoán sai
Câu 19: Trong thuật toán DBSCAN, tham số "epsilon" (ε) và "MinPts" có vai trò gì?
- A. Xác định lân cận của một điểm và số lượng điểm tối thiểu trong lân cận để tạo thành một cụm
- B. Xác định số lượng cụm cần tìm
- C. Xác định trọng tâm ban đầu cho các cụm
- D. Kiểm soát tốc độ hội tụ của thuật toán
Câu 20: Loại tấn công bảo mật nào trong khai phá dữ liệu cố gắng suy luận thông tin nhạy cảm về dữ liệu huấn luyện từ mô hình đã được công bố?
- A. Tấn công từ chối dịch vụ (DoS)
- B. Tấn công SQL injection
- C. Tấn công giả mạo (Spoofing)
- D. Tấn công suy diễn thành viên (Membership Inference Attack)
Câu 21: Cho một luật kết hợp "Mua tã → Mua sữa" với độ tin cậy 70%. Ý nghĩa thực tế của luật này là gì?
- A. 70% khách hàng mua sữa cũng mua tã
- B. Trong số khách hàng mua tã, có 70% khả năng họ cũng mua sữa
- C. Có 70% giao dịch chứa cả tã và sữa
- D. Nếu khách hàng không mua tã, có 70% khả năng họ cũng không mua sữa
Câu 22: Trong ngữ cảnh của "dữ liệu lớn" (Big Data), khai phá dữ liệu đối mặt với thách thức nào lớn nhất?
- A. Sự thiếu hụt các thuật toán khai phá dữ liệu hiệu quả
- B. Chi phí phần mềm khai phá dữ liệu quá cao
- C. Khả năng mở rộng và hiệu suất tính toán trên lượng dữ liệu khổng lồ
- D. Sự thiếu hụt chuyên gia khai phá dữ liệu
Câu 23: Để xử lý dữ liệu bị thiếu (missing values) trong tiền xử lý, phương pháp "điền giá trị trung bình" (mean imputation) thực hiện như thế nào?
- A. Thay thế giá trị thiếu bằng giá trị trung bình của thuộc tính đó
- B. Xóa bỏ các bản ghi chứa giá trị thiếu
- C. Thay thế giá trị thiếu bằng giá trị 0
- D. Giữ nguyên giá trị thiếu và không xử lý
Câu 24: Trong khai phá dữ liệu web, "web usage mining" tập trung vào việc phân tích loại dữ liệu nào?
- A. Nội dung của các trang web
- B. Hành vi duyệt web của người dùng (ví dụ: nhật ký truy cập web)
- C. Cấu trúc liên kết giữa các trang web
- D. Thông tin về tác giả và nguồn gốc của trang web
Câu 25: Phương pháp phân cụm nào sau đây có thể tự động xác định số lượng cụm tối ưu mà không cần người dùng chỉ định trước?
- A. K-means
- B. K-medoids
- C. Cả K-means và K-medoids
- D. Một số phương pháp phân cụm phân cấp (Hierarchical clustering) hoặc dựa trên mật độ (DBSCAN)
Câu 26: Trong quá trình khai phá tri thức từ dữ liệu (KDD), bước nào liên quan đến việc diễn giải và đánh giá các mẫu tri thức đã khai phá được?
- A. Làm sạch dữ liệu
- B. Chọn lọc dữ liệu
- C. Diễn giải/Đánh giá tri thức
- D. Chuyển đổi dữ liệu
Câu 27: Để trực quan hóa dữ liệu đa chiều, kỹ thuật "t-SNE" thường được sử dụng để làm gì?
- A. Tăng số chiều dữ liệu
- B. Giảm chiều dữ liệu để hiển thị trên không gian 2D hoặc 3D
- C. Phân cụm dữ liệu
- D. Phân lớp dữ liệu
Câu 28: Trong bài toán phát hiện gian lận (fraud detection) trong giao dịch thẻ tín dụng, mô hình khai phá dữ liệu thường được xây dựng để làm gì?
- A. Phân loại giao dịch thành gian lận hoặc không gian lận
- B. Phân cụm các giao dịch theo giá trị
- C. Dự báo số lượng giao dịch trong tương lai
- D. Khai phá luật kết hợp giữa các loại giao dịch
Câu 29: Khi xây dựng mô hình phân lớp, hiện tượng "quá khớp" (overfitting) xảy ra khi nào?
- A. Mô hình quá đơn giản và không thể học được các mẫu trong dữ liệu
- B. Mô hình được huấn luyện trên quá ít dữ liệu
- C. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới
- D. Mô hình không hội tụ trong quá trình huấn luyện
Câu 30: Để đánh giá mô hình phân cụm, độ đo "silhouette coefficient" được sử dụng để đo lường điều gì?
- A. Độ chính xác của việc gán nhãn cụm
- B. Mức độ một điểm dữ liệu tương đồng với cụm của nó so với các cụm khác
- C. Thời gian thực hiện thuật toán phân cụm
- D. Số lượng cụm được tạo ra