Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 10 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong bối cảnh khai phá dữ liệu, phát biểu nào sau đây mô tả chính xác nhất mục tiêu của quá trình tiền xử lý dữ liệu?
- A. Tăng tốc độ thực thi của các thuật toán khai phá dữ liệu.
- B. Nâng cao chất lượng dữ liệu để cải thiện độ chính xác và hiệu quả của các mô hình khai phá.
- C. Giảm thiểu dung lượng lưu trữ của cơ sở dữ liệu.
- D. Đảm bảo tính bảo mật và riêng tư của dữ liệu trước khi khai phá.
Câu 2: Bạn có một tập dữ liệu về lịch sử mua hàng của khách hàng tại một siêu thị. Bạn muốn khám phá ra các nhóm sản phẩm thường được mua cùng nhau. Kỹ thuật khai phá dữ liệu nào phù hợp nhất để giải quyết vấn đề này?
- A. Phân cụm (Clustering)
- B. Phân lớp (Classification)
- C. Khai thác luật kết hợp (Association Rule Mining)
- D. Hồi quy (Regression)
Câu 3: Thuật toán Apriori được sử dụng phổ biến trong khai thác luật kết hợp. Nguyên tắc "Apriori" cốt lõi của thuật toán này là gì?
- A. Nếu một tập mục là thường xuyên, thì tất cả các tập con của nó cũng phải là thường xuyên.
- B. Nếu một tập mục là không thường xuyên, thì tất cả các tập cha của nó cũng phải là không thường xuyên.
- C. Độ hỗ trợ của một tập mục tỉ lệ thuận với kích thước của tập mục đó.
- D. Độ tin cậy của một luật kết hợp không phụ thuộc vào độ hỗ trợ của tập mục.
Câu 4: Trong khai phá luật kết hợp, độ đo "confidence" (độ tin cậy) của luật "A → B" được tính như thế nào?
- A. support(B) / support(A)
- B. support(A ∪ B) / support(A)
- C. support(A ∪ B) / support(B)
- D. support(A) / support(A ∪ B)
Câu 5: Cho một luật kết hợp "Mua bánh mì → Mua bơ" với độ tin cậy là 70%. Ý nghĩa thực tế của độ tin cậy này là gì?
- A. 70% khách hàng mua bơ cũng mua bánh mì.
- B. 70% sản phẩm bơ được mua cùng với bánh mì.
- C. Trong số những khách hàng mua bánh mì, có 70% khả năng họ cũng sẽ mua bơ.
- D. Trong số những khách hàng mua bơ, có 70% khả năng họ đã mua bánh mì trước đó.
Câu 6: Phương pháp phân cụm K-means hoạt động dựa trên việc tối ưu hóa tiêu chí nào?
- A. Độ tương đồng giữa các cụm.
- B. Số lượng điểm dữ liệu trong mỗi cụm.
- C. Khoảng cách lớn nhất giữa các điểm dữ liệu trong cùng một cụm.
- D. Tổng khoảng cách bình phương từ mỗi điểm dữ liệu đến trung tâm cụm gần nhất.
Câu 7: Trong bài toán phân lớp, mục tiêu chính của việc xây dựng mô hình là gì?
- A. Dự đoán lớp (category) của một đối tượng mới dựa trên các thuộc tính của nó.
- B. Phân nhóm các đối tượng tương tự vào cùng một cụm.
- C. Tìm ra các luật kết hợp giữa các thuộc tính.
- D. Giảm chiều dữ liệu để dễ dàng trực quan hóa.
Câu 8: Phương pháp đánh giá mô hình phân lớp "confusion matrix" (ma trận nhầm lẫn) cung cấp thông tin gì?
- A. Độ chính xác tổng thể của mô hình trên tập dữ liệu kiểm tra.
- B. Số lượng dự đoán đúng và sai cho từng lớp, bao gồm True Positives, True Negatives, False Positives, và False Negatives.
- C. Độ phức tạp tính toán của thuật toán phân lớp.
- D. Mức độ phù hợp của mô hình với dữ liệu huấn luyện.
Câu 9: "Overfitting" (quá khớp) là một vấn đề thường gặp trong xây dựng mô hình học máy. Hậu quả chính của overfitting là gì?
- A. Mô hình trở nên quá đơn giản và không nắm bắt được các mẫu trong dữ liệu.
- B. Thời gian huấn luyện mô hình tăng lên đáng kể.
- C. Mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới (dữ liệu kiểm tra).
- D. Mô hình không thể hội tụ và không đưa ra được dự đoán.
Câu 10: Kỹ thuật "feature scaling" (tỉ lệ hóa thuộc tính) thường được áp dụng trong tiền xử lý dữ liệu cho các thuật toán học máy nào?
- A. Cây quyết định (Decision Trees)
- B. Luật kết hợp (Association Rules)
- C. Naive Bayes
- D. K-Nearest Neighbors (KNN) và Support Vector Machines (SVM)
Câu 11: Trong quá trình khai phá dữ liệu, bước nào thường chiếm nhiều thời gian và công sức nhất?
- A. Tiền xử lý dữ liệu (Data Preprocessing)
- B. Lựa chọn thuật toán khai phá dữ liệu.
- C. Đánh giá và diễn giải kết quả khai phá.
- D. Thu thập dữ liệu.
Câu 12: Phân tích dữ liệu lớn (Big Data Analytics) khác biệt so với khai phá dữ liệu truyền thống chủ yếu ở khía cạnh nào?
- A. Loại thuật toán khai phá dữ liệu sử dụng.
- B. Quy mô và độ phức tạp của dữ liệu (Volume, Velocity, Variety, Veracity, Value).
- C. Mục tiêu cuối cùng của phân tích dữ liệu.
- D. Ngôn ngữ lập trình sử dụng để phân tích.
Câu 13: Trong khai phá dữ liệu văn bản (Text Mining), kỹ thuật "Bag-of-Words" (mô hình túi từ) được sử dụng để làm gì?
- A. Phân tích ngữ nghĩa của văn bản.
- B. Xác định chủ đề chính của văn bản.
- C. Biểu diễn văn bản thành dạng số (vectors) dựa trên tần suất xuất hiện của từ.
- D. Loại bỏ các từ dừng (stop words) khỏi văn bản.
Câu 14: Mục đích của việc giảm chiều dữ liệu (dimensionality reduction) trong tiền xử lý là gì?
- A. Giảm số lượng thuộc tính đầu vào để đơn giản hóa mô hình, giảm nhiễu và tăng tốc độ tính toán.
- B. Tăng số lượng thuộc tính để mô tả dữ liệu chi tiết hơn.
- C. Thay đổi thang đo của các thuộc tính về cùng một phạm vi.
- D. Phát hiện các thuộc tính bị thiếu giá trị.
Câu 15: PCA (Principal Component Analysis) là một kỹ thuật giảm chiều dữ liệu dựa trên nguyên tắc nào?
- A. Loại bỏ các thuộc tính ít quan trọng nhất.
- B. Tìm các thành phần chính (principal components) là tổ hợp tuyến tính của các thuộc tính ban đầu, sao cho chúng giữ lại phương sai lớn nhất của dữ liệu.
- C. Phân cụm dữ liệu thành các nhóm nhỏ hơn.
- D. Chuẩn hóa dữ liệu về khoảng [0, 1].
Câu 16: Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), mục tiêu thường gặp là gì?
- A. Phân loại các chuỗi thời gian vào các nhóm khác nhau.
- B. Tìm các luật kết hợp xuất hiện trong chuỗi thời gian.
- C. Dự báo giá trị tương lai của chuỗi thời gian dựa trên lịch sử.
- D. Phát hiện các ngoại lệ trong chuỗi thời gian.
Câu 17: ROC curve (Receiver Operating Characteristic curve) và AUC (Area Under the Curve) được sử dụng để đánh giá hiệu suất của mô hình nào?
- A. Mô hình phân cụm.
- B. Mô hình hồi quy.
- C. Mô hình khai thác luật kết hợp.
- D. Mô hình phân lớp nhị phân.
Câu 18: Cross-validation (kiểm định chéo) là kỹ thuật quan trọng trong học máy. Mục đích chính của cross-validation là gì?
- A. Tăng tốc độ huấn luyện mô hình.
- B. Đánh giá khách quan hiệu suất của mô hình trên dữ liệu unseen (dữ liệu chưa từng thấy) và giảm thiểu overfitting.
- C. Tối ưu hóa siêu tham số của mô hình.
- D. Tiền xử lý dữ liệu trước khi huấn luyện.
Câu 19: Trong thuật toán DBSCAN (Density-Based Spatial Clustering of Applications with Noise), tham số "epsilon" (ε) và "minPts" (minimum points) có vai trò gì?
- A. Xác định số lượng cụm cần tìm.
- B. Kiểm soát hình dạng của các cụm.
- C. ε xác định bán kính lân cận, minPts xác định số lượng điểm tối thiểu trong vùng lân cận để tạo thành một cụm lõi.
- D. Quyết định thuộc tính nào quan trọng nhất cho phân cụm.
Câu 20: Phương pháp học tăng cường (Reinforcement Learning) khác biệt so với học có giám sát (Supervised Learning) và học không giám sát (Unsupervised Learning) ở điểm nào?
- A. Học tăng cường học thông qua tương tác với môi trường và nhận phần thưởng/hình phạt, không dựa trên dữ liệu gán nhãn trước.
- B. Học tăng cường chỉ áp dụng cho bài toán phân lớp.
- C. Học tăng cường không sử dụng thuật toán.
- D. Học tăng cường là một dạng đặc biệt của học không giám sát.
Câu 21: Cho một tập dữ liệu giao dịch: T1={A, B, C}, T2={A, C}, T3={A, D}, T4={B, C, D}. Với min_support = 2, tập mục {C, D} có phải là tập mục thường xuyên không?
- A. Có, vì độ hỗ trợ của {C, D} là 3.
- B. Có, vì độ hỗ trợ của {C, D} là 2.
- C. Không, vì độ hỗ trợ của {C, D} là 1.
- D. Không, vì độ hỗ trợ của {C, D} là 2, nhưng cần phải xuất hiện ít nhất 3 lần.
Câu 22: Trong ngữ cảnh khai phá dữ liệu, "tri thức" (knowledge) được định nghĩa là gì?
- A. Dữ liệu đã được thu thập và lưu trữ.
- B. Các mẫu, quy luật hoặc thông tin hữu ích, mới mẻ và có giá trị được phát hiện từ dữ liệu.
- C. Các thuật toán và mô hình được sử dụng để khai phá dữ liệu.
- D. Kết quả trực quan hóa dữ liệu.
Câu 23: Phương pháp nào sau đây không thuộc nhóm kỹ thuật phân cụm?
- A. K-means
- B. DBSCAN
- C. Cây quyết định (Decision Tree)
- D. Hierarchical Clustering
Câu 24: Trong mô hình cây quyết định, độ đo "entropy" (entropy thông tin) được sử dụng để làm gì?
- A. Đo độ không chắc chắn hoặc độ hỗn loạn của tập dữ liệu, sử dụng để chọn thuộc tính tốt nhất để phân chia nút.
- B. Đo độ chính xác của cây quyết định.
- C. Giảm chiều dữ liệu trước khi xây dựng cây quyết định.
- D. Xác định số lượng nhánh tối ưu cho cây quyết định.
Câu 25: "Bias-variance tradeoff" (đánh đổi giữa độ chệch và phương sai) là một khái niệm quan trọng trong học máy. Mô hình có độ chệch cao (high bias) thường có đặc điểm gì?
- A. Quá phức tạp và overfitting dữ liệu huấn luyện.
- B. Quá đơn giản và underfitting dữ liệu huấn luyện, bỏ qua các mẫu quan trọng.
- C. Có phương sai cao trên dữ liệu kiểm tra.
- D. Hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
Câu 26: Kỹ thuật "one-hot encoding" được sử dụng để xử lý loại dữ liệu nào trong tiền xử lý?
- A. Dữ liệu số liên tục.
- B. Dữ liệu số rời rạc.
- C. Dữ liệu phân loại (categorical data).
- D. Dữ liệu văn bản.
Câu 27: Trong khai phá web (Web Mining), "Web Usage Mining" tập trung vào việc khai thác thông tin gì?
- A. Cấu trúc liên kết giữa các trang web.
- B. Nội dung văn bản trên các trang web.
- C. Hình ảnh và video trên các trang web.
- D. Hành vi duyệt web của người dùng (ví dụ: nhật ký truy cập web).
Câu 28: Mô hình mạng nơ-ron (Neural Network) lấy cảm hứng từ cấu trúc của hệ thống nào?
- A. Hệ thống máy tính.
- B. Hệ thống thần kinh sinh học.
- C. Hệ thống cơ học.
- D. Hệ thống kinh tế.
Câu 29: Trong phân tích cảm xúc (Sentiment Analysis), mục tiêu chính là gì?
- A. Phân loại văn bản theo chủ đề.
- B. Tóm tắt nội dung văn bản.
- C. Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) được thể hiện trong văn bản.
- D. Dịch văn bản sang ngôn ngữ khác.
Câu 30: Đạo đức trong khai phá dữ liệu (Data Mining Ethics) đề cập đến vấn đề gì?
- A. Sử dụng dữ liệu một cách có trách nhiệm và công bằng, đảm bảo quyền riêng tư và tránh phân biệt đối xử.
- B. Tối ưu hóa hiệu suất của các thuật toán khai phá dữ liệu.
- C. Bảo mật dữ liệu khỏi các cuộc tấn công mạng.
- D. Tuân thủ các quy định về bản quyền dữ liệu.