Bài Tập, Đề Thi Trắc Nghiệm Online – Môn Khai Phá Dữ Liệu – Đề 02

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Môn Khai Phá Dữ Liệu

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 02

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 02 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.

Câu 1: Trong quy trình Khám phá Tri thức từ Cơ sở dữ liệu (KDD), bước nào sau đây tập trung vào việc chuyển đổi dữ liệu thô sang định dạng phù hợp cho phân tích?

  • A. Khai thác dữ liệu (Data Mining)
  • B. Tiền xử lý dữ liệu (Data Preprocessing)
  • C. Đánh giá mẫu (Pattern Evaluation)
  • D. Lựa chọn dữ liệu (Data Selection)

Câu 2: Phương pháp tiền xử lý dữ liệu nào sau đây thường được sử dụng để giảm số chiều của dữ liệu, bằng cách loại bỏ các thuộc tính ít quan trọng hoặc kết hợp các thuộc tính?

  • A. Chuẩn hóa dữ liệu (Data Normalization)
  • B. Làm sạch dữ liệu (Data Cleaning)
  • C. Giảm dữ liệu (Data Reduction)
  • D. Tích hợp dữ liệu (Data Integration)

Câu 3: Thuật toán Apriori được sử dụng phổ biến trong khai phá dữ liệu để giải quyết loại bài toán nào?

  • A. Phân cụm dữ liệu (Clustering)
  • B. Phân lớp dữ liệu (Classification)
  • C. Hồi quy dữ liệu (Regression)
  • D. Khai phá luật kết hợp (Association Rule Mining)

Câu 4: Độ đo "độ hỗ trợ" (support) trong khai phá luật kết hợp thể hiện điều gì?

  • A. Tần suất xuất hiện đồng thời của các mục trong tập dữ liệu giao dịch
  • B. Độ chính xác của luật kết hợp
  • C. Mức độ tin cậy của luật kết hợp
  • D. Số lượng giao dịch tối thiểu cần thiết để luật được xem là hợp lệ

Câu 5: Cho một luật kết hợp "A → B" với độ tin cậy (confidence) là 70%. Điều này có nghĩa là gì?

  • A. 70% giao dịch chứa mục B cũng chứa mục A.
  • B. Trong số các giao dịch chứa mục A, có 70% giao dịch cũng chứa mục B.
  • C. Có 70% khả năng luật "A → B" là đúng trong thực tế.
  • D. Luật "A → B" xuất hiện trong 70% tổng số giao dịch.

Câu 6: Thuật toán FP-Growth cải tiến so với Apriori chủ yếu ở điểm nào?

  • A. FP-Growth có khả năng khai phá luật kết hợp mạnh hơn Apriori.
  • B. FP-Growth dễ cài đặt và sử dụng hơn Apriori.
  • C. FP-Growth không cần duyệt cơ sở dữ liệu nhiều lần như Apriori, giúp tăng tốc độ.
  • D. FP-Growth có thể xử lý dữ liệu lớn tốt hơn Apriori về mặt bộ nhớ.

Câu 7: Trong bài toán phân lớp, mục tiêu chính là gì?

  • A. Xây dựng mô hình để dự đoán lớp (nhãn) của các đối tượng mới dựa trên dữ liệu đã biết.
  • B. Phân nhóm các đối tượng tương tự vào cùng một cụm.
  • C. Tìm kiếm các luật kết hợp giữa các thuộc tính trong dữ liệu.
  • D. Giảm số chiều dữ liệu để đơn giản hóa quá trình phân tích.

Câu 8: Thuật toán Cây quyết định (Decision Tree) hoạt động dựa trên nguyên tắc nào?

  • A. Tìm kiếm các cụm dữ liệu dựa trên khoảng cách giữa các điểm dữ liệu.
  • B. Phân chia dữ liệu thành các nhánh dựa trên giá trị của các thuộc tính để tối ưu hóa độ thuần khiết của lớp.
  • C. Tính toán xác suất hậu nghiệm dựa trên xác suất tiên nghiệm và bằng chứng.
  • D. Mô phỏng quá trình học hỏi của não bộ để tìm ra mối quan hệ phức tạp trong dữ liệu.

Câu 9: Độ đo "entropy" trong xây dựng Cây quyết định được sử dụng để làm gì?

  • A. Đo lường độ chính xác của mô hình Cây quyết định.
  • B. Xác định ngưỡng phân chia tốt nhất cho thuộc tính số.
  • C. Đo lường độ không thuần nhất (impurity) của một tập dữ liệu.
  • D. Tính toán độ phức tạp của Cây quyết định.

Câu 10: Ưu điểm chính của thuật toán Naive Bayes trong phân lớp là gì?

  • A. Có khả năng xử lý tốt dữ liệu phi tuyến tính.
  • B. Tạo ra mô hình phân lớp dễ diễn giải và trực quan.
  • C. Không yêu cầu dữ liệu huấn luyện lớn.
  • D. Tính toán nhanh và hiệu quả, đặc biệt với dữ liệu lớn và chiều cao.

Câu 11: Trong phân cụm dữ liệu, phương pháp phân cụm phân cấp (Hierarchical Clustering) tạo ra kết quả như thế nào?

  • A. Một cấu trúc phân cấp các cụm, thường được biểu diễn dưới dạng cây phả hệ (dendrogram).
  • B. Một tập hợp các cụm rời rạc, mỗi đối tượng thuộc về đúng một cụm.
  • C. Các cụm có hình dạng và kích thước tùy ý, không bị ràng buộc bởi các giả định.
  • D. Một mô hình phân cụm tối ưu dựa trên hàm mục tiêu được xác định trước.

Câu 12: Thuật toán K-means phân cụm dữ liệu hoạt động dựa trên việc tối ưu hóa điều gì?

  • A. Độ tương đồng giữa các đối tượng trong cùng một cụm.
  • B. Tổng khoảng cách bình phương từ mỗi điểm dữ liệu đến trung tâm cụm gần nhất (Within-cluster sum of squares - WCSS).
  • C. Mật độ điểm dữ liệu trong mỗi cụm.
  • D. Khoảng cách lớn nhất giữa các điểm dữ liệu trong mỗi cụm.

Câu 13: Phương pháp đánh giá mô hình phân lớp nào sau đây đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?

  • A. Độ thu hồi (Recall)
  • B. Độ chính xác (Precision)
  • C. Độ chính xác tổng thể (Accuracy)
  • D. Giá trị F1 (F1-score)

Câu 14: Ma trận nhầm lẫn (Confusion Matrix) được sử dụng để làm gì trong đánh giá mô hình phân lớp?

  • A. Trực quan hóa cấu trúc của mô hình Cây quyết định.
  • B. Xác định các thuộc tính quan trọng nhất trong dữ liệu.
  • C. Đánh giá độ phức tạp của mô hình.
  • D. Phân tích chi tiết các loại lỗi mà mô hình phân lớp mắc phải (True Positive, False Positive, True Negative, False Negative).

Câu 15: Đường cong ROC (Receiver Operating Characteristic) thường được sử dụng để đánh giá mô hình phân lớp nào?

  • A. Mô hình phân lớp nhị phân (Binary Classification).
  • B. Mô hình phân lớp đa lớp (Multi-class Classification).
  • C. Mô hình hồi quy (Regression).
  • D. Mô hình phân cụm (Clustering).

Câu 16: Trong khai phá dữ liệu chuỗi thời gian, phương pháp nào thường được sử dụng để dự báo giá trị tương lai dựa trên các giá trị quá khứ?

  • A. Phân tích luật kết hợp.
  • B. Phân tích hồi quy chuỗi thời gian (Time Series Regression).
  • C. Phân cụm dữ liệu chuỗi thời gian.
  • D. Phân lớp dữ liệu chuỗi thời gian.

Câu 17: Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

  • A. Phân tích hành vi khách hàng trong thương mại điện tử.
  • B. Phát hiện gian lận trong giao dịch ngân hàng.
  • C. Chẩn đoán bệnh dựa trên dữ liệu y tế.
  • D. Soạn thảo văn bản tự động.

Câu 18: Vấn đề "quá khớp" (overfitting) trong mô hình học máy xảy ra khi nào?

  • A. Mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu.
  • B. Dữ liệu huấn luyện chứa quá nhiều nhiễu.
  • C. Mô hình học quá kỹ trên dữ liệu huấn luyện, dẫn đến kém hiệu quả trên dữ liệu mới.
  • D. Kích thước dữ liệu huấn luyện quá nhỏ.

Câu 19: Kỹ thuật "kiểm định chéo" (cross-validation) được sử dụng để làm gì trong học máy?

  • A. Tăng kích thước dữ liệu huấn luyện.
  • B. Đánh giá khả năng tổng quát hóa (generalization) của mô hình trên dữ liệu mới.
  • C. Giảm độ phức tạp của mô hình.
  • D. Chọn lọc thuộc tính quan trọng nhất.

Câu 20: Trong ngữ cảnh khai phá dữ liệu web, "web usage mining" tập trung vào việc phân tích dữ liệu nào?

  • A. Nội dung của các trang web.
  • B. Cấu trúc liên kết giữa các trang web.
  • C. Thiết kế giao diện người dùng của trang web.
  • D. Hành vi duyệt web của người dùng (ví dụ: nhật ký truy cập web).

Câu 21: Cho cơ sở dữ liệu giao dịch sau: T1={A,B,C}, T2={A,C,D}, T3={B,C,E}, T4={A,B,C,E}. Với độ hỗ trợ tối thiểu là 50%, tập mục phổ biến nào sau đây là tập mục phổ biến lớn nhất (maximal frequent itemset)?

  • A. {A,C}
  • B. {B,C}
  • C. {A,B,C,E}
  • D. {A,C,D}

Câu 22: Trong thuật toán DBSCAN, tham số "epsilon" (ε) và "MinPts" xác định điều gì?

  • A. Số lượng cụm và trung tâm cụm ban đầu.
  • B. Mật độ lân cận cần thiết để một điểm được coi là điểm lõi và kích thước vùng lân cận.
  • C. Hình dạng và kích thước của các cụm.
  • D. Số lần lặp tối đa và tiêu chí dừng của thuật toán.

Câu 23: Phương pháp "bagging" và "boosting" thuộc nhóm kỹ thuật học máy nào?

  • A. Phân cụm (Clustering).
  • B. Giảm chiều dữ liệu (Dimensionality Reduction).
  • C. Chọn lọc đặc trưng (Feature Selection).
  • D. Học tập kết hợp (Ensemble Learning).

Câu 24: Trong phân tích cảm xúc (sentiment analysis), mục tiêu chính là gì?

  • A. Xác định cảm xúc hoặc thái độ được thể hiện trong văn bản (ví dụ: tích cực, tiêu cực, trung lập).
  • B. Phân loại văn bản theo chủ đề hoặc thể loại.
  • C. Tóm tắt nội dung chính của văn bản.
  • D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.

Câu 25: Khi xây dựng mô hình phân lớp, điều gì xảy ra nếu bạn sử dụng quá nhiều thuộc tính không liên quan?

  • A. Mô hình sẽ trở nên chính xác hơn.
  • B. Mô hình có thể trở nên phức tạp hơn, dễ bị quá khớp (overfitting) và giảm hiệu suất.
  • C. Thời gian huấn luyện mô hình sẽ giảm đáng kể.
  • D. Không có ảnh hưởng đáng kể đến mô hình.

Câu 26: Trong khai phá dữ liệu y tế, ứng dụng nào sau đây có thể giúp dự đoán nguy cơ tái nhập viện của bệnh nhân?

  • A. Phân cụm bệnh nhân theo nhóm bệnh.
  • B. Khai phá luật kết hợp giữa các triệu chứng và bệnh.
  • C. Phân lớp bệnh nhân thành nhóm nguy cơ tái nhập viện cao và thấp.
  • D. Phân tích chuỗi thời gian diễn biến bệnh của bệnh nhân.

Câu 27: "Lift" là một độ đo quan trọng trong khai phá luật kết hợp, nó đánh giá điều gì?

  • A. Độ tin cậy của luật kết hợp.
  • B. Độ hỗ trợ của luật kết hợp.
  • C. Tần suất xuất hiện của các mục trong luật.
  • D. Mức độ tương quan giữa các mục trong luật so với kỳ vọng ngẫu nhiên.

Câu 28: Để xử lý dữ liệu bị thiếu (missing values), phương pháp nào sau đây KHÔNG phù hợp?

  • A. Tăng kích thước mẫu dữ liệu.
  • B. Loại bỏ các bản ghi chứa giá trị thiếu.
  • C. Điền giá trị thiếu bằng giá trị trung bình/trung vị.
  • D. Sử dụng thuật toán học máy có khả năng xử lý dữ liệu thiếu.

Câu 29: Trong quá trình lựa chọn mô hình học máy, tiêu chí AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion) được sử dụng để làm gì?

  • A. Đánh giá độ chính xác của mô hình.
  • B. Tối ưu hóa tham số của mô hình.
  • C. Lựa chọn mô hình tốt nhất bằng cách cân bằng giữa độ phức tạp và độ phù hợp với dữ liệu.
  • D. Đánh giá khả năng tổng quát hóa của mô hình.

Câu 30: Đạo đức trong khai phá dữ liệu bao gồm những khía cạnh nào sau đây?

  • A. Bảo vệ quyền riêng tư và bảo mật dữ liệu cá nhân.
  • B. Đảm bảo tính công bằng và tránh phân biệt đối xử trong các mô hình khai phá dữ liệu.
  • C. Minh bạch và giải thích được kết quả khai phá dữ liệu.
  • D. Tất cả các khía cạnh trên.

1 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 1: Trong quy trình Khám phá Tri thức từ Cơ sở dữ liệu (KDD), bước nào sau đây tập trung vào việc chuyển đổi dữ liệu thô sang định dạng phù hợp cho phân tích?

2 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 2: Phương pháp tiền xử lý dữ liệu nào sau đây thường được sử dụng để giảm số chiều của dữ liệu, bằng cách loại bỏ các thuộc tính ít quan trọng hoặc kết hợp các thuộc tính?

3 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 3: Thuật toán Apriori được sử dụng phổ biến trong khai phá dữ liệu để giải quyết loại bài toán nào?

4 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 4: Độ đo 'độ hỗ trợ' (support) trong khai phá luật kết hợp thể hiện điều gì?

5 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 5: Cho một luật kết hợp 'A → B' với độ tin cậy (confidence) là 70%. Điều này có nghĩa là gì?

6 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 6: Thuật toán FP-Growth cải tiến so với Apriori chủ yếu ở điểm nào?

7 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 7: Trong bài toán phân lớp, mục tiêu chính là gì?

8 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 8: Thuật toán Cây quyết định (Decision Tree) hoạt động dựa trên nguyên tắc nào?

9 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 9: Độ đo 'entropy' trong xây dựng Cây quyết định được sử dụng để làm gì?

10 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 10: Ưu điểm chính của thuật toán Naive Bayes trong phân lớp là gì?

11 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 11: Trong phân cụm dữ liệu, phương pháp phân cụm phân cấp (Hierarchical Clustering) tạo ra kết quả như thế nào?

12 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 12: Thuật toán K-means phân cụm dữ liệu hoạt động dựa trên việc tối ưu hóa điều gì?

13 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 13: Phương pháp đánh giá mô hình phân lớp nào sau đây đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?

14 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 14: Ma trận nhầm lẫn (Confusion Matrix) được sử dụng để làm gì trong đánh giá mô hình phân lớp?

15 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 15: Đường cong ROC (Receiver Operating Characteristic) thường được sử dụng để đánh giá mô hình phân lớp nào?

16 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 16: Trong khai phá dữ liệu chuỗi thời gian, phương pháp nào thường được sử dụng để dự báo giá trị tương lai dựa trên các giá trị quá khứ?

17 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 17: Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

18 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 18: Vấn đề 'quá khớp' (overfitting) trong mô hình học máy xảy ra khi nào?

19 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 19: Kỹ thuật 'kiểm định chéo' (cross-validation) được sử dụng để làm gì trong học máy?

20 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 20: Trong ngữ cảnh khai phá dữ liệu web, 'web usage mining' tập trung vào việc phân tích dữ liệu nào?

21 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 21: Cho cơ sở dữ liệu giao dịch sau: T1={A,B,C}, T2={A,C,D}, T3={B,C,E}, T4={A,B,C,E}. Với độ hỗ trợ tối thiểu là 50%, tập mục phổ biến nào sau đây là tập mục phổ biến lớn nhất (maximal frequent itemset)?

22 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 22: Trong thuật toán DBSCAN, tham số 'epsilon' (ε) và 'MinPts' xác định điều gì?

23 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 23: Phương pháp 'bagging' và 'boosting' thuộc nhóm kỹ thuật học máy nào?

24 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 24: Trong phân tích cảm xúc (sentiment analysis), mục tiêu chính là gì?

25 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 25: Khi xây dựng mô hình phân lớp, điều gì xảy ra nếu bạn sử dụng quá nhiều thuộc tính không liên quan?

26 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 26: Trong khai phá dữ liệu y tế, ứng dụng nào sau đây có thể giúp dự đoán nguy cơ tái nhập viện của bệnh nhân?

27 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 27: 'Lift' là một độ đo quan trọng trong khai phá luật kết hợp, nó đánh giá điều gì?

28 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 28: Để xử lý dữ liệu bị thiếu (missing values), phương pháp nào sau đây KHÔNG phù hợp?

29 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 29: Trong quá trình lựa chọn mô hình học máy, tiêu chí AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion) được sử dụng để làm gì?

30 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 2

Câu 30: Đạo đức trong khai phá dữ liệu bao gồm những khía cạnh nào sau đây?

Xem kết quả