Bài Tập, Đề Thi Trắc Nghiệm Online – Môn Khai Phá Dữ Liệu – Đề 07

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Môn Khai Phá Dữ Liệu

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 07

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.

Câu 1: Trong quy trình Khai phá Dữ liệu (KDD), giai đoạn nào tập trung vào việc làm sạch dữ liệu nhiễu, xử lý dữ liệu thiếu và chuyển đổi dữ liệu sang định dạng phù hợp cho phân tích?

  • A. Tiền xử lý dữ liệu (Data Preprocessing)
  • B. Lựa chọn dữ liệu (Data Selection)
  • C. Khai phá dữ liệu (Data Mining)
  • D. Đánh giá tri thức (Knowledge Evaluation)

Câu 2: Một siêu thị muốn dự đoán sản phẩm nào khách hàng có khả năng mua cùng nhau. Phương pháp khai phá dữ liệu nào phù hợp nhất để khám phá ra các mối quan hệ này?

  • A. Phân cụm (Clustering)
  • B. Phân lớp (Classification)
  • C. Khai phá luật kết hợp (Association Rule Mining)
  • D. Hồi quy (Regression)

Câu 3: Thuật toán Apriori trong khai phá luật kết hợp hoạt động dựa trên nguyên tắc nào sau đây?

  • A. Chia để trị (Divide and Conquer)
  • B. Tính chất phản đơn điệu (Apriori property): Nếu một tập mục là phổ biến, thì mọi tập con của nó cũng phải phổ biến.
  • C. Tìm kiếm theo chiều rộng (Breadth-First Search)
  • D. Tìm kiếm theo chiều sâu (Depth-First Search)

Câu 4: Độ đo "độ tin cậy" (confidence) trong khai phá luật kết hợp cho biết điều gì?

  • A. Tần suất xuất hiện đồng thời của X và Y trong tập dữ liệu.
  • B. Tỷ lệ giao dịch chứa X hoặc Y trên tổng số giao dịch.
  • C. Mức độ thú vị của luật X → Y so với tần suất ngẫu nhiên.
  • D. Xác suất giao dịch chứa Y khi biết rằng giao dịch đó đã chứa X.

Câu 5: Trong bài toán phân lớp, mục tiêu chính là gì?

  • A. Xây dựng mô hình dự đoán lớp (nhãn) cho các đối tượng dữ liệu mới dựa trên tập dữ liệu đã biết lớp.
  • B. Phân chia dữ liệu thành các nhóm có đặc điểm tương đồng mà không cần nhãn lớp.
  • C. Tìm kiếm các mối quan hệ và luật lệ ẩn giữa các thuộc tính dữ liệu.
  • D. Dự đoán giá trị số của một thuộc tính mục tiêu dựa trên các thuộc tính đầu vào.

Câu 6: Phương pháp phân lớp nào dựa trên việc xây dựng một cấu trúc dạng cây, trong đó mỗi nút trên cây đại diện cho một thuộc tính và các nhánh thể hiện các giá trị của thuộc tính đó?

  • A. Mạng nơ-ron (Neural Network)
  • B. Cây quyết định (Decision Tree)
  • C. Máy học vector hỗ trợ (Support Vector Machine)
  • D. Phân lớp Bayes ngây thơ (Naive Bayes Classifier)

Câu 7: Trong thuật toán k-means, tham số "k" đại diện cho điều gì?

  • A. Số chiều của dữ liệu đầu vào.
  • B. Số lần lặp tối đa của thuật toán.
  • C. Số lượng cụm (clusters) mà thuật toán sẽ phân chia dữ liệu thành.
  • D. Ngưỡng hội tụ của thuật toán.

Câu 8: Phân cụm (clustering) khác biệt với phân lớp (classification) ở điểm nào?

  • A. Phân cụm chỉ áp dụng cho dữ liệu số, phân lớp áp dụng cho dữ liệu phi số.
  • B. Phân cụm sử dụng cây quyết định, phân lớp sử dụng mạng nơ-ron.
  • C. Phân cụm đòi hỏi dữ liệu đã được gán nhãn lớp trước, phân lớp thì không.
  • D. Phân cụm là học không giám sát (unsupervised learning), trong khi phân lớp là học có giám sát (supervised learning).

Câu 9: Độ đo "lift" trong khai phá luật kết hợp được sử dụng để đánh giá điều gì?

  • A. Độ phổ biến của tập mục X.
  • B. Mức độ tương quan giữa X và Y so với trường hợp chúng độc lập thống kê.
  • C. Độ tin cậy của luật X → Y.
  • D. Tỷ lệ giao dịch chứa cả X và Y.

Câu 10: Phương pháp giảm chiều dữ liệu (dimensionality reduction) nhằm mục đích gì?

  • A. Giảm số lượng thuộc tính (features) của dữ liệu, giúp đơn giản hóa mô hình và tăng hiệu suất tính toán.
  • B. Tăng số lượng mẫu dữ liệu để cải thiện độ chính xác của mô hình.
  • C. Làm sạch dữ liệu nhiễu và dữ liệu thiếu.
  • D. Chuyển đổi dữ liệu sang định dạng phù hợp cho khai phá luật kết hợp.

Câu 11: Trong các giai đoạn của quy trình KDD, giai đoạn nào liên quan đến việc diễn giải các mẫu (patterns) đã được khai phá và chuyển chúng thành tri thức hữu ích cho người dùng?

  • A. Tiền xử lý dữ liệu
  • B. Khai phá dữ liệu
  • C. Lựa chọn dữ liệu
  • D. Đánh giá tri thức (Knowledge Evaluation)

Câu 12: Kỹ thuật "chuẩn hóa dữ liệu" (data normalization) thường được áp dụng trong giai đoạn tiền xử lý để làm gì?

  • A. Loại bỏ dữ liệu trùng lặp.
  • B. Đưa các thuộc tính về cùng một thang đo giá trị, tránh sự chênh lệch lớn về khoảng giá trị giữa các thuộc tính.
  • C. Xử lý dữ liệu bị thiếu.
  • D. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng.

Câu 13: Khi nào thì kỹ thuật "rời rạc hóa dữ liệu" (data discretization) trở nên hữu ích?

  • A. Khi dữ liệu chứa nhiều giá trị ngoại lai.
  • B. Khi dữ liệu bị thiếu giá trị.
  • C. Khi thuật toán khai phá dữ liệu hiệu quả hơn với dữ liệu rời rạc (ví dụ: một số thuật toán phân lớp dựa trên luật).
  • D. Khi cần giảm kích thước tập dữ liệu.

Câu 14: Mô hình khai phá dữ liệu được coi là "quá khớp" (overfitting) khi nào?

  • A. Khi mô hình hoạt động kém hiệu quả trên cả dữ liệu huấn luyện và dữ liệu kiểm thử.
  • B. Khi mô hình quá đơn giản và không nắm bắt được các đặc trưng quan trọng của dữ liệu.
  • C. Khi mô hình được huấn luyện trên dữ liệu nhiễu.
  • D. Khi mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu kiểm thử mới.

Câu 15: Độ đo "độ chính xác" (accuracy) trong đánh giá mô hình phân lớp được tính như thế nào?

  • A. Tỷ lệ số lượng dự đoán đúng trên tổng số lượng dự đoán.
  • B. Tỷ lệ số lượng dự đoán đúng là dương tính trên tổng số lượng thực tế là dương tính.
  • C. Tỷ lệ số lượng dự đoán đúng là âm tính trên tổng số lượng thực tế là âm tính.
  • D. Trung bình cộng của độ chính xác và độ phủ.

Câu 16: Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là gì?

  • A. Phân cụm các chuỗi thời gian có hình dạng tương tự.
  • B. Dự đoán giá trị tương lai của chuỗi thời gian hoặc phát hiện các mẫu, xu hướng trong chuỗi thời gian.
  • C. Tìm kiếm luật kết hợp giữa các sự kiện trong chuỗi thời gian.
  • D. Phân lớp các chuỗi thời gian vào các danh mục khác nhau.

Câu 17: Kỹ thuật "bagging" và "boosting" được sử dụng trong học máy ансамбль (ensemble learning) để làm gì?

  • A. Giảm chiều dữ liệu đầu vào.
  • B. Xử lý dữ liệu thiếu.
  • C. Cải thiện độ chính xác và độ ổn định của mô hình dự đoán bằng cách kết hợp kết quả của nhiều mô hình học yếu.
  • D. Tăng tốc độ huấn luyện mô hình.

Câu 18: Phương pháp phân cụm DBSCAN có ưu điểm nổi bật nào so với k-means?

  • A. DBSCAN nhanh hơn k-means trên dữ liệu lớn.
  • B. DBSCAN luôn tạo ra số lượng cụm xác định trước.
  • C. DBSCAN hiệu quả hơn với dữ liệu nhiễu.
  • D. DBSCAN có thể phát hiện các cụm có hình dạng bất kỳ và không yêu cầu xác định trước số lượng cụm.

Câu 19: Trong ngữ cảnh khai phá dữ liệu web, "web usage mining" tập trung vào việc phân tích dữ liệu nào?

  • A. Nội dung của các trang web.
  • B. Nhật ký truy cập (log) của người dùng trên các trang web.
  • C. Cấu trúc liên kết giữa các trang web.
  • D. Thông tin về tác giả và thời gian tạo lập các trang web.

Câu 20: Thước đo F1-score là trung bình điều hòa của độ đo nào?

  • A. Độ chính xác (Accuracy) và Độ tin cậy (Confidence).
  • B. Độ tin cậy (Confidence) và Độ nâng (Lift).
  • C. Độ chính xác (Precision) và Độ phủ (Recall).
  • D. Độ phủ (Recall) và Độ hỗ trợ (Support).

Câu 21: Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu ngoại lai (outlier) trong giai đoạn tiền xử lý?

  • A. Chuẩn hóa Min-Max.
  • B. Rời rạc hóa dữ liệu.
  • C. Lấp đầy giá trị thiếu bằng giá trị trung bình.
  • D. Sử dụng phương pháp Z-score hoặc IQR để xác định và loại bỏ/điều chỉnh các giá trị ngoại lai.

Câu 22: Trong khai phá dữ liệu, "feature selection" (lựa chọn thuộc tính) có mục đích chính là gì?

  • A. Tạo ra các thuộc tính mới từ các thuộc tính hiện có.
  • B. Chọn ra một tập hợp con các thuộc tính quan trọng nhất, loại bỏ các thuộc tính không liên quan hoặc dư thừa.
  • C. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng.
  • D. Giảm số lượng mẫu dữ liệu.

Câu 23: Phân tích cảm xúc (sentiment analysis) là một ứng dụng của khai phá dữ liệu trong lĩnh vực nào?

  • A. Khai phá dữ liệu giao dịch.
  • B. Khai phá dữ liệu chuỗi thời gian.
  • C. Xử lý ngôn ngữ tự nhiên (Natural Language Processing) và khai phá văn bản.
  • D. Khai phá dữ liệu không gian.

Câu 24: Trong thuật toán phân lớp Naive Bayes, giả định "ngây thơ" (naive) đề cập đến điều gì?

  • A. Các thuộc tính đầu vào là độc lập có điều kiện với nhau khi biết nhãn lớp.
  • B. Thuật toán này đơn giản và dễ hiểu.
  • C. Thuật toán không yêu cầu dữ liệu huấn luyện lớn.
  • D. Thuật toán luôn cho kết quả chính xác cao.

Câu 25: Khai phá dữ liệu có thể hỗ trợ quá trình ra quyết định trong kinh doanh bằng cách nào?

  • A. Tự động hóa hoàn toàn các quyết định kinh doanh mà không cần sự can thiệp của con người.
  • B. Thay thế hoàn toàn các phương pháp thống kê truyền thống.
  • C. Đảm bảo chắc chắn 100% thành công cho mọi quyết định kinh doanh.
  • D. Cung cấp tri thức và thông tin chi tiết từ dữ liệu, giúp người ra quyết định đưa ra các lựa chọn sáng suốt hơn.

Câu 26: "Độ hỗ trợ" (support) của một tập mục trong khai phá luật kết hợp được định nghĩa là gì?

  • A. Xác suất xuất hiện tập mục trong một giao dịch bất kỳ.
  • B. Tỷ lệ các giao dịch trong cơ sở dữ liệu chứa tập mục đó.
  • C. Mức độ tin cậy của các luật kết hợp được sinh ra từ tập mục.
  • D. Số lần tập mục xuất hiện trong cơ sở dữ liệu.

Câu 27: Trong mô hình hóa dữ liệu, lược đồ "ngôi sao" (star schema) thường được sử dụng cho loại hình khai phá dữ liệu nào?

  • A. Khai phá luật kết hợp trong dữ liệu giao dịch.
  • B. Phân lớp dữ liệu văn bản.
  • C. Kho dữ liệu (Data Warehousing) và phân tích OLAP (Online Analytical Processing).
  • D. Phân cụm dữ liệu không gian.

Câu 28: Phương pháp "principal component analysis" (PCA) được sử dụng để làm gì trong khai phá dữ liệu?

  • A. Giảm chiều dữ liệu bằng cách tìm ra các thành phần chính (principal components) giữ lại phần lớn phương sai của dữ liệu.
  • B. Phân cụm dữ liệu dựa trên mật độ.
  • C. Xây dựng cây quyết định.
  • D. Tìm kiếm luật kết hợp.

Câu 29: Khi đánh giá mô hình phân lớp, ma trận nhầm lẫn (confusion matrix) cung cấp thông tin gì?

  • A. Độ chính xác tổng thể của mô hình.
  • B. Số lượng dự đoán đúng và sai cho từng lớp, bao gồm True Positives, True Negatives, False Positives, và False Negatives.
  • C. Độ đo F1-score.
  • D. Độ cong ROC (Receiver Operating Characteristic).

Câu 30: Trong khai phá dữ liệu, vấn đề "xử lý dữ liệu không cân bằng" (imbalanced data) thường xảy ra khi nào?

  • A. Khi dữ liệu chứa nhiều thuộc tính không liên quan.
  • B. Khi dữ liệu có nhiều giá trị thiếu.
  • C. Khi số lượng mẫu dữ liệu ở các lớp mục tiêu phân phối không đều, có lớp chiếm số lượng mẫu rất ít so với các lớp khác.
  • D. Khi dữ liệu có nhiều giá trị ngoại lai.

1 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 1: Trong khai phá dữ liệu, bước nào sau đây liên quan đến việc chuyển đổi dữ liệu sang định dạng phù hợp cho phân tích, bao gồm xử lý dữ liệu bị thiếu, loại bỏ nhiễu và chuẩn hóa dữ liệu?

2 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 2: Một siêu thị muốn xác định các nhóm khách hàng có hành vi mua sắm tương tự nhau để cá nhân hóa chương trình khuyến mãi. Kỹ thuật khai phá dữ liệu nào phù hợp nhất để giải quyết vấn đề này?

3 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 3: Trong thuật toán Apriori, nguyên tắc 'Apriori' phát biểu rằng:

4 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 4: Để đánh giá hiệu quả của mô hình phân lớp, độ đo 'độ chính xác' (Accuracy) được tính bằng:

5 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 5: Xét bài toán dự đoán giá nhà dựa trên các thuộc tính như diện tích, vị trí, số phòng ngủ. Kỹ thuật khai phá dữ liệu nào sau đây phù hợp nhất?

6 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 6: Trong ngữ cảnh khai phá luật kết hợp, độ đo 'độ tin cậy' (Confidence) của luật 'A → B' cho biết điều gì?

7 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 7: Phương pháp giảm chiều dữ liệu (Dimensionality Reduction) được sử dụng trong tiền xử lý dữ liệu nhằm mục đích chính là gì?

8 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 8: Trong thuật toán K-means, điều gì xảy ra trong mỗi lần lặp?

9 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 9: Phân biệt giữa 'học có giám sát' (Supervised Learning) và 'học không giám sát' (Unsupervised Learning) trong khai phá dữ liệu.

10 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 10: Cho một tập dữ liệu giao dịch siêu thị như sau:
T1: {Bánh mì, Sữa}
T2: {Bánh mì, Tã, Bia, Trứng}
T3: {Sữa, Tã, Bia, Cà phê}
T4: {Bánh mì, Sữa, Bia}
T5: {Bánh mì, Tã, Cà phê}

Độ hỗ trợ (support) của tập mục {Bánh mì, Bia} là bao nhiêu?

11 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 11: Trong cây quyết định (Decision Tree), thuộc tính nào được chọn làm nút gốc (root node) thường dựa trên tiêu chí nào?

12 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 12: Kỹ thuật 'bagging' (Bootstrap Aggregating) trong học máy ансамбль (ensemble learning) hoạt động như thế nào?

13 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 13: Khi nào thì việc sử dụng phương pháp 'cross-validation' (kiểm định chéo) là đặc biệt quan trọng trong đánh giá mô hình?

14 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 14: 'Overfitting' (quá khớp) trong học máy xảy ra khi nào?

15 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 15: Trong phân tích cảm xúc văn bản (Sentiment Analysis), mục tiêu chính là gì?

16 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 16: Phương pháp 'chuẩn hóa dữ liệu' (Data Normalization) thường được áp dụng trước khi sử dụng thuật toán nào?

17 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 17: 'Độ đo Lift' trong khai thác luật kết hợp được sử dụng để đánh giá điều gì?

18 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 18: Trong mô hình hóa dữ liệu, lược đồ 'ngôi sao' (star schema) thường được sử dụng cho mục đích gì?

19 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 19: Một công ty viễn thông muốn dự đoán khách hàng nào có khả năng rời mạng (churn). Đây là bài toán thuộc loại nào trong khai phá dữ liệu?

20 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 20: Thuật toán DBSCAN (Density-Based Spatial Clustering of Applications with Noise) có ưu điểm nổi bật nào so với K-means?

21 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 21: Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), kỹ thuật 'phân tích chuỗi thời gian' (Time Series Analysis) thường được sử dụng để làm gì?

22 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 22: 'Data Mining' khác biệt với 'Thống kê' (Statistics) ở điểm nào chính?

23 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 23: 'Ensemble learning' (học ансамбль) có mục tiêu chính là gì?

24 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 24: Trong thuật toán phân cụm phân cấp (Hierarchical Clustering), phương pháp 'agglomerative' (từ dưới lên) bắt đầu như thế nào?

25 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 25: Biểu đồ 'boxplot' (hộp râu) thường được sử dụng để trực quan hóa thông tin gì về một thuộc tính số?

26 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 26: 'Feature engineering' (kỹ thuật đặc trưng) là quá trình:

27 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 27: Trong ngữ cảnh của 'big data' (dữ liệu lớn), thách thức chính đối với khai phá dữ liệu là gì?

28 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 28: Phương pháp 'PCA' (Principal Component Analysis) được sử dụng để làm gì trong khai phá dữ liệu?

29 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 29: 'ROC curve' (đường cong ROC) và 'AUC' (Area Under the Curve) được sử dụng để đánh giá hiệu suất của mô hình nào?

30 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 30: Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

Xem kết quả