Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Môn Khai Phá Dữ Liệu

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 07

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.

Câu 1: Trong quy trình Khai phá Dữ liệu (KDD), giai đoạn nào tập trung vào việc làm sạch dữ liệu nhiễu, xử lý dữ liệu thiếu và chuyển đổi dữ liệu sang định dạng phù hợp cho phân tích?

A. Tiền xử lý dữ liệu (Data Preprocessing)
B. Lựa chọn dữ liệu (Data Selection)
C. Khai phá dữ liệu (Data Mining)
D. Đánh giá tri thức (Knowledge Evaluation)

Câu 2: Một siêu thị muốn dự đoán sản phẩm nào khách hàng có khả năng mua cùng nhau. Phương pháp khai phá dữ liệu nào phù hợp nhất để khám phá ra các mối quan hệ này?

A. Phân cụm (Clustering)
B. Phân lớp (Classification)
C. Khai phá luật kết hợp (Association Rule Mining)
D. Hồi quy (Regression)

Câu 3: Thuật toán Apriori trong khai phá luật kết hợp hoạt động dựa trên nguyên tắc nào sau đây?

A. Chia để trị (Divide and Conquer)
B. Tính chất phản đơn điệu (Apriori property): Nếu một tập mục là phổ biến, thì mọi tập con của nó cũng phải phổ biến.
C. Tìm kiếm theo chiều rộng (Breadth-First Search)
D. Tìm kiếm theo chiều sâu (Depth-First Search)

Câu 4: Độ đo "độ tin cậy" (confidence) trong khai phá luật kết hợp cho biết điều gì?

A. Tần suất xuất hiện đồng thời của X và Y trong tập dữ liệu.
B. Tỷ lệ giao dịch chứa X hoặc Y trên tổng số giao dịch.
C. Mức độ thú vị của luật X → Y so với tần suất ngẫu nhiên.
D. Xác suất giao dịch chứa Y khi biết rằng giao dịch đó đã chứa X.

Câu 5: Trong bài toán phân lớp, mục tiêu chính là gì?

A. Xây dựng mô hình dự đoán lớp (nhãn) cho các đối tượng dữ liệu mới dựa trên tập dữ liệu đã biết lớp.
B. Phân chia dữ liệu thành các nhóm có đặc điểm tương đồng mà không cần nhãn lớp.
C. Tìm kiếm các mối quan hệ và luật lệ ẩn giữa các thuộc tính dữ liệu.
D. Dự đoán giá trị số của một thuộc tính mục tiêu dựa trên các thuộc tính đầu vào.

Câu 6: Phương pháp phân lớp nào dựa trên việc xây dựng một cấu trúc dạng cây, trong đó mỗi nút trên cây đại diện cho một thuộc tính và các nhánh thể hiện các giá trị của thuộc tính đó?

A. Mạng nơ-ron (Neural Network)
B. Cây quyết định (Decision Tree)
C. Máy học vector hỗ trợ (Support Vector Machine)
D. Phân lớp Bayes ngây thơ (Naive Bayes Classifier)

Câu 7: Trong thuật toán k-means, tham số "k" đại diện cho điều gì?

A. Số chiều của dữ liệu đầu vào.
B. Số lần lặp tối đa của thuật toán.
C. Số lượng cụm (clusters) mà thuật toán sẽ phân chia dữ liệu thành.
D. Ngưỡng hội tụ của thuật toán.

Câu 8: Phân cụm (clustering) khác biệt với phân lớp (classification) ở điểm nào?

A. Phân cụm chỉ áp dụng cho dữ liệu số, phân lớp áp dụng cho dữ liệu phi số.
B. Phân cụm sử dụng cây quyết định, phân lớp sử dụng mạng nơ-ron.
C. Phân cụm đòi hỏi dữ liệu đã được gán nhãn lớp trước, phân lớp thì không.
D. Phân cụm là học không giám sát (unsupervised learning), trong khi phân lớp là học có giám sát (supervised learning).

Câu 9: Độ đo "lift" trong khai phá luật kết hợp được sử dụng để đánh giá điều gì?

A. Độ phổ biến của tập mục X.
B. Mức độ tương quan giữa X và Y so với trường hợp chúng độc lập thống kê.
C. Độ tin cậy của luật X → Y.
D. Tỷ lệ giao dịch chứa cả X và Y.

Câu 10: Phương pháp giảm chiều dữ liệu (dimensionality reduction) nhằm mục đích gì?

A. Giảm số lượng thuộc tính (features) của dữ liệu, giúp đơn giản hóa mô hình và tăng hiệu suất tính toán.
B. Tăng số lượng mẫu dữ liệu để cải thiện độ chính xác của mô hình.
C. Làm sạch dữ liệu nhiễu và dữ liệu thiếu.
D. Chuyển đổi dữ liệu sang định dạng phù hợp cho khai phá luật kết hợp.

Câu 11: Trong các giai đoạn của quy trình KDD, giai đoạn nào liên quan đến việc diễn giải các mẫu (patterns) đã được khai phá và chuyển chúng thành tri thức hữu ích cho người dùng?

A. Tiền xử lý dữ liệu
B. Khai phá dữ liệu
C. Lựa chọn dữ liệu
D. Đánh giá tri thức (Knowledge Evaluation)

Câu 12: Kỹ thuật "chuẩn hóa dữ liệu" (data normalization) thường được áp dụng trong giai đoạn tiền xử lý để làm gì?

A. Loại bỏ dữ liệu trùng lặp.
B. Đưa các thuộc tính về cùng một thang đo giá trị, tránh sự chênh lệch lớn về khoảng giá trị giữa các thuộc tính.
C. Xử lý dữ liệu bị thiếu.
D. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng.

Câu 13: Khi nào thì kỹ thuật "rời rạc hóa dữ liệu" (data discretization) trở nên hữu ích?

A. Khi dữ liệu chứa nhiều giá trị ngoại lai.
B. Khi dữ liệu bị thiếu giá trị.
C. Khi thuật toán khai phá dữ liệu hiệu quả hơn với dữ liệu rời rạc (ví dụ: một số thuật toán phân lớp dựa trên luật).
D. Khi cần giảm kích thước tập dữ liệu.

Câu 14: Mô hình khai phá dữ liệu được coi là "quá khớp" (overfitting) khi nào?

A. Khi mô hình hoạt động kém hiệu quả trên cả dữ liệu huấn luyện và dữ liệu kiểm thử.
B. Khi mô hình quá đơn giản và không nắm bắt được các đặc trưng quan trọng của dữ liệu.
C. Khi mô hình được huấn luyện trên dữ liệu nhiễu.
D. Khi mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu kiểm thử mới.

Câu 15: Độ đo "độ chính xác" (accuracy) trong đánh giá mô hình phân lớp được tính như thế nào?

A. Tỷ lệ số lượng dự đoán đúng trên tổng số lượng dự đoán.
B. Tỷ lệ số lượng dự đoán đúng là dương tính trên tổng số lượng thực tế là dương tính.
C. Tỷ lệ số lượng dự đoán đúng là âm tính trên tổng số lượng thực tế là âm tính.
D. Trung bình cộng của độ chính xác và độ phủ.

Câu 16: Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là gì?

A. Phân cụm các chuỗi thời gian có hình dạng tương tự.
B. Dự đoán giá trị tương lai của chuỗi thời gian hoặc phát hiện các mẫu, xu hướng trong chuỗi thời gian.
C. Tìm kiếm luật kết hợp giữa các sự kiện trong chuỗi thời gian.
D. Phân lớp các chuỗi thời gian vào các danh mục khác nhau.

Câu 17: Kỹ thuật "bagging" và "boosting" được sử dụng trong học máy ансамбль (ensemble learning) để làm gì?

A. Giảm chiều dữ liệu đầu vào.
B. Xử lý dữ liệu thiếu.
C. Cải thiện độ chính xác và độ ổn định của mô hình dự đoán bằng cách kết hợp kết quả của nhiều mô hình học yếu.
D. Tăng tốc độ huấn luyện mô hình.

Câu 18: Phương pháp phân cụm DBSCAN có ưu điểm nổi bật nào so với k-means?

A. DBSCAN nhanh hơn k-means trên dữ liệu lớn.
B. DBSCAN luôn tạo ra số lượng cụm xác định trước.
C. DBSCAN hiệu quả hơn với dữ liệu nhiễu.
D. DBSCAN có thể phát hiện các cụm có hình dạng bất kỳ và không yêu cầu xác định trước số lượng cụm.

Câu 19: Trong ngữ cảnh khai phá dữ liệu web, "web usage mining" tập trung vào việc phân tích dữ liệu nào?

A. Nội dung của các trang web.
B. Nhật ký truy cập (log) của người dùng trên các trang web.
C. Cấu trúc liên kết giữa các trang web.
D. Thông tin về tác giả và thời gian tạo lập các trang web.

Câu 20: Thước đo F1-score là trung bình điều hòa của độ đo nào?

A. Độ chính xác (Accuracy) và Độ tin cậy (Confidence).
B. Độ tin cậy (Confidence) và Độ nâng (Lift).
C. Độ chính xác (Precision) và Độ phủ (Recall).
D. Độ phủ (Recall) và Độ hỗ trợ (Support).

Câu 21: Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu ngoại lai (outlier) trong giai đoạn tiền xử lý?

A. Chuẩn hóa Min-Max.
B. Rời rạc hóa dữ liệu.
C. Lấp đầy giá trị thiếu bằng giá trị trung bình.
D. Sử dụng phương pháp Z-score hoặc IQR để xác định và loại bỏ/điều chỉnh các giá trị ngoại lai.

Câu 22: Trong khai phá dữ liệu, "feature selection" (lựa chọn thuộc tính) có mục đích chính là gì?

A. Tạo ra các thuộc tính mới từ các thuộc tính hiện có.
B. Chọn ra một tập hợp con các thuộc tính quan trọng nhất, loại bỏ các thuộc tính không liên quan hoặc dư thừa.
C. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng.
D. Giảm số lượng mẫu dữ liệu.

Câu 23: Phân tích cảm xúc (sentiment analysis) là một ứng dụng của khai phá dữ liệu trong lĩnh vực nào?

A. Khai phá dữ liệu giao dịch.
B. Khai phá dữ liệu chuỗi thời gian.
C. Xử lý ngôn ngữ tự nhiên (Natural Language Processing) và khai phá văn bản.
D. Khai phá dữ liệu không gian.

Câu 24: Trong thuật toán phân lớp Naive Bayes, giả định "ngây thơ" (naive) đề cập đến điều gì?

A. Các thuộc tính đầu vào là độc lập có điều kiện với nhau khi biết nhãn lớp.
B. Thuật toán này đơn giản và dễ hiểu.
C. Thuật toán không yêu cầu dữ liệu huấn luyện lớn.
D. Thuật toán luôn cho kết quả chính xác cao.

Câu 25: Khai phá dữ liệu có thể hỗ trợ quá trình ra quyết định trong kinh doanh bằng cách nào?

A. Tự động hóa hoàn toàn các quyết định kinh doanh mà không cần sự can thiệp của con người.
B. Thay thế hoàn toàn các phương pháp thống kê truyền thống.
C. Đảm bảo chắc chắn 100% thành công cho mọi quyết định kinh doanh.
D. Cung cấp tri thức và thông tin chi tiết từ dữ liệu, giúp người ra quyết định đưa ra các lựa chọn sáng suốt hơn.

Câu 26: "Độ hỗ trợ" (support) của một tập mục trong khai phá luật kết hợp được định nghĩa là gì?

A. Xác suất xuất hiện tập mục trong một giao dịch bất kỳ.
B. Tỷ lệ các giao dịch trong cơ sở dữ liệu chứa tập mục đó.
C. Mức độ tin cậy của các luật kết hợp được sinh ra từ tập mục.
D. Số lần tập mục xuất hiện trong cơ sở dữ liệu.

Câu 27: Trong mô hình hóa dữ liệu, lược đồ "ngôi sao" (star schema) thường được sử dụng cho loại hình khai phá dữ liệu nào?

A. Khai phá luật kết hợp trong dữ liệu giao dịch.
B. Phân lớp dữ liệu văn bản.
C. Kho dữ liệu (Data Warehousing) và phân tích OLAP (Online Analytical Processing).
D. Phân cụm dữ liệu không gian.

Câu 28: Phương pháp "principal component analysis" (PCA) được sử dụng để làm gì trong khai phá dữ liệu?

A. Giảm chiều dữ liệu bằng cách tìm ra các thành phần chính (principal components) giữ lại phần lớn phương sai của dữ liệu.
B. Phân cụm dữ liệu dựa trên mật độ.
C. Xây dựng cây quyết định.
D. Tìm kiếm luật kết hợp.

Câu 29: Khi đánh giá mô hình phân lớp, ma trận nhầm lẫn (confusion matrix) cung cấp thông tin gì?

A. Độ chính xác tổng thể của mô hình.
B. Số lượng dự đoán đúng và sai cho từng lớp, bao gồm True Positives, True Negatives, False Positives, và False Negatives.
C. Độ đo F1-score.
D. Độ cong ROC (Receiver Operating Characteristic).

Câu 30: Trong khai phá dữ liệu, vấn đề "xử lý dữ liệu không cân bằng" (imbalanced data) thường xảy ra khi nào?

A. Khi dữ liệu chứa nhiều thuộc tính không liên quan.
B. Khi dữ liệu có nhiều giá trị thiếu.
C. Khi số lượng mẫu dữ liệu ở các lớp mục tiêu phân phối không đều, có lớp chiếm số lượng mẫu rất ít so với các lớp khác.
D. Khi dữ liệu có nhiều giá trị ngoại lai.

1 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 1: Trong khai phá dữ liệu, bước nào sau đây liên quan đến việc chuyển đổi dữ liệu sang định dạng phù hợp cho phân tích, bao gồm xử lý dữ liệu bị thiếu, loại bỏ nhiễu và chuẩn hóa dữ liệu?

Khai thác mẫu

Tiền xử lý dữ liệu

Đánh giá mẫu

Biểu diễn tri thức

2 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 2: Một siêu thị muốn xác định các nhóm khách hàng có hành vi mua sắm tương tự nhau để cá nhân hóa chương trình khuyến mãi. Kỹ thuật khai phá dữ liệu nào phù hợp nhất để giải quyết vấn đề này?

Phân lớp (Classification)

Hồi quy (Regression)

Phân cụm (Clustering)

Khai thác luật kết hợp (Association Rule Mining)

3 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 3: Trong thuật toán Apriori, nguyên tắc 'Apriori' phát biểu rằng:

Nếu một tập mục là thường xuyên, thì tất cả các tập con của nó cũng phải thường xuyên.

Nếu một tập mục là không thường xuyên, thì tất cả các tập con của nó cũng không thường xuyên.

Độ hỗ trợ của một tập mục tăng lên khi kích thước tập mục tăng lên.

Độ tin cậy của một luật kết hợp giảm xuống khi độ hỗ trợ tăng lên.

4 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 4: Để đánh giá hiệu quả của mô hình phân lớp, độ đo 'độ chính xác' (Accuracy) được tính bằng:

Tỷ lệ dự đoán sai trên tổng số mẫu.

Tỷ lệ dự đoán đúng trên tổng số mẫu.

Tỷ lệ dự đoán đúng dương tính trên tổng số mẫu thực tế dương tính.

Tỷ lệ dự đoán đúng âm tính trên tổng số mẫu thực tế âm tính.

5 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 5: Xét bài toán dự đoán giá nhà dựa trên các thuộc tính như diện tích, vị trí, số phòng ngủ. Kỹ thuật khai phá dữ liệu nào sau đây phù hợp nhất?

Phân lớp (Classification)

Phân cụm (Clustering)

Khai thác luật kết hợp (Association Rule Mining)

Hồi quy (Regression)

6 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 6: Trong ngữ cảnh khai phá luật kết hợp, độ đo 'độ tin cậy' (Confidence) của luật 'A → B' cho biết điều gì?

Tần suất xuất hiện đồng thời của A và B trong cơ sở dữ liệu.

Tỷ lệ giao dịch chứa A trên tổng số giao dịch.

Xác suất giao dịch chứa B khi đã biết giao dịch đó chứa A.

Mức độ thú vị của luật A → B so với kỳ vọng.

7 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 7: Phương pháp giảm chiều dữ liệu (Dimensionality Reduction) được sử dụng trong tiền xử lý dữ liệu nhằm mục đích chính là gì?

Tăng cường tính bảo mật của dữ liệu.

Giảm số lượng thuộc tính đầu vào, loại bỏ thuộc tính không liên quan hoặc dư thừa.

Cải thiện chất lượng dữ liệu bằng cách điền giá trị thiếu.

Chuyển đổi dữ liệu sang định dạng dễ đọc hơn cho người dùng.

8 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 8: Trong thuật toán K-means, điều gì xảy ra trong mỗi lần lặp?

Các cụm được hợp nhất dựa trên khoảng cách gần nhất.

Các điểm dữ liệu được phân bổ ngẫu nhiên vào các cụm.

Thuật toán tìm kiếm tập con tối ưu của các thuộc tính.

Các tâm cụm được cập nhật và các điểm dữ liệu được gán lại vào cụm gần nhất.

9 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 9: Phân biệt giữa 'học có giám sát' (Supervised Learning) và 'học không giám sát' (Unsupervised Learning) trong khai phá dữ liệu.

Học có giám sát sử dụng dữ liệu đã được gán nhãn, trong khi học không giám sát sử dụng dữ liệu chưa được gán nhãn.

Học có giám sát chỉ áp dụng cho bài toán phân lớp, còn học không giám sát chỉ áp dụng cho bài toán phân cụm.

Học có giám sát luôn cho kết quả chính xác hơn học không giám sát.

Học có giám sát đòi hỏi ít dữ liệu hơn học không giám sát.

10 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 10: Cho một tập dữ liệu giao dịch siêu thị như sau:
T1: {Bánh mì, Sữa}
T2: {Bánh mì, Tã, Bia, Trứng}
T3: {Sữa, Tã, Bia, Cà phê}
T4: {Bánh mì, Sữa, Bia}
T5: {Bánh mì, Tã, Cà phê}

Độ hỗ trợ (support) của tập mục {Bánh mì, Bia} là bao nhiêu?

1 (20%)

2 (40%)

3 (60%)

4 (80%)

11 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 11: Trong cây quyết định (Decision Tree), thuộc tính nào được chọn làm nút gốc (root node) thường dựa trên tiêu chí nào?

Thuộc tính có số lượng giá trị ít nhất.

Thuộc tính xuất hiện đầu tiên trong tập dữ liệu.

Thuộc tính có khả năng phân tách tốt nhất các lớp, thường dựa trên độ lợi thông tin (Information Gain) hoặc hệ số Gini.

Thuộc tính có giá trị trung bình lớn nhất.

12 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 12: Kỹ thuật 'bagging' (Bootstrap Aggregating) trong học máy ансамбль (ensemble learning) hoạt động như thế nào?

Kết hợp kết quả từ nhi???u mô hình yếu bằng cách lấy trung bình đơn giản.

Xây dựng mô hình tuần tự, mô hình sau tập trung vào việc sửa lỗi của mô hình trước.

Chia dữ liệu thành nhiều phần và huấn luyện mô hình trên mỗi phần.

Tạo ra nhiều tập dữ liệu con bằng cách lấy mẫu có hoàn lại từ dữ liệu gốc, và huấn luyện một mô hình riêng biệt trên mỗi tập con.

13 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 13: Khi nào thì việc sử dụng phương pháp 'cross-validation' (kiểm định chéo) là đặc biệt quan trọng trong đánh giá mô hình?

Khi dữ liệu huấn luyện rất lớn và đa dạng.

Khi kích thước dữ liệu hạn chế, để đánh giá mô hình một cách khách quan và tránh overfitting.

Khi mô hình đã đạt độ chính xác rất cao trên dữ liệu huấn luyện.

Khi chỉ cần đánh giá nhanh hiệu suất mô hình mà không cần độ chính xác cao.

14 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 14: 'Overfitting' (quá khớp) trong học máy xảy ra khi nào?

Mô hình quá đơn giản và không thể nắm bắt được cấu trúc dữ liệu.

Mô hình được huấn luyện trên dữ liệu chất lượng kém.

Mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới.

Mô hình được huấn luyện quá nhanh, không đủ thời gian để hội tụ.

15 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 15: Trong phân tích cảm xúc văn bản (Sentiment Analysis), mục tiêu chính là gì?

Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) được thể hiện trong văn bản.

Phân loại văn bản theo chủ đề hoặc lĩnh vực.

Tóm tắt nội dung chính của văn bản.

Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.

16 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 16: Phương pháp 'chuẩn hóa dữ liệu' (Data Normalization) thường được áp dụng trước khi sử dụng thuật toán nào?

Cây quyết định (Decision Tree)

Luật kết hợp (Association Rules)

Naive Bayes

K-Nearest Neighbors (KNN)

17 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 17: 'Độ đo Lift' trong khai thác luật kết hợp được sử dụng để đánh giá điều gì?

Độ phổ biến của tập mục trong cơ sở dữ liệu.

Độ tin cậy của luật kết hợp.

Mức độ tương quan giữa tiền đề và hậu quả của luật, so với kỳ vọng nếu chúng độc lập.

Tỷ lệ giao dịch chứa cả tiền đề và hậu quả của luật.

18 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 18: Trong mô hình hóa dữ liệu, lược đồ 'ngôi sao' (star schema) thường được sử dụng cho mục đích gì?

Thiết kế cơ sở dữ liệu giao dịch trực tuyến (OLTP).

Tối ưu hóa truy vấn và phân tích dữ liệu trong kho dữ liệu (Data Warehouse) và OLAP.

Mô hình hóa dữ liệu phi cấu trúc.

Đảm bảo tính toàn vẹn và nhất quán dữ liệu trong hệ thống.

19 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 19: Một công ty viễn thông muốn dự đoán khách hàng nào có khả năng rời mạng (churn). Đây là bài toán thuộc loại nào trong khai phá dữ liệu?

Phân lớp (Classification)

Phân cụm (Clustering)

Hồi quy (Regression)

Khai thác luật kết hợp (Association Rule Mining)

20 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 20: Thuật toán DBSCAN (Density-Based Spatial Clustering of Applications with Noise) có ưu điểm nổi bật nào so với K-means?

DBSCAN nhanh hơn K-means đối với dữ liệu lớn.

DBSCAN yêu cầu ít tham số đầu vào hơn K-means.

DBSCAN có thể phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu tốt hơn K-means.

DBSCAN luôn hội tụ và cho kết quả ổn định hơn K-means.

21 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 21: Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), kỹ thuật 'phân tích chuỗi thời gian' (Time Series Analysis) thường được sử dụng để làm gì?

Phân loại các chuỗi thời gian vào các nhóm khác nhau.

Dự báo giá trị tương lai dựa trên các mẫu trong quá khứ và hiện tại của chuỗi thời gian.

Tìm kiếm các chuỗi thời gian tương tự nhau trong một tập hợp lớn.

Giảm chiều dữ liệu cho dữ liệu chuỗi thời gian.

22 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 22: 'Data Mining' khác biệt với 'Thống kê' (Statistics) ở điểm nào chính?

Data Mining sử dụng các phương pháp toán học phức tạp hơn Thống kê.

Thống kê chỉ làm việc với dữ liệu số, còn Data Mining làm việc với mọi loại dữ liệu.

Thống kê tập trung vào mô tả và suy diễn, trong khi Data Mining tập trung vào dự đoán.

Data Mining thường làm việc với dữ liệu lớn và phức tạp hơn, tập trung vào khám phá tri thức mới, trong khi Thống kê thường tập trung vào kiểm định giả thuyết và mô tả dữ liệu.

23 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 23: 'Ensemble learning' (học ансамбль) có mục tiêu chính là gì?

Cải thiện độ chính xác và độ ổn định của mô hình bằng cách kết hợp kết quả từ nhiều mô hình học máy.

Giảm thời gian huấn luyện mô hình học máy.

Đơn giản hóa mô hình học máy để dễ diễn giải hơn.

Tự động lựa chọn thuật toán học máy tốt nhất cho một bài toán cụ thể.

24 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 24: Trong thuật toán phân cụm phân cấp (Hierarchical Clustering), phương pháp 'agglomerative' (từ dưới lên) bắt đầu như thế nào?

Bắt đầu với một cụm duy nhất chứa tất cả các điểm dữ liệu.

Bắt đầu bằng cách coi mỗi điểm dữ liệu là một cụm riêng biệt.

Bắt đầu bằng cách phân chia dữ liệu thành các cụm ngẫu nhiên.

Bắt đầu bằng cách chọn ngẫu nhiên các tâm cụm.

25 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 25: Biểu đồ 'boxplot' (hộp râu) thường được sử dụng để trực quan hóa thông tin gì về một thuộc tính số?

Mối quan hệ giữa hai thuộc tính số.

Phân phối tần suất của các giá trị thuộc tính.

Phân vị (quartiles), giá trị trung vị (median), giá trị ngoại lai (outliers) và phạm vi phân bố của dữ liệu.

Xu hướng thay đổi của thuộc tính theo thời gian.

26 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 26: 'Feature engineering' (kỹ thuật đặc trưng) là quá trình:

Lựa chọn thuật toán học máy phù hợp nhất cho bài toán.

Tối ưu hóa tham số của mô hình học máy.

Đánh giá hiệu suất của mô hình học máy.

Chọn lọc, biến đổi và tạo ra các thuộc tính (features) mới từ dữ liệu thô để cải thiện hiệu suất của mô hình học máy.

27 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 27: Trong ngữ cảnh của 'big data' (dữ liệu lớn), thách thức chính đối với khai phá dữ liệu là gì?

Sự thiếu hụt các thuật toán khai phá dữ liệu hiệu quả.

Khả năng xử lý và phân tích dữ liệu với khối lượng lớn, tốc độ cao và đa dạng.

Vấn đề bảo mật dữ liệu.

Sự khó khăn trong việc trực quan hóa kết quả khai phá dữ liệu.

28 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 28: Phương pháp 'PCA' (Principal Component Analysis) được sử dụng để làm gì trong khai phá dữ liệu?

Giảm chiều dữ liệu bằng cách tìm ra các thành phần chính (principal components) giữ lại phần lớn phương sai của dữ liệu.

Phân cụm dữ liệu thành các nhóm dựa trên khoảng cách.

Phân lớp dữ liệu vào các lớp đã định nghĩa trước.

Khai thác luật kết hợp từ dữ liệu giao dịch.

29 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 29: 'ROC curve' (đường cong ROC) và 'AUC' (Area Under the Curve) được sử dụng để đánh giá hiệu suất của mô hình nào?

Mô hình hồi quy.

Mô hình phân cụm.

Mô hình phân lớp.

Mô hình khai thác luật kết hợp.

30 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khai Phá Dữ Liệu

Tags: Bộ đề 7

Câu 30: Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

Phân tích và dự đoán hành vi khách hàng trong bán lẻ.

Phát hiện gian lận trong giao dịch tài chính.

Chẩn đoán bệnh và cá nhân hóa điều trị trong y tế.

Soạn thảo văn bản pháp luật tự động.

Xem kết quả

By Wordpress Quiz plugin

Bài Tập, Đề Thi Trắc Nghiệm Online – Môn Khai Phá Dữ Liệu – Đề 07

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Đề trắc nghiệm liên quan:

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha