Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 09
Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 09 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong bài toán phân cụm khách hàng dựa trên lịch sử mua sắm, việc lựa chọn số lượng cụm tối ưu thường được thực hiện bằng phương pháp Elbow. Điểm "khuỷu tay" (elbow point) trên biểu đồ thể hiện điều gì?
- A. Sự gia tăng đáng kể độ tương đồng giữa các cụm.
- B. Sự giảm đáng kể phương sai nội cụm khi tăng số lượng cụm, trước khi giảm chậm lại.
- C. Điểm mà tại đó thuật toán phân cụm hội tụ nhanh nhất.
- D. Số lượng cụm tối đa có thể tạo ra từ dữ liệu.
Câu 2: Một công ty thương mại điện tử muốn dự đoán khả năng khách hàng rời bỏ dịch vụ (churn) trong 3 tháng tới. Dữ liệu lịch sử giao dịch và thông tin khách hàng đã được thu thập. Phương pháp học máy nào sau đây phù hợp nhất để giải quyết bài toán này?
- A. Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Phân cụm (Clustering)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 3: Để đánh giá hiệu quả của mô hình dự đoán giá nhà, bạn sử dụng hệ số R-squared. Giá trị R-squared bằng 0.85 có ý nghĩa gì?
- A. Mô hình dự đoán đúng 85% giá trị thực tế.
- B. Sai số trung bình của mô hình là 15%.
- C. Mô hình giải thích được 85% phương sai của biến mục tiêu (giá nhà).
- D. Độ chính xác của mô hình là 85%.
Câu 4: Trong phân tích dữ liệu chuỗi thời gian về doanh số bán hàng hàng tháng, bạn nhận thấy có sự biến động theo mùa (ví dụ, doanh số tăng cao vào cuối năm). Phương pháp nào sau đây giúp loại bỏ yếu tố mùa vụ để làm rõ xu hướng dài hạn?
- A. Tính trung bình cộng giản đơn (Simple Moving Average) trên toàn bộ dữ liệu.
- B. Sử dụng hồi quy tuyến tính (Linear Regression) với biến thời gian.
- C. Áp dụng thuật toán phân cụm K-means để nhóm các tháng có doanh số tương tự.
- D. Phân tách chuỗi thời gian (Time series decomposition) để tách riêng thành phần mùa vụ.
Câu 5: Một tập dữ liệu chứa thông tin về khách hàng, bao gồm "Độ tuổi", "Thu nhập", và "Mức độ hài lòng" (thang điểm 1-5). Thuộc tính "Mức độ hài lòng" thuộc loại dữ liệu nào?
- A. Định danh (Nominal)
- B. Thứ bậc (Ordinal)
- C. Khoảng (Interval)
- D. Tỷ lệ (Ratio)
Câu 6: Trong quá trình xây dựng mô hình phân loại gian lận thẻ tín dụng, bạn nhận thấy dữ liệu bị mất cân bằng nghiêm trọng (số giao dịch gian lận rất ít so với giao dịch bình thường). Kỹ thuật nào sau đây có thể giúp cải thiện hiệu suất mô hình?
- A. Chuẩn hóa dữ liệu (Data normalization)
- B. Rời rạc hóa dữ liệu (Data discretization)
- C. Lấy mẫu lại (Resampling) - ví dụ: oversampling hoặc undersampling
- D. Giảm chiều dữ liệu (Dimensionality reduction)
Câu 7: Ma trận nhầm lẫn (Confusion Matrix) được sử dụng để đánh giá hiệu suất của mô hình phân loại. Ô nào trong ma trận nhầm lẫn thể hiện số lượng trường hợp "dương tính giả" (False Positive)?
- A. Ô ở hàng đầu tiên, cột đầu tiên (True Positive).
- B. Ô ở hàng đầu tiên, cột thứ hai (False Positive).
- C. Ô ở hàng thứ hai, cột đầu tiên (False Negative).
- D. Ô ở hàng thứ hai, cột thứ hai (True Negative).
Câu 8: Trong phân tích dữ liệu lớn (Big Data) cho kinh doanh, "Velocity" (tốc độ) đề cập đến khía cạnh nào?
- A. Độ lớn của dữ liệu được lưu trữ.
- B. Sự đa dạng của các loại dữ liệu.
- C. Tính xác thực và tin cậy của dữ liệu.
- D. Tốc độ tạo ra và xử lý dữ liệu.
Câu 9: Thuật toán cây quyết định (Decision Tree) có ưu điểm nổi bật nào trong việc phân tích dữ liệu kinh doanh?
- A. Dễ dàng diễn giải và trực quan hóa kết quả.
- B. Luôn cho độ chính xác cao nhất so với các thuật toán khác.
- C. Yêu cầu lượng dữ liệu huấn luyện rất nhỏ.
- D. Không bị ảnh hưởng bởi dữ liệu ngoại lai.
Câu 10: Để giảm số chiều của dữ liệu (ví dụ, từ 100 thuộc tính xuống còn 20) mà vẫn giữ được phần lớn thông tin quan trọng, phương pháp nào sau đây thường được sử dụng?
- A. Chuẩn hóa Min-Max (Min-Max Scaling).
- B. Rời rạc hóa bằng tần suất (Frequency binning).
- C. Phân tích thành phần chính (Principal Component Analysis - PCA).
- D. Làm sạch dữ liệu trùng lặp (Duplicate data removal).
Câu 11: Trong mô hình hồi quy tuyến tính đa biến, hệ số hồi quy (coefficients) cho biết điều gì về mối quan hệ giữa biến độc lập và biến phụ thuộc?
- A. Mức độ quan trọng của biến độc lập trong mô hình.
- B. Mức độ thay đổi của biến phụ thuộc khi biến độc lập thay đổi một đơn vị (giữ các biến khác không đổi).
- C. Độ chính xác của mô hình dự đoán.
- D. Giá trị trung bình của biến độc lập.
Câu 12: Một công ty muốn xây dựng hệ thống gợi ý sản phẩm cho khách hàng. Dữ liệu giao dịch mua hàng được sử dụng. Phương pháp khai thác dữ liệu nào sau đây phù hợp nhất?
- A. Phân loại (Classification).
- B. Hồi quy (Regression).
- C. Phân cụm (Clustering).
- D. Khai thác luật kết hợp (Association Rule Mining).
Câu 13: Để kiểm tra xem có sự khác biệt đáng kể về doanh thu trung bình giữa ba nhóm khách hàng khác nhau (VIP, Premium, Economic), phép kiểm định thống kê nào sau đây phù hợp?
- A. Kiểm định t-test độc lập (Independent t-test).
- B. Kiểm định Chi-square (Chi-square test).
- C. Phân tích phương sai (ANOVA).
- D. Hồi quy tuyến tính (Linear Regression).
Câu 14: Trong quá trình tiền xử lý văn bản (text preprocessing) cho phân tích cảm xúc khách hàng, bước "stemming" (gốc từ) có vai trò gì?
- A. Loại bỏ các từ dừng (stop words) như "và", "là", "của".
- B. Rút gọn các từ về dạng gốc chung để giảm số lượng từ khác nhau nhưng có nghĩa tương đồng.
- C. Chuyển đổi tất cả các chữ cái về dạng chữ thường.
- D. Phân tách câu văn thành các từ đơn lẻ (tokenization).
Câu 15: Chỉ số "Precision" trong đánh giá mô hình phân loại đo lường điều gì?
- A. Tỷ lệ các trường hợp dương tính thực tế trong số các trường hợp được dự đoán là dương tính.
- B. Tỷ lệ các trường hợp dương tính được dự đoán đúng trong số tất cả các trường hợp dương tính thực tế.
- C. Độ chính xác tổng thể của mô hình.
- D. Tỷ lệ các trường hợp âm tính được dự đoán đúng trong số tất cả các trường hợp âm tính thực tế.
Câu 16: Biểu đồ hộp (Box plot) thích hợp để thể hiện khía cạnh nào của phân phối dữ liệu?
- A. Mối quan hệ giữa hai biến số liên tục.
- B. Tần suất xuất hiện của các giá trị trong dữ liệu định tính.
- C. Phân vị (quartiles), giá trị ngoại lai (outliers) và độ phân tán của dữ liệu.
- D. Xu hướng biến động của dữ liệu theo thời gian.
Câu 17: Trong phân tích rủi ro tín dụng, mô hình Logistic Regression thường được sử dụng để làm gì?
- A. Dự đoán giá trị khoản vay tối ưu cho khách hàng.
- B. Ước tính xác suất khách hàng vỡ nợ (default) hoặc thanh toán đúng hạn.
- C. Phân cụm khách hàng thành các nhóm rủi ro khác nhau.
- D. Phân tích xu hướng biến động của tỷ lệ nợ xấu theo thời gian.
Câu 18: Phương pháp "k-Fold Cross-Validation" được sử dụng để làm gì trong quá trình xây dựng mô hình học máy?
- A. Tăng tốc độ huấn luyện mô hình.
- B. Giảm số lượng thuộc tính đầu vào.
- C. Cải thiện khả năng diễn giải của mô hình.
- D. Đánh giá khách quan hiệu suất của mô hình trên dữ liệu chưa từng thấy và giảm thiểu overfitting.
Câu 19: Trong phân tích dữ liệu bán hàng, chỉ số "Customer Lifetime Value" (CLTV) giúp doanh nghiệp hiểu được điều gì?
- A. Tổng giá trị doanh thu mà một khách hàng có thể mang lại cho doanh nghiệp trong toàn bộ mối quan hệ.
- B. Chi phí trung bình để thu hút một khách hàng mới.
- C. Tỷ lệ khách hàng quay lại mua hàng sau lần mua đầu tiên.
- D. Mức độ hài lòng trung bình của khách hàng về sản phẩm/dịch vụ.
Câu 20: Khi dữ liệu có nhiều giá trị ngoại lai (outliers), thuật toán phân cụm nào sau đây ít bị ảnh hưởng bởi outliers hơn so với K-means?
- A. K-means.
- B. Hierarchical Clustering.
- C. DBSCAN.
- D. Fuzzy C-means.
Câu 21: Trong mô hình mạng nơ-ron (Neural Network), hàm kích hoạt (activation function) có vai trò gì?
- A. Tính toán tổng trọng số đầu vào cho mỗi nơ-ron.
- B. Đưa tính phi tuyến vào mô hình, cho phép mô hình học được các quan hệ phức tạp.
- C. Kiểm soát tốc độ học của mô hình.
- D. Chuẩn hóa dữ liệu đầu vào.
Câu 22: Để so sánh hiệu quả của hai chiến dịch marketing khác nhau (A và B) trên cùng một nhóm khách hàng, thiết kế nghiên cứu nào sau đây là phù hợp nhất?
- A. Nghiên cứu quan sát (Observational study).
- B. Nghiên cứu hồi cứu (Retrospective study).
- C. Nghiên cứu mô tả (Descriptive study).
- D. Thử nghiệm A/B (A/B testing).
Câu 23: Chỉ số "Recall" trong đánh giá mô hình phân loại đo lường điều gì?
- A. Tỷ lệ các trường hợp dương tính thực tế trong số các trường hợp được dự đoán là dương tính.
- B. Tỷ lệ các trường hợp dương tính được dự đoán đúng trong số tất cả các trường hợp dương tính thực tế.
- C. Độ chính xác tổng thể của mô hình.
- D. Tỷ lệ các trường hợp âm tính được dự đoán đúng trong số tất cả các trường hợp âm tính thực tế.
Câu 24: Trong phân tích chuỗi cung ứng, khoa học dữ liệu có thể được ứng dụng để giải quyết bài toán nào sau đây?
- A. Thiết kế logo sản phẩm mới.
- B. Tuyển dụng nhân viên bán hàng.
- C. Dự báo nhu cầu hàng hóa để tối ưu hóa tồn kho.
- D. Đánh giá mức độ hài lòng của nhân viên.
Câu 25: Phương pháp nào sau đây thuộc nhóm học không giám sát (Unsupervised Learning)?
- A. Hồi quy tuyến tính (Linear Regression).
- B. Phân cụm K-means (K-means Clustering).
- C. Cây quyết định (Decision Tree).
- D. Mạng nơ-ron tích chập (Convolutional Neural Network).
Câu 26: Để xử lý dữ liệu định tính (categorical data) trong mô hình học máy, phương pháp mã hóa nào sau đây thường được sử dụng?
- A. Mã hóa One-Hot (One-Hot Encoding).
- B. Chuẩn hóa Z-score (Z-score Standardization).
- C. Rời rạc hóa bằng độ rộng (Equal-width binning).
- D. Giảm chiều dữ liệu bằng PCA.
Câu 27: Chỉ số F1-score là trung bình điều hòa của hai chỉ số nào?
- A. Accuracy và Precision.
- B. Accuracy và Recall.
- C. Precision và Recall.
- D. Specificity và Sensitivity.
Câu 28: Trong bài toán dự đoán giá cổ phiếu, mô hình ARIMA (Autoregressive Integrated Moving Average) thuộc loại mô hình nào?
- A. Mô hình phân loại (Classification model).
- B. Mô hình hồi quy (Regression model) đa biến.
- C. Mô hình phân cụm (Clustering model).
- D. Mô hình chuỗi thời gian (Time series model).
Câu 29: Để đảm bảo tính công bằng (fairness) trong mô hình học máy, đặc biệt trong các ứng dụng nhạy cảm như tuyển dụng hoặc cấp tín dụng, cần quan tâm đến vấn đề nào sau đây?
- A. Tối ưu hóa độ chính xác của mô hình trên tập dữ liệu kiểm thử.
- B. Giảm thiểu sự thiên vị (bias) trong dữ liệu huấn luyện và thuật toán để tránh phân biệt đối xử với các nhóm yếu thế.
- C. Tăng cường khả năng diễn giải của mô hình để hiểu rõ cơ chế hoạt động.
- D. Sử dụng các thuật toán phức tạp nhất để đạt hiệu suất cao nhất.
Câu 30: Trong quá trình triển khai mô hình khoa học dữ liệu vào thực tế doanh nghiệp, thách thức lớn nhất thường gặp phải là gì?
- A. Thiếu công cụ và nền tảng công nghệ phù hợp.
- B. Dữ liệu quá lớn và phức tạp để xử lý.
- C. Khả năng tích hợp mô hình vào quy trình kinh doanh hiện có và đo lường giá trị thực tế.
- D. Chi phí đầu tư vào khoa học dữ liệu quá cao.