Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 02
Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 02 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong bối cảnh kinh doanh, doanh nghiệp thu thập dữ liệu khách hàng từ nhiều nguồn khác nhau như website, ứng dụng di động, CRM và mạng xã hội. Để tích hợp và chuẩn hóa dữ liệu này, quy trình nào sau đây là quan trọng nhất?
- A. Phân tích dữ liệu khám phá (Exploratory Data Analysis - EDA)
- B. Xây dựng mô hình dự đoán (Predictive Modeling)
- C. Chuẩn hóa và làm sạch dữ liệu (Data Standardization and Cleaning)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 2: Một công ty bán lẻ trực tuyến muốn dự đoán khả năng khách hàng hủy đơn hàng sau khi đặt. Phương pháp học máy nào sau đây phù hợp nhất để giải quyết bài toán này?
- A. Phân cụm (Clustering)
- B. Phân loại (Classification)
- C. Hồi quy (Regression)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 3: Để phân tích sự hài lòng của khách hàng dựa trên bình luận văn bản thu thập từ khảo sát, kỹ thuật nào của Khoa học dữ liệu sẽ được sử dụng?
- A. Phân tích chuỗi thời gian (Time Series Analysis)
- B. Phân tích hồi quy (Regression Analysis)
- C. Phân tích phương sai (ANOVA)
- D. Phân tích tình cảm (Sentiment Analysis)
Câu 4: Một ngân hàng muốn phân khúc khách hàng dựa trên lịch sử giao dịch và thông tin nhân khẩu học để cá nhân hóa dịch vụ. Thuật toán học máy nào sau đây thích hợp nhất?
- A. K-Means Clustering
- B. Linear Regression
- C. Support Vector Machine (SVM)
- D. Principal Component Analysis (PCA)
Câu 5: Trong mô hình hóa dữ liệu kinh doanh, "feature engineering" (kỹ thuật tạo đặc trưng) đóng vai trò quan trọng. Hoạt động nào sau đây thể hiện "feature engineering"?
- A. Loại bỏ các giá trị ngoại lai (outliers) khỏi dữ liệu.
- B. Kết hợp cột "Ngày" và "Tháng" để tạo ra cột "Mùa" (Xuân, Hạ, Thu, Đông).
- C. Chia dữ liệu thành tập huấn luyện và tập kiểm thử.
- D. Chọn thuật toán học máy phù hợp với bài toán.
Câu 6: Một công ty thương mại điện tử muốn cải thiện hệ thống đề xuất sản phẩm. Phương pháp nào sau đây thuộc về "hệ thống đề xuất dựa trên nội dung" (content-based recommendation)?
- A. Đề xuất sản phẩm mà những người dùng tương tự đã mua.
- B. Đề xuất sản phẩm dựa trên lịch sử mua hàng của tất cả người dùng.
- C. Đề xuất sản phẩm tương tự như sản phẩm người dùng đã xem xét trước đó (dựa trên mô tả sản phẩm).
- D. Đề xuất sản phẩm ngẫu nhiên từ danh mục sản phẩm phổ biến.
Câu 7: Trong phân tích rủi ro tín dụng, "ma trận nhầm lẫn" (confusion matrix) được sử dụng để đánh giá hiệu suất mô hình phân loại. Ô nào trong ma trận nhầm lẫn thể hiện số lượng khách hàng thực sự không vỡ nợ nhưng mô hình dự đoán là vỡ nợ (False Positive)?
- A. True Positive (TP)
- B. False Positive (FP)
- C. True Negative (TN)
- D. False Negative (FN)
Câu 8: Một chuỗi siêu thị muốn tối ưu hóa vị trí đặt sản phẩm trên kệ hàng để tăng doanh số. Loại phân tích nào sau đây có thể giúp họ đưa ra quyết định?
- A. Phân tích thời gian thực (Real-time Analysis)
- B. Phân tích когорт (Cohort Analysis)
- C. Phân tích nhân quả (Causal Analysis)
- D. Phân tích không gian (Spatial Analysis)
Câu 9: Để giảm chiều dữ liệu (dimensionality reduction) trong tập dữ liệu khách hàng có hàng trăm thuộc tính, kỹ thuật nào sau đây thường được sử dụng để giữ lại phần lớn thông tin quan trọng nhất?
- A. Phân tích thành phần chính (Principal Component Analysis - PCA)
- B. Phân tích biệt số tuyến tính (Linear Discriminant Analysis - LDA)
- C. Phân tích hồi quy tuyến tính (Linear Regression Analysis)
- D. Phân tích phương sai (ANOVA)
Câu 10: Trong kinh doanh, việc dự báo nhu cầu sản phẩm là rất quan trọng. Phương pháp nào sau đây phù hợp để dự báo nhu cầu cho sản phẩm mới chưa có lịch sử bán hàng?
- A. Mô hình ARIMA (Autoregressive Integrated Moving Average)
- B. San bằng mũ (Exponential Smoothing)
- C. Nghiên cứu thị trường và phân tích sản phẩm tương tự
- D. Trung bình trượt (Moving Average)
Câu 11: "Data lake" (hồ dữ liệu) khác biệt với "data warehouse" (kho dữ liệu) chủ yếu ở điểm nào?
- A. Data lake chỉ lưu trữ dữ liệu có cấu trúc, còn data warehouse lưu trữ dữ liệu phi cấu trúc.
- B. Data lake lưu trữ dữ liệu thô ở định dạng gốc, còn data warehouse lưu trữ dữ liệu đã được xử lý và cấu trúc.
- C. Data lake được sử dụng cho phân tích báo cáo, còn data warehouse được sử dụng cho học máy.
- D. Data lake có chi phí lưu trữ cao hơn data warehouse.
Câu 12: Để đánh giá hiệu quả của chiến dịch marketing trực tuyến, chỉ số ROI (Return on Investment - Tỷ lệ hoàn vốn đầu tư) đo lường điều gì?
- A. Số lượng khách hàng tiếp cận được bởi chiến dịch.
- B. Tỷ lệ chuyển đổi từ khách hàng tiềm năng sang khách hàng thực tế.
- C. Chi phí trung bình để thu hút một khách hàng mới.
- D. Lợi nhuận ròng thu được từ chiến dịch so với chi phí đầu tư.
Câu 13: Trong phân tích chuỗi thời gian về doanh số bán hàng, thành phần "tính mùa vụ" (seasonality) thể hiện điều gì?
- A. Sự biến động doanh số lặp đi lặp lại theo chu kỳ thời gian cố định.
- B. Xu hướng tăng hoặc giảm doanh số trong dài hạn.
- C. Các yếu tố ngẫu nhiên ảnh hưởng đến doanh số.
- D. Sự thay đổi đột ngột và bất thường trong doanh số.
Câu 14: Một công ty bảo hiểm muốn phát hiện các yêu cầu bồi thường gian lận. Kỹ thuật học máy nào sau đây phù hợp để xác định các trường hợp bất thường hoặc ngoại lệ?
- A. Phân loại (Classification)
- B. Phát hiện bất thường (Anomaly Detection)
- C. Hồi quy (Regression)
- D. Phân cụm (Clustering)
Câu 15: Để trực quan hóa mối quan hệ giữa nhiều biến số định lượng trong dữ liệu kinh doanh, loại biểu đồ nào sau đây thường được sử dụng?
- A. Biểu đồ tròn (Pie chart)
- B. Biểu đồ cột (Bar chart)
- C. Ma trận biểu đồ phân tán (Scatter plot matrix)
- D. Biểu đồ đường (Line chart)
Câu 16: Trong quản lý chuỗi cung ứng, việc sử dụng khoa học dữ liệu để dự đoán thời gian giao hàng và tối ưu hóa lộ trình vận chuyển thuộc về lĩnh vực nào?
- A. Marketing Analytics
- B. Financial Analytics
- C. Human Resources Analytics
- D. Supply Chain Optimization
Câu 17: Trong phân tích dữ liệu web, "tỷ lệ thoát" (bounce rate) đo lường điều gì?
- A. Tỷ lệ khách hàng chuyển đổi trên trang web.
- B. Tỷ lệ khách truy cập rời khỏi trang web sau khi chỉ xem một trang.
- C. Thời gian trung bình khách truy cập ở lại trên trang web.
- D. Số lượng trang trung bình khách truy cập xem trong một phiên.
Câu 18: Một công ty tài chính sử dụng mô hình học máy để tự động hóa việc phê duyệt khoản vay. Vấn đề "thiên vị" (bias) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì?
- A. Mô hình hoạt động kém hiệu quả trên dữ liệu mới.
- B. Mô hình trở nên quá phức tạp và khó giải thích.
- C. Mô hình đưa ra quyết định phân biệt đối xử hoặc không công bằng.
- D. Mô hình yêu cầu nhiều tài nguyên tính toán hơn.
Câu 19: Để xây dựng một hệ thống cảnh báo sớm rủi ro cho danh mục đầu tư chứng khoán, loại mô hình phân tích nào sau đây phù hợp nhất?
- A. Phân tích chuỗi thời gian và dự báo (Time Series Analysis and Forecasting)
- B. Phân tích hồi quy tuyến tính (Linear Regression Analysis)
- C. Phân tích thành phần chính (Principal Component Analysis - PCA)
- D. Phân tích phân cụm (Cluster Analysis)
Câu 20: Trong lĩnh vực nhân sự (HR analytics), việc phân tích dữ liệu để dự đoán tỷ lệ nhân viên nghỉ việc (employee churn) giúp doanh nghiệp làm gì?
- A. Tối ưu hóa quy trình tuyển dụng.
- B. Chủ động can thiệp để giữ chân nhân viên có nguy cơ nghỉ việc.
- C. Đánh giá hiệu quả đào tạo nhân viên.
- D. Xây dựng hệ thống quản lý hiệu suất nhân viên.
Câu 21: "Overfitting" (quá khớp) là một vấn đề thường gặp trong học máy. Biện pháp nào sau đây giúp giảm thiểu overfitting khi xây dựng mô hình phân loại?
- A. Tăng kích thước tập dữ liệu huấn luyện.
- B. Sử dụng nhiều đặc trưng (features) hơn.
- C. Áp dụng kỹ thuật chính quy hóa (Regularization).
- D. Giảm độ phức tạp của thuật toán học máy.
Câu 22: Trong thử nghiệm A/B marketing, mục tiêu chính là gì?
- A. Thu thập dữ liệu khách hàng cho phân tích.
- B. Tăng cường nhận diện thương hiệu.
- C. Phân khúc thị trường mục tiêu.
- D. So sánh hiệu quả của hai phiên bản khác nhau để tối ưu hóa kết quả.
Câu 23: Để xử lý dữ liệu định tính (qualitative data) như phản hồi từ khảo sát mở, phương pháp nào sau đây thường được sử dụng để mã hóa và phân tích?
- A. Phân tích hồi quy (Regression analysis)
- B. Mã hóa dữ liệu và phân tích nội dung (Data coding and content analysis)
- C. Thống kê mô tả (Descriptive statistics)
- D. Phân tích phương sai (ANOVA)
Câu 24: "Precision" (độ chính xác) và "Recall" (độ phủ) là các chỉ số đánh giá hiệu suất mô hình phân loại. Trong bài toán phát hiện gian lận, chỉ số nào quan trọng hơn?
- A. Cả Precision và Recall đều quan trọng như nhau.
- B. Precision quan trọng hơn Recall.
- C. Recall quan trọng hơn Precision.
- D. Không thể xác định được chỉ số nào quan trọng hơn.
Câu 25: Trong phân tích mạng xã hội (social network analysis), "degree centrality" (độ tập trung mức độ) của một nút mạng đo lường điều gì?
- A. Số lượng kết nối trực tiếp mà một nút mạng có.
- B. Khoảng cách trung bình từ một nút đến tất cả các nút khác trong mạng.
- C. Mức độ trung gian của một nút trong việc kết nối các nút khác.
- D. Mức độ các nút lân cận của một nút cũng được kết nối với nhau.
Câu 26: Để triển khai một mô hình học máy vào ứng dụng kinh doanh thực tế, bước nào sau đây là quan trọng nhất sau khi mô hình đã được huấn luyện và đánh giá?
- A. Tiến hành phân tích dữ liệu khám phá (EDA) sâu hơn.
- B. Lựa chọn thuật toán học máy khác để thử nghiệm.
- C. Triển khai mô hình và tích hợp vào hệ thống hiện có.
- D. Trình bày kết quả mô hình cho các bên liên quan.
Câu 27: Trong phân tích giỏ hàng (market basket analysis), "support" (độ hỗ trợ) của một tập hợp các mặt hàng đo lường điều gì?
- A. Xác suất mua mặt hàng Y khi đã mua mặt hàng X.
- B. Tỷ lệ giao dịch chứa tất cả các mặt hàng trong tập hợp.
- C. Mức độ tin cậy của quy tắc kết hợp.
- D. Mức độ hữu ích của quy tắc kết hợp.
Câu 28: "Dashboard" (bảng điều khiển) trong trực quan hóa dữ liệu kinh doanh có vai trò chính là gì?
- A. Cung cấp cái nhìn tổng quan và theo dõi các chỉ số kinh doanh quan trọng.
- B. Phân tích sâu các mối quan hệ phức tạp trong dữ liệu.
- C. Xây dựng mô hình dự đoán và phân loại.
- D. Làm sạch và tiền xử lý dữ liệu.
Câu 29: Để đảm bảo tính riêng tư và bảo mật dữ liệu khách hàng, kỹ thuật nào sau đây được sử dụng để ẩn danh hóa dữ liệu trước khi phân tích?
- A. Mã hóa dữ liệu (Data encryption)
- B. Sao lưu dữ liệu (Data backup)
- C. Ẩn danh hóa dữ liệu (Data anonymization)
- D. Kiểm soát truy cập dữ liệu (Data access control)
Câu 30: Trong bối cảnh Big Data, công nghệ nào sau đây thường được sử dụng để xử lý và phân tích dữ liệu phân tán trên nhiều máy tính?
- A. SQL Server
- B. Microsoft Excel
- C. SPSS
- D. Apache Spark