Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 01
Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 01 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quá trình phân tích dữ liệu khách hàng cho một chuỗi siêu thị, bạn nhận thấy một lượng lớn khách hàng thường xuyên mua cả tã giấy và bia. Phát hiện này có khả năng ứng dụng cao nhất trong hoạt động nào của siêu thị?
- A. Dự báo doanh số bán hàng tổng thể
- B. Phân khúc khách hàng dựa trên nhân khẩu học
- C. Tối ưu hóa vị trí trưng bày sản phẩm trên kệ hàng
- D. Đánh giá hiệu quả của chương trình khuyến mãi
Câu 2: Một công ty thương mại điện tử muốn cá nhân hóa trải nghiệm mua sắm cho từng khách hàng. Phương pháp phân tích dữ liệu nào sau đây sẽ phù hợp nhất để xây dựng hệ thống gợi ý sản phẩm?
- A. Thống kê mô tả đơn thuần
- B. Phân tích hồi quy tuyến tính
- C. Phân tích phương sai ANOVA
- D. Học máy (Machine Learning)
Câu 3: Để đánh giá mức độ hài lòng của khách hàng về dịch vụ sau bán hàng, một công ty đã thu thập phản hồi từ khách hàng thông qua thang điểm từ 1 (rất không hài lòng) đến 5 (rất hài lòng). Dạng dữ liệu phản hồi này thuộc loại thang đo nào?
- A. Định danh (Nominal)
- B. Thứ bậc (Ordinal)
- C. Khoảng (Interval)
- D. Tỷ lệ (Ratio)
Câu 4: Giả sử bạn xây dựng một mô hình phân loại khách hàng tiềm năng cho vay tín chấp. Mô hình dự đoán 150 khách hàng là "có khả năng trả nợ tốt" và 50 khách hàng là "có khả năng trả nợ kém". Tuy nhiên, khi đối chiếu với thực tế, chỉ có 120 trong số 150 khách hàng được dự đoán là "tốt" thực sự trả nợ tốt. Giá trị Precision của mô hình này là bao nhiêu?
- A. 60%
- B. 75%
- C. 80%
- D. 90%
Câu 5: Trong quy trình tiền xử lý dữ liệu, kỹ thuật "chuẩn hóa dữ liệu" (data normalization) thường được áp dụng nhằm mục đích chính là gì?
- A. Đảm bảo các thuộc tính có cùng thang đo và phạm vi giá trị
- B. Loại bỏ các giá trị ngoại lệ (outliers) trong dữ liệu
- C. Xử lý các giá trị bị thiếu (missing values)
- D. Giảm chiều dữ liệu (dimensionality reduction)
Câu 6: Một nhà quản lý muốn phân tích mối quan hệ giữa chi phí quảng cáo và doanh thu bán hàng. Phương pháp thống kê nào sau đây là phù hợp nhất để xác định và đo lường mức độ ảnh hưởng của chi phí quảng cáo đến doanh thu?
- A. Phân tích tần suất (Frequency analysis)
- B. Phân tích hồi quy (Regression analysis)
- C. Phân tích cụm (Cluster analysis)
- D. Phân tích chuỗi thời gian (Time series analysis)
Câu 7: Trong bài toán phân cụm khách hàng, thuật toán K-means yêu cầu người dùng phải xác định trước tham số nào?
- A. Ngưỡng khoảng cách tối đa giữa các điểm trong một cụm
- B. Số lượng chiều dữ liệu cần giảm
- C. Số lượng cụm (K) cần phân chia
- D. Phương pháp khởi tạo trung tâm cụm ban đầu
Câu 8: Để trực quan hóa dữ liệu về thị phần của các hãng điện thoại thông minh trên thị trường Việt Nam, loại biểu đồ nào sau đây là phù hợp nhất để thể hiện tỷ lệ phần trăm đóng góp của mỗi hãng?
- A. Biểu đồ đường (Line chart)
- B. Biểu đồ cột (Bar chart)
- C. Biểu đồ tán xạ (Scatter plot)
- D. Biểu đồ tròn (Pie chart)
Câu 9: Một ngân hàng sử dụng mô hình học máy để dự đoán khả năng khách hàng trả nợ. Nếu mô hình dự đoán sai rằng một khách hàng "có khả năng trả nợ kém" trong khi thực tế khách hàng này trả nợ đầy đủ và đúng hạn, sai sót này được gọi là lỗi gì trong ma trận nhầm lẫn?
- A. True Positive (Dương tính thật)
- B. False Negative (Âm tính giả)
- C. True Negative (Âm tính thật)
- D. False Positive (Dương tính giả)
Câu 10: Trong phân tích chuỗi thời gian, phương pháp ARIMA thường được sử dụng để dự báo các chuỗi dữ liệu có đặc điểm nào?
- A. Có tính dừng (Stationary) hoặc có thể biến đổi thành dừng
- B. Có xu hướng tăng hoặc giảm mạnh theo thời gian
- C. Chứa nhiều yếu tố mùa vụ phức tạp
- D. Có phương sai thay đổi không ổn định
Câu 11: Để giảm số lượng thuộc tính đầu vào cho mô hình học máy, kỹ thuật "phân tích thành phần chính" (Principal Component Analysis - PCA) được sử dụng nhằm mục đích gì?
- A. Tăng cường tính trực quan của dữ liệu
- B. Cải thiện độ chính xác của mô hình phân loại
- C. Giảm chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng
- D. Xử lý dữ liệu bị thiếu
Câu 12: Một công ty muốn xác định các nhóm khách hàng có hành vi mua sắm tương đồng để triển khai các chiến dịch marketing mục tiêu. Phương pháp phân tích dữ liệu nào sau đây là phù hợp nhất?
- A. Phân tích hồi quy tuyến tính
- B. Phân tích cụm (Cluster analysis)
- C. Phân tích chuỗi thời gian
- D. Phân tích phân biệt (Discriminant analysis)
Câu 13: Trong quá trình xây dựng mô hình dự báo giá nhà, bạn nhận thấy mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng lại kém hiệu quả trên dữ liệu kiểm tra mới. Tình trạng này được gọi là gì?
- A. Underfitting (Thiếu khớp)
- B. Dữ liệu bị nhiễu (Data noise)
- C. Rò rỉ dữ liệu (Data leakage)
- D. Overfitting (Quá khớp)
Câu 14: Để so sánh hiệu quả của hai chiến dịch marketing khác nhau (A và B) về doanh thu trung bình trên mỗi khách hàng, phép kiểm định giả thuyết thống kê nào sau đây là phù hợp nhất?
- A. Kiểm định Chi-square (Chi-square test)
- B. Kiểm định tương quan Pearson (Pearson correlation test)
- C. Kiểm định t-test độc lập (Independent samples t-test)
- D. Phân tích phương sai ANOVA (ANOVA)
Câu 15: Loại hình tấn công bảo mật dữ liệu nào thường xảy ra khi kẻ tấn công cố gắng truy cập trái phép vào cơ sở dữ liệu thông qua việc khai thác lỗ hổng trong mã SQL của ứng dụng web?
- A. SQL Injection
- B. Tấn công từ chối dịch vụ (Denial of Service - DoS)
- C. Tấn công Man-in-the-Middle
- D. Phishing
Câu 16: Trong quá trình làm sạch dữ liệu văn bản, kỹ thuật "stemming" (rút gọn từ về gốc) được sử dụng để làm gì?
- A. Phân tích ngữ pháp của câu
- B. Rút gọn các từ về dạng gốc của chúng
- C. Loại bỏ các từ dừng (stop words)
- D. Phát hiện cảm xúc trong văn bản
Câu 17: Để đánh giá hiệu quả tổng thể của một mô hình phân loại nhị phân, chỉ số nào sau đây thường được sử dụng và cân bằng giữa Precision và Recall?
- A. Accuracy (Độ chính xác)
- B. Precision (Độ chuẩn xác)
- C. Recall (Độ phủ)
- D. F1-score
Câu 18: Một công ty muốn dự báo nhu cầu sản phẩm cho tháng tới dựa trên dữ liệu bán hàng trong 3 năm gần nhất. Phương pháp dự báo nào sau đây phù hợp nhất để nắm bắt yếu tố mùa vụ và xu hướng?
- A. Trung bình trượt (Moving Average)
- B. San bằng mũ (Exponential Smoothing)
- C. Hồi quy tuyến tính
- D. ARIMA
Câu 19: Trong ngữ cảnh đạo đức của khoa học dữ liệu, khái niệm "bias" (thiên vị) trong dữ liệu có thể dẫn đến hậu quả tiêu cực nào trong các ứng dụng kinh doanh?
- A. Tăng độ phức tạp của mô hình
- B. Giảm hiệu suất tính toán
- C. Quyết định kinh doanh không công bằng hoặc phân biệt đối xử
- D. Khó khăn trong việc trực quan hóa dữ liệu
Câu 20: Để xây dựng một hệ thống phát hiện gian lận thẻ tín dụng, thuật toán học máy nào sau đây thường được ưu tiên sử dụng do khả năng xử lý dữ liệu không cân bằng (số lượng giao dịch gian lận ít hơn rất nhiều so với giao dịch bình thường)?
- A. K-means
- B. Hồi quy tuyến tính
- C. Naive Bayes
- D. Random Forest
Câu 21: Trong một dự án khoa học dữ liệu, giai đoạn "hiểu dữ liệu" (data understanding) bao gồm hoạt động chính nào?
- A. Khám phá dữ liệu và thu thập thông tin tổng quan về dữ liệu
- B. Xây dựng và huấn luyện mô hình học máy
- C. Triển khai mô hình vào thực tế
- D. Đánh giá hiệu quả mô hình
Câu 22: Khi một doanh nghiệp triển khai hệ thống báo cáo và phân tích dữ liệu tự động, lợi ích quan trọng nhất mà họ có thể đạt được là gì?
- A. Giảm chi phí lưu trữ dữ liệu
- B. Hỗ trợ ra quyết định nhanh chóng và dựa trên dữ liệu
- C. Tăng cường khả năng bảo mật dữ liệu
- D. Tự động hóa quy trình thu thập dữ liệu
Câu 23: Để xử lý dữ liệu định dạng JSON từ API của một trang web bán hàng, thư viện nào sau đây trong Python thường được sử dụng?
- A. NumPy
- B. Pandas
- C. json
- D. requests
Câu 24: Trong mô hình cây quyết định, tiêu chí "entropy" (thông tin) được sử dụng để làm gì?
- A. Đo lường độ chính xác của mô hình
- B. Xác định độ sâu tối ưu của cây
- C. Tính toán độ phức tạp của cây
- D. Chọn thuộc tính tốt nhất để phân chia dữ liệu
Câu 25: Một chuỗi cửa hàng bán lẻ muốn dự đoán số lượng khách hàng đến cửa hàng vào mỗi ngày trong tuần. Mô hình học máy nào sau đây phù hợp nhất với bài toán dự báo này?
- A. K-Nearest Neighbors (KNN)
- B. Support Vector Machine (SVM)
- C. Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN)
- D. Cây quyết định (Decision Tree)
Câu 26: Để đánh giá mức độ tương đồng giữa các khách hàng dựa trên lịch sử mua hàng của họ, độ đo khoảng cách nào sau đây thường được sử dụng cho dữ liệu thuộc tính nhị phân (ví dụ: mua/không mua sản phẩm)?
- A. Khoảng cách Euclidean
- B. Khoảng cách Jaccard
- C. Khoảng cách Manhattan
- D. Khoảng cách Chebyshev
Câu 27: Trong phân tích văn bản đánh giá sản phẩm trực tuyến, kỹ thuật "phân tích cảm xúc" (sentiment analysis) nhằm mục đích chính là gì?
- A. Xác định thái độ hoặc cảm xúc thể hiện trong văn bản
- B. Phân loại văn bản theo chủ đề
- C. Tóm tắt nội dung chính của văn bản
- D. Dịch văn bản sang ngôn ngữ khác
Câu 28: Một công ty tài chính muốn xây dựng mô hình dự đoán rủi ro vỡ nợ của khách hàng. Trong trường hợp này, biến mục tiêu (target variable) là gì?
- A. Thu nhập hàng tháng của khách hàng
- B. Lịch sử tín dụng của khách hàng
- C. Số dư tài khoản ngân hàng của khách hàng
- D. Khả năng vỡ nợ của khách hàng
Câu 29: Để đảm bảo tính tái lập (reproducibility) trong các dự án khoa học dữ liệu, điều quan trọng nhất cần thực hiện là gì?
- A. Sử dụng phần mềm thương mại để phân tích dữ liệu
- B. Làm việc độc lập để tránh sai sót do giao tiếp
- C. Ghi chép và quản lý mã nguồn, dữ liệu và quy trình phân tích một cách cẩn thận
- D. Công bố kết quả nghiên cứu trên các tạp chí khoa học
Câu 30: Trong quá trình triển khai mô hình học máy vào ứng dụng thực tế, thách thức lớn nhất thường gặp phải liên quan đến việc duy trì và cập nhật mô hình theo thời gian là gì?
- A. Chi phí phần cứng để chạy mô hình
- B. Mô hình bị "trôi dạt" (model drift) và giảm hiệu suất theo thời gian
- C. Khả năng giải thích kết quả của mô hình cho người dùng kinh doanh
- D. Tích hợp mô hình với các hệ thống hiện có của doanh nghiệp