Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 10
Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 10 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong bối cảnh kinh doanh hiện đại, dữ liệu lớn (Big Data) mang lại lợi thế cạnh tranh chủ yếu nào cho doanh nghiệp?
- A. Giảm chi phí lưu trữ dữ liệu
- B. Tăng cường bảo mật thông tin khách hàng
- C. Ra quyết định dựa trên bằng chứng và hiểu biết sâu sắc
- D. Đơn giản hóa quy trình quản lý nhân sự
Câu 2: Một công ty bán lẻ trực tuyến muốn cá nhân hóa trải nghiệm mua sắm cho từng khách hàng. Phương pháp khoa học dữ liệu nào sau đây phù hợp nhất để đạt được mục tiêu này?
- A. Phân tích hồi quy để dự báo doanh số
- B. Thống kê mô tả để tóm tắt dữ liệu bán hàng
- C. Kiểm định giả thuyết để so sánh hiệu quả các chiến dịch marketing
- D. Hệ thống khuyến nghị dựa trên lịch sử mua hàng và hành vi duyệt web
Câu 3: Để phân tích sự hài lòng của khách hàng dựa trên dữ liệu khảo sát, thang đo Likert 5 mức độ (hoàn toàn không hài lòng đến hoàn toàn hài lòng) thuộc loại dữ liệu nào?
- A. Định lượng (Quantitative)
- B. Thứ bậc (Ordinal)
- C. Định danh (Nominal)
- D. Tỷ lệ (Ratio)
Câu 4: Trong quá trình tiền xử lý dữ liệu, kỹ thuật "chuẩn hóa dữ liệu" (data normalization) thường được sử dụng để giải quyết vấn đề nào sau đây?
- A. Khắc phục sự khác biệt về phạm vi giá trị giữa các thuộc tính
- B. Xử lý dữ liệu bị thiếu (missing data)
- C. Loại bỏ dữ liệu ngoại lai (outliers)
- D. Chuyển đổi dữ liệu định tính thành định lượng
Câu 5: Một nhà kinh tế sử dụng mô hình hồi quy tuyến tính để phân tích mối quan hệ giữa chi tiêu quảng cáo và doanh thu. Giả định quan trọng nào sau đây cần được kiểm tra để đảm bảo tính hợp lệ của mô hình?
- A. Tính đa cộng tuyến hoàn hảo giữa các biến độc lập
- B. Phương sai của sai số thay đổi có hệ thống theo các biến độc lập
- C. Sai số có tương quan tự động bậc nhất
- D. Sai số có phân phối chuẩn và phương sai không đổi
Câu 6: Trong bài toán phân loại khách hàng tiềm năng ( tiềm năng/không tiềm năng), độ đo "Recall" (Độ nhớ lại) đánh giá điều gì?
- A. Tỷ lệ dự đoán đúng trên tổng số dự đoán
- B. Tỷ lệ dự đoán sai dương tính trên tổng số dự đoán dương tính
- C. Tỷ lệ dự đoán đúng dương tính trên tổng số trường hợp dương tính thực tế
- D. Tỷ lệ dự đoán đúng âm tính trên tổng số trường hợp âm tính thực tế
Câu 7: Thuật toán K-means Clustering được sử dụng phổ biến trong phân tích kinh doanh để:
- A. Dự báo giá cổ phiếu dựa trên dữ liệu quá khứ
- B. Phân khúc khách hàng thành các nhóm dựa trên hành vi mua sắm
- C. Xây dựng mô hình phân loại gian lận giao dịch thẻ tín dụng
- D. Phân tích cảm xúc của khách hàng từ bình luận trên mạng xã hội
Câu 8: Phương pháp "Cross-validation" (Kiểm định chéo) được sử dụng trong quá trình xây dựng mô hình học máy nhằm mục đích chính nào?
- A. Tăng tốc độ huấn luyện mô hình
- B. Giảm thiểu dung lượng dữ liệu cần thiết để huấn luyện
- C. Lựa chọn thuật toán học máy tốt nhất cho bài toán
- D. Đánh giá khách quan hiệu năng của mô hình trên dữ liệu chưa từng thấy
Câu 9: Trong phân tích chuỗi thời gian, thành phần "xu hướng" (trend) thể hiện điều gì?
- A. Sự biến động dài hạn và có hướng của chuỗi dữ liệu
- B. Sự biến động ngắn hạn và ngẫu nhiên của chuỗi dữ liệu
- C. Sự biến động theo mùa lặp đi lặp lại của chuỗi dữ liệu
- D. Sự biến động bất thường do các sự kiện đặc biệt
Câu 10: Để trực quan hóa phân phối của một biến số định lượng, loại biểu đồ nào sau đây thường được sử dụng nhất?
- A. Biểu đồ tròn (Pie chart)
- B. Biểu đồ tần suất (Histogram)
- C. Biểu đồ đường (Line chart)
- D. Biểu đồ cột (Bar chart)
Câu 11: Trong ngữ cảnh khoa học dữ liệu, "feature engineering" (kỹ thuật tạo đặc trưng) là quá trình:
- A. Lựa chọn thuật toán học máy phù hợp nhất
- B. Thu thập dữ liệu từ nhiều nguồn khác nhau
- C. Biến đổi và tạo ra các thuộc tính mới từ dữ liệu hiện có để cải thiện hiệu suất mô hình
- D. Đánh giá và lựa chọn mô hình tốt nhất
Câu 12: Phân tích "cohort" (nhóm когортный анализ) thường được sử dụng trong kinh doanh để:
- A. Dự báo doanh số bán hàng trong tương lai
- B. Xác định các yếu tố ảnh hưởng đến sự hài lòng của khách hàng
- C. Phân khúc thị trường dựa trên đặc điểm nhân khẩu học
- D. Theo dõi hành vi và sự thay đổi của các nhóm khách hàng theo thời gian (ví dụ: когортный khách hàng đăng ký theo tháng)
Câu 13: Phương pháp "A/B testing" (thử nghiệm A/B) được sử dụng để:
- A. So sánh hiệu quả của hai phiên bản khác nhau (ví dụ: trang web, quảng cáo) để đưa ra quyết định tối ưu
- B. Phân tích mối quan hệ giữa các biến số
- C. Dự báo xu hướng thị trường
- D. Phân loại khách hàng thành các nhóm khác nhau
Câu 14: "Overfitting" (quá khớp) trong học máy xảy ra khi:
- A. Mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu
- B. Mô hình học quá kỹ dữ liệu huấn luyện, bao gồm cả nhiễu, dẫn đến hiệu suất kém trên dữ liệu mới
- C. Dữ liệu huấn luyện không đủ lớn để mô hình học hiệu quả
- D. Thuật toán học máy không phù hợp với bài toán
Câu 15: Trong phân tích rủi ro tín dụng, mô hình "logistic regression" (hồi quy logistic) thường được sử dụng để:
- A. Dự báo giá trị khoản vay
- B. Phân cụm khách hàng dựa trên lịch sử tín dụng
- C. Ước tính xác suất vỡ nợ của khách hàng
- D. Phát hiện gian lận trong giao dịch tín dụng
Câu 16: "Data mining" (khai thác dữ liệu) khác biệt với "thống kê truyền thống" ở điểm nào chính?
- A. Data mining sử dụng các công cụ phần mềm phức tạp hơn
- B. Data mining chỉ làm việc với dữ liệu số, còn thống kê làm việc với mọi loại dữ liệu
- C. Thống kê truyền thống chú trọng vào mô tả dữ liệu, còn data mining chú trọng vào dự báo
- D. Data mining tập trung vào khám phá các mẫu ẩn và tri thức mới từ dữ liệu lớn, trong khi thống kê truyền thống thường kiểm định giả thuyết đã có
Câu 17: "Random forest" (rừng ngẫu nhiên) là một thuật toán học máy thuộc loại nào?
- A. Học không giám sát (Unsupervised learning)
- B. Học có giám sát (Supervised learning)
- C. Học tăng cường (Reinforcement learning)
- D. Học bán giám sát (Semi-supervised learning)
Câu 18: Trong phân tích văn bản (text analytics) ứng dụng trong kinh doanh, "sentiment analysis" (phân tích cảm xúc) nhằm mục đích:
- A. Tóm tắt nội dung chính của văn bản
- B. Phân loại văn bản theo chủ đề
- C. Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) được thể hiện trong văn bản
- D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
Câu 19: "Recommendation system" (hệ thống khuyến nghị) trong thương mại điện tử thường dựa trên nguyên tắc chính nào?
- A. Phân tích nhân khẩu học của khách hàng
- B. Dự báo xu hướng thị trường
- C. Phân tích hiệu quả chiến dịch quảng cáo
- D. Tìm kiếm sự tương đồng giữa người dùng và/hoặc sản phẩm để đưa ra gợi ý phù hợp
Câu 20: Đạo đức trong khoa học dữ liệu (Data Science Ethics) đặc biệt quan trọng vì:
- A. Để tuân thủ các quy định pháp luật về bảo vệ dữ liệu
- B. Để đảm bảo việc sử dụng dữ liệu và mô hình không gây ra phân biệt đối xử, xâm phạm quyền riêng tư hoặc các hậu quả tiêu cực khác
- C. Để tăng cường độ tin cậy của kết quả phân tích dữ liệu
- D. Để thu hút và giữ chân nhân tài trong lĩnh vực khoa học dữ liệu
Câu 21: Trong quá trình phân tích dữ liệu khám phá (Exploratory Data Analysis - EDA), mục tiêu chính là:
- A. Hiểu rõ cấu trúc dữ liệu, phát hiện các mẫu, xu hướng, và vấn đề tiềm ẩn trong dữ liệu
- B. Xây dựng mô hình dự báo với độ chính xác cao nhất
- C. Tự động hóa quy trình xử lý dữ liệu
- D. Trực quan hóa dữ liệu để trình bày kết quả cho đối tác kinh doanh
Câu 22: Khi một mô hình phân loại dự đoán sai một trường hợp dương tính là âm tính, đây được gọi là lỗi loại nào?
- A. Lỗi loại I
- B. Lỗi loại II
- C. Lỗi âm tính giả (False Negative)
- D. Lỗi dương tính giả (False Positive)
Câu 23: Phương pháp "gradient boosting" (tăng cường gradient) thường được sử dụng để:
- A. Giảm chiều dữ liệu
- B. Phân cụm dữ liệu
- C. Phân tích thành phần chính
- D. Xây dựng mô hình dự báo có độ chính xác cao cho cả bài toán phân loại và hồi quy
Câu 24: Trong khoa học dữ liệu kinh doanh, "churn prediction" (dự đoán khách hàng rời bỏ) giúp doanh nghiệp:
- A. Tăng doanh số bán hàng cho khách hàng hiện tại
- B. Xác định và can thiệp kịp thời để giữ chân khách hàng có nguy cơ rời bỏ
- C. Thu hút khách hàng mới
- D. Giảm chi phí marketing
Câu 25: Khi dữ liệu có nhiều chiều (số lượng thuộc tính lớn), kỹ thuật "Principal Component Analysis" (PCA) được sử dụng để:
- A. Tăng chiều dữ liệu
- B. Làm sạch dữ liệu nhiễu
- C. Giảm chiều dữ liệu bằng cách tìm ra các thành phần chính, giữ lại phần lớn phương sai của dữ liệu
- D. Chuẩn hóa dữ liệu
Câu 26: "Time series analysis" (phân tích chuỗi thời gian) đặc biệt hữu ích trong lĩnh vực kinh tế và kinh doanh để:
- A. Dự báo các chỉ số kinh tế, tài chính và kinh doanh theo thời gian (ví dụ: dự báo doanh thu, GDP, giá cổ phiếu)
- B. Phân tích mối quan hệ giữa các biến số kinh tế tại cùng một thời điểm
- C. Phân khúc khách hàng theo thời gian
- D. Tối ưu hóa quy trình sản xuất
Câu 27: Trong mô hình cây quyết định (Decision Tree), "Gini impurity" (độ tinh khiết Gini) được sử dụng để:
- A. Đánh giá độ phức tạp của cây quyết định
- B. Đo lường mức độ hỗn loạn của các lớp trong một nút, từ đó chọn thuộc tính tốt nhất để phân chia nút
- C. Kiểm soát hiện tượng overfitting
- D. Xác định độ sâu tối ưu của cây quyết định
Câu 28: "Natural Language Processing" (NLP) (Xử lý ngôn ngữ tự nhiên) được ứng dụng trong kinh doanh để:
- A. Dự báo giá cổ phiếu
- B. Phân tích rủi ro tín dụng
- C. Phân tích phản hồi của khách hàng từ văn bản, xây dựng chatbot, dịch văn bản tự động
- D. Phân tích chuỗi cung ứng
Câu 29: "Dashboard" (bảng điều khiển) trong khoa học dữ liệu kinh doanh có vai trò chính là:
- A. Thực hiện các phân tích thống kê phức tạp
- B. Tự động hóa quy trình thu thập dữ liệu
- C. Xây dựng mô hình học máy
- D. Trực quan hóa dữ liệu và các chỉ số kinh doanh quan trọng một cách tổng quan và dễ theo dõi
Câu 30: Trong bối cảnh dữ liệu lớn, "data lake" (hồ dữ liệu) khác biệt với "data warehouse" (kho dữ liệu) chủ yếu ở:
- A. Data lake có dung lượng lưu trữ nhỏ hơn data warehouse
- B. Data lake lưu trữ dữ liệu thô, đa dạng, chưa qua xử lý, trong khi data warehouse lưu trữ dữ liệu đã được cấu trúc và xử lý cho mục đích phân tích cụ thể
- C. Data warehouse chỉ lưu trữ dữ liệu lịch sử, còn data lake lưu trữ dữ liệu thời gian thực
- D. Data lake dễ dàng truy vấn và phân tích dữ liệu hơn data warehouse