Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 07
Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong phân tích dữ liệu kinh doanh, một công ty bán lẻ muốn phân loại khách hàng thành các nhóm khác nhau dựa trên hành vi mua sắm của họ để cá nhân hóa chiến dịch marketing. Phương pháp khai thác dữ liệu nào sau đây phù hợp nhất để đạt được mục tiêu này?
- A. Hồi quy tuyến tính (Linear Regression)
- B. Phân cụm (Clustering)
- C. Phân loại (Classification)
- D. Dự báo chuỗi thời gian (Time Series Forecasting)
Câu 2: Một nhà quản lý quỹ đầu tư sử dụng dữ liệu lịch sử về giá cổ phiếu, lãi suất và các chỉ số kinh tế vĩ mô để dự đoán xu hướng giá cổ phiếu trong tương lai. Kỹ thuật khoa học dữ liệu nào sau đây được sử dụng trong trường hợp này?
- A. Hồi quy (Regression)
- B. Phân cụm (Clustering)
- C. Phân loại (Classification)
- D. Khai thác luật kết hợp (Association Rule Mining)
Câu 3: Để đánh giá hiệu quả của mô hình phân loại khách hàng tiềm năng (khách hàng có khả năng mua sản phẩm mới), chỉ số nào sau đây thể hiện tỷ lệ khách hàng tiềm năng thực sự được mô hình dự đoán đúng trên tổng số khách hàng được dự đoán là tiềm năng?
- A. Độ phủ (Recall)
- B. Độ chính xác tổng thể (Accuracy)
- C. Độ chính xác (Precision)
- D. F1-score
Câu 4: Trong quá trình tiền xử lý dữ liệu, khi một thuộc tính số có giá trị phân bố lệch phải (đa số giá trị nhỏ, một số ít giá trị rất lớn), phép biến đổi nào sau đây có thể giúp giảm độ lệch và làm cho phân phối dữ liệu gần với phân phối chuẩn hơn?
- A. Chuẩn hóa Min-Max (Min-Max Scaling)
- B. Biến đổi Logarit (Log Transformation)
- C. Chuẩn hóa Z-score (Z-score Standardization)
- D. Rời rạc hóa dữ liệu (Data Discretization)
Câu 5: Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm cho khách hàng. Dựa trên lịch sử mua hàng của khách hàng và thông tin về các sản phẩm, phương pháp khai thác dữ liệu nào sau đây phù hợp để tìm ra các sản phẩm thường được mua cùng nhau và gợi ý cho khách hàng?
- A. Phân loại (Classification)
- B. Phân cụm (Clustering)
- C. Hồi quy (Regression)
- D. Khai thác luật kết hợp (Association Rule Mining)
Câu 6: Trong mô hình hóa dữ liệu, kỹ thuật "one-hot encoding" thường được sử dụng để xử lý loại dữ liệu nào sau đây?
- A. Dữ liệu số liên tục (Continuous numerical data)
- B. Dữ liệu số rời rạc (Discrete numerical data)
- C. Dữ liệu định tính (Categorical data)
- D. Dữ liệu chuỗi thời gian (Time series data)
Câu 7: Khi xây dựng mô hình dự đoán rủi ro tín dụng, việc sử dụng tập dữ liệu huấn luyện chứa phần lớn các khoản vay không rủi ro và rất ít các khoản vay rủi ro có thể dẫn đến vấn đề gì?
- A. Quá khớp (Overfitting) trên dữ liệu huấn luyện
- B. Mô hình kém hiệu quả trong việc dự đoán các khoản vay rủi ro (lớp thiểu số)
- C. Mô hình quá nhạy cảm với nhiễu trong dữ liệu
- D. Mô hình yêu cầu thời gian huấn luyện quá dài
Câu 8: Trong phân tích chuỗi thời gian, phương pháp nào sau đây phù hợp để phân tách chuỗi thời gian thành các thành phần xu hướng, mùa vụ và phần dư?
- A. Phân tách chuỗi thời gian (Time Series Decomposition)
- B. Trung bình trượt (Moving Average)
- C. San bằng mũ (Exponential Smoothing)
- D. Mô hình ARIMA
Câu 9: Một công ty muốn phân tích phản hồi của khách hàng về sản phẩm từ các bài đánh giá trực tuyến. Kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) nào sau đây phù hợp để xác định xem mỗi đánh giá là tích cực, tiêu cực hay trung tính?
- A. Tóm tắt văn bản (Text Summarization)
- B. Dịch máy (Machine Translation)
- C. Phân tích cảm xúc (Sentiment Analysis)
- D. Nhận dạng thực thể có tên (Named Entity Recognition)
Câu 10: Trong kiểm định giả thuyết thống kê, khi chúng ta bác bỏ giả thuyếtNull (H0) mặc dù trên thực tế H0 là đúng, chúng ta mắc phải loại lỗi nào?
- A. Lỗi Loại II (Type II error)
- B. Lỗi Loại I (Type I error)
- C. Sai số hệ thống (Systematic error)
- D. Sai số ngẫu nhiên (Random error)
Câu 11: Để trực quan hóa mối quan hệ giữa hai biến số định lượng, loại biểu đồ nào sau đây thường được sử dụng?
- A. Biểu đồ cột (Bar chart)
- B. Biểu đồ tròn (Pie chart)
- C. Biểu đồ hộp (Box plot)
- D. Biểu đồ phân tán (Scatter plot)
Câu 12: Trong quá trình xây dựng mô hình học máy, kỹ thuật "k-fold cross-validation" được sử dụng để làm gì?
- A. Tăng tốc độ huấn luyện mô hình
- B. Giảm kích thước dữ liệu huấn luyện
- C. Đánh giá hiệu năng của mô hình một cách khách quan trên dữ liệu chưa từng thấy
- D. Chọn lọc đặc trưng (feature selection)
Câu 13: Một ngân hàng muốn phát hiện các giao dịch gian lận thẻ tín dụng. Với dữ liệu giao dịch thẻ tín dụng, trong đó phần lớn là giao dịch hợp lệ và một phần nhỏ là giao dịch gian lận, kỹ thuật phân loại nào sau đây thường được ưu tiên sử dụng do khả năng xử lý dữ liệu không cân bằng tốt hơn?
- A. Hồi quy Logistic (Logistic Regression)
- B. Cây quyết định (Decision Tree) hoặc Rừng ngẫu nhiên (Random Forest)
- C. Máy vector hỗ trợ (Support Vector Machine - SVM)
- D. K-Nearest Neighbors (KNN)
Câu 14: Trong ngữ cảnh Big Data, đặc tính "Variety" (đa dạng) đề cập đến khía cạnh nào của dữ liệu?
- A. Sự đa dạng về loại và nguồn dữ liệu (ví dụ: văn bản, hình ảnh, video, dữ liệu cảm biến)
- B. Khối lượng dữ liệu cực lớn
- C. Tốc độ tạo ra và xử lý dữ liệu nhanh chóng
- D. Tính xác thực và đáng tin cậy của dữ liệu
Câu 15: Khi so sánh hai thuật toán phân cụm khác nhau trên cùng một tập dữ liệu, tiêu chí đánh giá "Silhouette score" đo lường điều gì?
- A. Độ chính xác của việc gán nhãn cụm so với nhãn gốc (nếu có)
- B. Thời gian thực hiện thuật toán phân cụm
- C. Mức độ một điểm dữ liệu tương tự với cụm của chính nó so với các cụm khác
- D. Tổng khoảng cách vuông góc từ mỗi điểm đến tâm cụm gần nhất (Within-cluster sum of squares - WCSS)
Câu 16: Trong phân tích phương sai (ANOVA), mục đích chính của việc kiểm định F (F-test) là gì?
- A. Kiểm định sự khác biệt giữa phương sai của hai mẫu
- B. Kiểm định xem có sự khác biệt đáng kể về trung bình giữa các nhóm hay không
- C. Đo lường mức độ tương quan tuyến tính giữa các biến
- D. Xác định phân phối xác suất phù hợp cho dữ liệu
Câu 17: Để xử lý dữ liệu bị thiếu trong một cột số, phương pháp "imputation" (ước tính giá trị thiếu) nào sau đây có thể tạo ra giá trị ước tính dựa trên phân phối của dữ liệu trong cột đó?
- A. Xóa bỏ các hàng chứa giá trị thiếu (Listwise deletion)
- B. Ước tính bằng giá trị trung bình (Mean imputation)
- C. Ước tính bằng giá trị trung vị (Median imputation)
- D. Ước tính ngẫu nhiên từ phân phối (Stochastic imputation)
Câu 18: Trong mô hình hồi quy tuyến tính bội (Multiple Linear Regression), hệ số hồi quy (regression coefficient) của một biến độc lập (independent variable) thể hiện điều gì?
- A. Mức độ tương quan giữa biến độc lập và biến phụ thuộc
- B. Giá trị dự đoán của biến phụ thuộc khi biến độc lập bằng 0
- C. Mức thay đổi trung bình của biến phụ thuộc khi biến độc lập tăng lên một đơn vị, giữ các biến độc lập khác không đổi
- D. Độ mạnh của toàn bộ mô hình hồi quy
Câu 19: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời mạng (churn). Biến mục tiêu trong bài toán này thuộc loại dữ liệu nào?
- A. Dữ liệu số liên tục (Continuous numerical data)
- B. Dữ liệu nhị phân (Binary data)
- C. Dữ liệu thứ bậc (Ordinal data)
- D. Dữ liệu định danh (Nominal data)
Câu 20: Để giảm số chiều dữ liệu (dimensionality reduction) trong một tập dữ liệu có nhiều thuộc tính tương quan cao, phương pháp nào sau đây có thể được sử dụng để tạo ra một tập hợp các biến mới (thành phần chính) là tổ hợp tuyến tính của các biến gốc và giữ lại phần lớn phương sai của dữ liệu?
- A. Phân tích thành phần chính (Principal Component Analysis - PCA)
- B. Lựa chọn đặc trưng (Feature Selection)
- C. Rời rạc hóa dữ liệu (Data Discretization)
- D. Chuẩn hóa dữ liệu (Data Normalization)
Câu 21: Trong mô hình cây quyết định, tiêu chí "Gini impurity" được sử dụng để làm gì?
- A. Đo lường độ phức tạp của cây quyết định
- B. Đánh giá hiệu năng của mô hình cây quyết định
- C. Đo lường mức độ "hỗn tạp" của các lớp trong một nút và lựa chọn thuộc tính phân chia tốt nhất
- D. Kiểm soát sự phát triển quá sâu của cây quyết định (pruning)
Câu 22: Khi xây dựng mô hình dự đoán giá nhà, thước đo đánh giá nào sau đây phù hợp nhất để đo lường sai số trung bình của các dự đoán so với giá trị thực tế và ít bị ảnh hưởng bởi các giá trị ngoại lệ?
- A. Sai số bình phương trung bình (Mean Squared Error - MSE)
- B. Sai số tuyệt đối trung bình (Mean Absolute Error - MAE)
- C. Căn bậc hai của sai số bình phương trung bình (Root Mean Squared Error - RMSE)
- D. Hệ số xác định (R-squared)
Câu 23: Trong phân tích luật kết hợp, độ đo "Lift" lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục?
- A. Hai tập mục ít khi xuất hiện cùng nhau
- B. Hai tập mục thay thế cho nhau
- C. Hai tập mục độc lập với nhau
- D. Hai tập mục có xu hướng xuất hiện cùng nhau thường xuyên hơn so với mong đợi nếu chúng độc lập
Câu 24: Để chuẩn hóa dữ liệu số về khoảng giá trị từ 0 đến 1, phương pháp chuẩn hóa nào sau đây thường được sử dụng?
- A. Chuẩn hóa Z-score (Z-score Standardization)
- B. Biến đổi Logarit (Log Transformation)
- C. Chuẩn hóa Min-Max (Min-Max Scaling)
- D. Rời rạc hóa dữ liệu (Data Discretization)
Câu 25: Trong mô hình hóa dữ liệu, hiện tượng "multicollinearity" (đa cộng tuyến) xảy ra khi nào?
- A. Khi có sự tương quan cao giữa các biến độc lập trong mô hình hồi quy
- B. Khi mô hình quá khớp (overfitting) trên dữ liệu huấn luyện
- C. Khi dữ liệu có nhiều giá trị ngoại lệ
- D. Khi biến mục tiêu có phân phối không chuẩn
Câu 26: Để xác định số cụm tối ưu trong thuật toán K-means, phương pháp "elbow method" dựa trên việc quan sát sự thay đổi của đại lượng nào theo số lượng cụm (k)?
- A. Silhouette score
- B. Tổng khoảng cách vuông góc từ mỗi điểm đến tâm cụm gần nhất (Within-cluster sum of squares - WCSS)
- C. Thời gian thực hiện thuật toán
- D. Độ chính xác của mô hình
Câu 27: Trong phân tích thời gian sống (survival analysis), hàm Kaplan-Meier được sử dụng để ước tính đại lượng nào?
- A. Tỷ lệ rủi ro tức thời (Hazard ratio)
- B. Thời gian sống trung bình
- C. Hàm sống sót (Survival function)
- D. Thời gian trung vị sống sót
Câu 28: Trong kiến trúc mạng nơ-ron, hàm kích hoạt (activation function) ReLU (Rectified Linear Unit) có đặc điểm gì nổi bật so với hàm sigmoid hoặc tanh?
- A. Luôn cho ra giá trị đầu ra trong khoảng [0, 1]
- B. Là hàm phi tuyến khả vi trên toàn miền xác định
- C. Giúp mạng nơ-ron học được các quan hệ phi tuyến phức tạp tốt hơn
- D. Giảm thiểu vấn đề vanishing gradient (mất mát đạo hàm) trong quá trình huấn luyện mạng sâu
Câu 29: Để xử lý dữ liệu văn bản trong NLP, kỹ thuật "TF-IDF" (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?
- A. Phân tích cảm xúc của văn bản
- B. Tính toán trọng số của từ trong một tài liệu dựa trên tần suất xuất hiện của từ đó trong tài liệu và tần suất xuất hiện của từ đó trong toàn bộ tập tài liệu
- C. Tóm tắt nội dung chính của văn bản
- D. Phân loại văn bản vào các chủ đề khác nhau
Câu 30: Một công ty muốn xây dựng mô hình dự đoán nhu cầu sản phẩm theo từng khu vực địa lý. Phương pháp phân tích không gian (spatial analysis) nào sau đây có thể giúp xác định các khu vực có nhu cầu tương đồng và nhóm chúng lại với nhau?
- A. Hồi quy không gian (Spatial Regression)
- B. Tự tương quan không gian (Spatial Autocorrelation)
- C. Phân cụm không gian (Spatial Clustering)
- D. Nội suy không gian (Spatial Interpolation)