Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 07

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.

Câu 1: Trong phân tích dữ liệu kinh doanh, một công ty bán lẻ muốn phân loại khách hàng thành các nhóm khác nhau dựa trên hành vi mua sắm của họ để cá nhân hóa chiến dịch marketing. Phương pháp khai thác dữ liệu nào sau đây phù hợp nhất để đạt được mục tiêu này?

A. Hồi quy tuyến tính (Linear Regression)
B. Phân cụm (Clustering)
C. Phân loại (Classification)
D. Dự báo chuỗi thời gian (Time Series Forecasting)

Câu 2: Một nhà quản lý quỹ đầu tư sử dụng dữ liệu lịch sử về giá cổ phiếu, lãi suất và các chỉ số kinh tế vĩ mô để dự đoán xu hướng giá cổ phiếu trong tương lai. Kỹ thuật khoa học dữ liệu nào sau đây được sử dụng trong trường hợp này?

A. Hồi quy (Regression)
B. Phân cụm (Clustering)
C. Phân loại (Classification)
D. Khai thác luật kết hợp (Association Rule Mining)

Câu 3: Để đánh giá hiệu quả của mô hình phân loại khách hàng tiềm năng (khách hàng có khả năng mua sản phẩm mới), chỉ số nào sau đây thể hiện tỷ lệ khách hàng tiềm năng thực sự được mô hình dự đoán đúng trên tổng số khách hàng được dự đoán là tiềm năng?

A. Độ phủ (Recall)
B. Độ chính xác tổng thể (Accuracy)
C. Độ chính xác (Precision)
D. F1-score

Câu 4: Trong quá trình tiền xử lý dữ liệu, khi một thuộc tính số có giá trị phân bố lệch phải (đa số giá trị nhỏ, một số ít giá trị rất lớn), phép biến đổi nào sau đây có thể giúp giảm độ lệch và làm cho phân phối dữ liệu gần với phân phối chuẩn hơn?

A. Chuẩn hóa Min-Max (Min-Max Scaling)
B. Biến đổi Logarit (Log Transformation)
C. Chuẩn hóa Z-score (Z-score Standardization)
D. Rời rạc hóa dữ liệu (Data Discretization)

Câu 5: Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm cho khách hàng. Dựa trên lịch sử mua hàng của khách hàng và thông tin về các sản phẩm, phương pháp khai thác dữ liệu nào sau đây phù hợp để tìm ra các sản phẩm thường được mua cùng nhau và gợi ý cho khách hàng?

A. Phân loại (Classification)
B. Phân cụm (Clustering)
C. Hồi quy (Regression)
D. Khai thác luật kết hợp (Association Rule Mining)

Câu 6: Trong mô hình hóa dữ liệu, kỹ thuật "one-hot encoding" thường được sử dụng để xử lý loại dữ liệu nào sau đây?

A. Dữ liệu số liên tục (Continuous numerical data)
B. Dữ liệu số rời rạc (Discrete numerical data)
C. Dữ liệu định tính (Categorical data)
D. Dữ liệu chuỗi thời gian (Time series data)

Câu 7: Khi xây dựng mô hình dự đoán rủi ro tín dụng, việc sử dụng tập dữ liệu huấn luyện chứa phần lớn các khoản vay không rủi ro và rất ít các khoản vay rủi ro có thể dẫn đến vấn đề gì?

A. Quá khớp (Overfitting) trên dữ liệu huấn luyện
B. Mô hình kém hiệu quả trong việc dự đoán các khoản vay rủi ro (lớp thiểu số)
C. Mô hình quá nhạy cảm với nhiễu trong dữ liệu
D. Mô hình yêu cầu thời gian huấn luyện quá dài

Câu 8: Trong phân tích chuỗi thời gian, phương pháp nào sau đây phù hợp để phân tách chuỗi thời gian thành các thành phần xu hướng, mùa vụ và phần dư?

A. Phân tách chuỗi thời gian (Time Series Decomposition)
B. Trung bình trượt (Moving Average)
C. San bằng mũ (Exponential Smoothing)
D. Mô hình ARIMA

Câu 9: Một công ty muốn phân tích phản hồi của khách hàng về sản phẩm từ các bài đánh giá trực tuyến. Kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) nào sau đây phù hợp để xác định xem mỗi đánh giá là tích cực, tiêu cực hay trung tính?

A. Tóm tắt văn bản (Text Summarization)
B. Dịch máy (Machine Translation)
C. Phân tích cảm xúc (Sentiment Analysis)
D. Nhận dạng thực thể có tên (Named Entity Recognition)

Câu 10: Trong kiểm định giả thuyết thống kê, khi chúng ta bác bỏ giả thuyếtNull (H0) mặc dù trên thực tế H0 là đúng, chúng ta mắc phải loại lỗi nào?

A. Lỗi Loại II (Type II error)
B. Lỗi Loại I (Type I error)
C. Sai số hệ thống (Systematic error)
D. Sai số ngẫu nhiên (Random error)

Câu 11: Để trực quan hóa mối quan hệ giữa hai biến số định lượng, loại biểu đồ nào sau đây thường được sử dụng?

A. Biểu đồ cột (Bar chart)
B. Biểu đồ tròn (Pie chart)
C. Biểu đồ hộp (Box plot)
D. Biểu đồ phân tán (Scatter plot)

Câu 12: Trong quá trình xây dựng mô hình học máy, kỹ thuật "k-fold cross-validation" được sử dụng để làm gì?

A. Tăng tốc độ huấn luyện mô hình
B. Giảm kích thước dữ liệu huấn luyện
C. Đánh giá hiệu năng của mô hình một cách khách quan trên dữ liệu chưa từng thấy
D. Chọn lọc đặc trưng (feature selection)

Câu 13: Một ngân hàng muốn phát hiện các giao dịch gian lận thẻ tín dụng. Với dữ liệu giao dịch thẻ tín dụng, trong đó phần lớn là giao dịch hợp lệ và một phần nhỏ là giao dịch gian lận, kỹ thuật phân loại nào sau đây thường được ưu tiên sử dụng do khả năng xử lý dữ liệu không cân bằng tốt hơn?

A. Hồi quy Logistic (Logistic Regression)
B. Cây quyết định (Decision Tree) hoặc Rừng ngẫu nhiên (Random Forest)
C. Máy vector hỗ trợ (Support Vector Machine - SVM)
D. K-Nearest Neighbors (KNN)

Câu 14: Trong ngữ cảnh Big Data, đặc tính "Variety" (đa dạng) đề cập đến khía cạnh nào của dữ liệu?

A. Sự đa dạng về loại và nguồn dữ liệu (ví dụ: văn bản, hình ảnh, video, dữ liệu cảm biến)
B. Khối lượng dữ liệu cực lớn
C. Tốc độ tạo ra và xử lý dữ liệu nhanh chóng
D. Tính xác thực và đáng tin cậy của dữ liệu

Câu 15: Khi so sánh hai thuật toán phân cụm khác nhau trên cùng một tập dữ liệu, tiêu chí đánh giá "Silhouette score" đo lường điều gì?

A. Độ chính xác của việc gán nhãn cụm so với nhãn gốc (nếu có)
B. Thời gian thực hiện thuật toán phân cụm
C. Mức độ một điểm dữ liệu tương tự với cụm của chính nó so với các cụm khác
D. Tổng khoảng cách vuông góc từ mỗi điểm đến tâm cụm gần nhất (Within-cluster sum of squares - WCSS)

Câu 16: Trong phân tích phương sai (ANOVA), mục đích chính của việc kiểm định F (F-test) là gì?

A. Kiểm định sự khác biệt giữa phương sai của hai mẫu
B. Kiểm định xem có sự khác biệt đáng kể về trung bình giữa các nhóm hay không
C. Đo lường mức độ tương quan tuyến tính giữa các biến
D. Xác định phân phối xác suất phù hợp cho dữ liệu

Câu 17: Để xử lý dữ liệu bị thiếu trong một cột số, phương pháp "imputation" (ước tính giá trị thiếu) nào sau đây có thể tạo ra giá trị ước tính dựa trên phân phối của dữ liệu trong cột đó?

A. Xóa bỏ các hàng chứa giá trị thiếu (Listwise deletion)
B. Ước tính bằng giá trị trung bình (Mean imputation)
C. Ước tính bằng giá trị trung vị (Median imputation)
D. Ước tính ngẫu nhiên từ phân phối (Stochastic imputation)

Câu 18: Trong mô hình hồi quy tuyến tính bội (Multiple Linear Regression), hệ số hồi quy (regression coefficient) của một biến độc lập (independent variable) thể hiện điều gì?

A. Mức độ tương quan giữa biến độc lập và biến phụ thuộc
B. Giá trị dự đoán của biến phụ thuộc khi biến độc lập bằng 0
C. Mức thay đổi trung bình của biến phụ thuộc khi biến độc lập tăng lên một đơn vị, giữ các biến độc lập khác không đổi
D. Độ mạnh của toàn bộ mô hình hồi quy

Câu 19: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời mạng (churn). Biến mục tiêu trong bài toán này thuộc loại dữ liệu nào?

A. Dữ liệu số liên tục (Continuous numerical data)
B. Dữ liệu nhị phân (Binary data)
C. Dữ liệu thứ bậc (Ordinal data)
D. Dữ liệu định danh (Nominal data)

Câu 20: Để giảm số chiều dữ liệu (dimensionality reduction) trong một tập dữ liệu có nhiều thuộc tính tương quan cao, phương pháp nào sau đây có thể được sử dụng để tạo ra một tập hợp các biến mới (thành phần chính) là tổ hợp tuyến tính của các biến gốc và giữ lại phần lớn phương sai của dữ liệu?

A. Phân tích thành phần chính (Principal Component Analysis - PCA)
B. Lựa chọn đặc trưng (Feature Selection)
C. Rời rạc hóa dữ liệu (Data Discretization)
D. Chuẩn hóa dữ liệu (Data Normalization)

Câu 21: Trong mô hình cây quyết định, tiêu chí "Gini impurity" được sử dụng để làm gì?

A. Đo lường độ phức tạp của cây quyết định
B. Đánh giá hiệu năng của mô hình cây quyết định
C. Đo lường mức độ "hỗn tạp" của các lớp trong một nút và lựa chọn thuộc tính phân chia tốt nhất
D. Kiểm soát sự phát triển quá sâu của cây quyết định (pruning)

Câu 22: Khi xây dựng mô hình dự đoán giá nhà, thước đo đánh giá nào sau đây phù hợp nhất để đo lường sai số trung bình của các dự đoán so với giá trị thực tế và ít bị ảnh hưởng bởi các giá trị ngoại lệ?

A. Sai số bình phương trung bình (Mean Squared Error - MSE)
B. Sai số tuyệt đối trung bình (Mean Absolute Error - MAE)
C. Căn bậc hai của sai số bình phương trung bình (Root Mean Squared Error - RMSE)
D. Hệ số xác định (R-squared)

Câu 23: Trong phân tích luật kết hợp, độ đo "Lift" lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục?

A. Hai tập mục ít khi xuất hiện cùng nhau
B. Hai tập mục thay thế cho nhau
C. Hai tập mục độc lập với nhau
D. Hai tập mục có xu hướng xuất hiện cùng nhau thường xuyên hơn so với mong đợi nếu chúng độc lập

Câu 24: Để chuẩn hóa dữ liệu số về khoảng giá trị từ 0 đến 1, phương pháp chuẩn hóa nào sau đây thường được sử dụng?

A. Chuẩn hóa Z-score (Z-score Standardization)
B. Biến đổi Logarit (Log Transformation)
C. Chuẩn hóa Min-Max (Min-Max Scaling)
D. Rời rạc hóa dữ liệu (Data Discretization)

Câu 25: Trong mô hình hóa dữ liệu, hiện tượng "multicollinearity" (đa cộng tuyến) xảy ra khi nào?

A. Khi có sự tương quan cao giữa các biến độc lập trong mô hình hồi quy
B. Khi mô hình quá khớp (overfitting) trên dữ liệu huấn luyện
C. Khi dữ liệu có nhiều giá trị ngoại lệ
D. Khi biến mục tiêu có phân phối không chuẩn

Câu 26: Để xác định số cụm tối ưu trong thuật toán K-means, phương pháp "elbow method" dựa trên việc quan sát sự thay đổi của đại lượng nào theo số lượng cụm (k)?

A. Silhouette score
B. Tổng khoảng cách vuông góc từ mỗi điểm đến tâm cụm gần nhất (Within-cluster sum of squares - WCSS)
C. Thời gian thực hiện thuật toán
D. Độ chính xác của mô hình

Câu 27: Trong phân tích thời gian sống (survival analysis), hàm Kaplan-Meier được sử dụng để ước tính đại lượng nào?

A. Tỷ lệ rủi ro tức thời (Hazard ratio)
B. Thời gian sống trung bình
C. Hàm sống sót (Survival function)
D. Thời gian trung vị sống sót

Câu 28: Trong kiến trúc mạng nơ-ron, hàm kích hoạt (activation function) ReLU (Rectified Linear Unit) có đặc điểm gì nổi bật so với hàm sigmoid hoặc tanh?

A. Luôn cho ra giá trị đầu ra trong khoảng [0, 1]
B. Là hàm phi tuyến khả vi trên toàn miền xác định
C. Giúp mạng nơ-ron học được các quan hệ phi tuyến phức tạp tốt hơn
D. Giảm thiểu vấn đề vanishing gradient (mất mát đạo hàm) trong quá trình huấn luyện mạng sâu

Câu 29: Để xử lý dữ liệu văn bản trong NLP, kỹ thuật "TF-IDF" (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?

A. Phân tích cảm xúc của văn bản
B. Tính toán trọng số của từ trong một tài liệu dựa trên tần suất xuất hiện của từ đó trong tài liệu và tần suất xuất hiện của từ đó trong toàn bộ tập tài liệu
C. Tóm tắt nội dung chính của văn bản
D. Phân loại văn bản vào các chủ đề khác nhau

Câu 30: Một công ty muốn xây dựng mô hình dự đoán nhu cầu sản phẩm theo từng khu vực địa lý. Phương pháp phân tích không gian (spatial analysis) nào sau đây có thể giúp xác định các khu vực có nhu cầu tương đồng và nhóm chúng lại với nhau?

A. Hồi quy không gian (Spatial Regression)
B. Tự tương quan không gian (Spatial Autocorrelation)
C. Phân cụm không gian (Spatial Clustering)
D. Nội suy không gian (Spatial Interpolation)

1 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 1: Trong bối cảnh kinh doanh, một công ty muốn phân khúc khách hàng dựa trên hành vi mua sắm trực tuyến của họ để cá nhân hóa chiến dịch marketing. Phương pháp phân tích dữ liệu nào sau đây là phù hợp nhất?

Phân tích hồi quy (Regression analysis)

Phân tích gom cụm (Cluster analysis)

Phân tích chuỗi thời gian (Time series analysis)

Phân tích phân loại (Classification analysis)

2 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 2: Một nhà bán lẻ trực tuyến sử dụng thuật toán K-means để phân khúc khách hàng. Để đánh giá chất lượng phân cụm, chỉ số nào sau đây đo lường mức độ tương đồng của các khách hàng trong cùng một cụm và sự khác biệt giữa các cụm một cách tổng quát?

Độ chính xác (Accuracy)

F1-score

Chỉ số Silhouette (Silhouette score)

Độ thu hồi (Recall)

3 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 3: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời bỏ dịch vụ (churn). Họ có dữ liệu lịch sử về thông tin khách hàng và trạng thái rời mạng (churned/not churned). Phương pháp học máy nào sau đây phù hợp nhất để xây dựng mô hình dự đoán?

Hồi quy tuyến tính (Linear Regression)

Phân tích thành phần chính (Principal Component Analysis)

Thuật toán K-Means

Cây quyết định (Decision Tree)

4 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 4: Trong quá trình tiền xử lý dữ liệu cho bài toán dự đoán giá nhà, thuộc tính 'Diện tích' (đơn vị mét vuông) có giá trị từ 30 đến 500. Để giảm thiểu ảnh hưởng của sự khác biệt về tỷ lệ giữa các thuộc tính và giúp thuật toán học máy hội tụ nhanh hơn, kỹ thuật nào sau đây nên được áp dụng?

Chuẩn hóa Min-Max Scaling (Min-Max Scaling)

Mã hóa biến giả (One-Hot Encoding)

Rời rạc hóa dữ liệu (Data Discretization)

Xử lý giá trị ngoại lai (Outlier Handling)

5 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 5: Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm cho khách hàng. Dữ liệu giao dịch của khách hàng (sản phẩm đã mua cùng nhau) là đầu vào chính. Kỹ thuật khai thác dữ liệu nào sau đây phù hợp để khám phá các mối quan hệ mua hàng này?

Phân tích chuỗi thời gian (Time series analysis)

Khai thác luật kết hợp (Association rule mining)

Phân tích hồi quy (Regression analysis)

Phân tích phân cụm (Cluster analysis)

6 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 6: Khi đánh giá mô hình phân loại, ma trận nhầm lẫn (confusion matrix) cung cấp thông tin chi tiết về hiệu suất. Giá trị ở vị trí 'True Positive' (TP) trong ma trận nhầm lẫn thể hiện điều gì?

Số lượng trường hợp thực tế là lớp âm tính nhưng mô hình dự đoán là lớp dương tính.

Số lượng trường hợp mô hình dự đoán sai.

Số lượng trường hợp thực tế là lớp dương tính và mô hình dự đoán đúng là lớp dương tính.

Tổng số trường hợp trong tập dữ liệu kiểm thử.

7 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 7: Trong phân tích chuỗi thời gian, phương pháp 'Trung bình trượt' (Moving Average) được sử dụng để làm gì?

Làm mịn dữ liệu chuỗi thời gian và xác định xu hướng.

Phân tích mối quan hệ giữa các biến số.

Phân loại dữ liệu thành các nhóm khác nhau.

Dự đoán giá trị tương lai dựa trên các yếu tố bên ngoài.

8 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 8: Kiểu dữ liệu nào sau đây phù hợp nhất để biểu diễn 'Mức độ hài lòng của khách hàng' được thu thập qua khảo sát với các lựa chọn: 'Rất không hài lòng', 'Không hài lòng', 'Trung bình', 'Hài lòng', 'Rất hài lòng'?

Dữ liệu định danh (Nominal)

Dữ liệu số liên tục (Continuous Numerical)

Dữ liệu số rời rạc (Discrete Numerical)

Dữ liệu thứ bậc (Ordinal)

9 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 9: Trong quá trình xây dựng mô hình học máy, hiện tượng 'overfitting' xảy ra khi nào?

Mô hình quá đơn giản và không nắm bắt được cấu trúc dữ liệu.

Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu kiểm thử.

Dữ liệu huấn luyện không đủ lớn để mô hình học hiệu quả.

Mô hình không được đánh giá đúng cách.

10 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 10: Để giảm thiểu rủi ro overfitting và đánh giá khách quan hiệu suất của mô hình học máy, phương pháp đánh giá nào sau đây thường được sử dụng?

Sử dụng toàn bộ dữ liệu để huấn luyện và đánh giá mô hình.

Chia dữ liệu thành tập huấn luyện và tập kiểm thử một lần duy nhất.

Đánh giá chéo K-lần (K-fold cross-validation).

Chỉ đánh giá mô hình trên tập dữ liệu huấn luyện.

11 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 11: Trong bối cảnh Big Data, đặc điểm 'Variety' (Đa dạng) đề cập đến khía cạnh nào của dữ liệu?

Lượng dữ liệu khổng lồ được tạo ra.

Sự đa dạng về loại và nguồn dữ liệu (ví dụ: văn bản, hình ảnh, video).

Tốc độ dữ liệu được tạo ra và xử lý.

Độ tin cậy và tính xác thực của dữ liệu.

12 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 12: Một công ty muốn phân tích dữ liệu bán hàng theo thời gian để dự báo doanh số cho quý tới. Phương pháp phân tích nào sau đây là phù hợp?

Phân tích hồi quy đa biến (Multiple Regression)

Phân tích gom cụm (Cluster analysis)

Phân tích luật kết hợp (Association rule mining)

Phân tích chuỗi thời gian (Time series analysis)

13 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 13: Trong quá trình khám phá dữ liệu (data exploration), biểu đồ nào sau đây thích hợp nhất để trực quan hóa phân phối của một biến số định lượng duy nhất?

Biểu đồ Histogram (Histogram)

Biểu đồ Scatter (Scatter plot)

Biểu đồ Bar (Bar chart)

Biểu đồ Pie (Pie chart)

14 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 14: Thuật toán học máy nào sau đây hoạt động tốt nhất với dữ liệu phi tuyến tính và có thể tìm ra các ranh giới quyết định phức tạp trong bài toán phân loại?

Hồi quy Logistic (Logistic Regression)

Máy vectơ hỗ trợ (Support Vector Machine - SVM) với kernel RBF

Hồi quy tuyến tính (Linear Regression)

Naive Bayes

15 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 15: Trong quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining), giai đoạn 'Data Understanding' (Hiểu dữ liệu) tập trung vào hoạt động nào?

Xây dựng mô hình học máy.

Đánh giá hiệu suất mô hình.

Triển khai mô hình vào thực tế.

Thu thập dữ liệu ban đầu và khám phá dữ liệu để hiểu rõ về nó.

16 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 16: Một nhà quản lý muốn biết mối quan hệ giữa chi phí quảng cáo và doanh thu bán hàng. Phương pháp phân tích nào sau đây phù hợp để xác định và đo lường mối quan hệ này?

Phân tích hồi quy (Regression analysis)

Phân tích gom cụm (Cluster analysis)

Phân tích luật kết hợp (Association rule mining)

Phân tích chuỗi thời gian (Time series analysis)

17 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 17: Để xử lý dữ liệu bị thiếu (missing values) trong một cột số, phương pháp 'điền giá trị trung bình' (mean imputation) thực hiện điều gì?

Xóa bỏ các hàng chứa giá trị thiếu.

Thay thế các giá trị thiếu bằng giá trị trung bình của cột đó.

Thay thế các giá trị thiếu bằng giá trị 0.

Giữ nguyên các giá trị thiếu và không xử lý.

18 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 18: Trong bối cảnh kinh doanh, việc sử dụng khoa học dữ liệu có thể mang lại lợi ích nào sau đây?

Giảm chi phí hoạt động.

Cải thiện trải nghiệm khách hàng.

Đưa ra quyết định kinh doanh dựa trên dữ liệu.

Tất cả các đáp án trên.

19 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 19: Trong thuật toán cây quyết định (Decision Tree), tiêu chí 'Gini impurity' được sử dụng để làm gì?

Đo lường độ chính xác của mô hình.

Xác định độ sâu tối ưu của cây.

Chọn thuộc tính tốt nhất để phân chia nút và giảm sự không thuần khiết của các nút con.

Ngăn chặn overfitting trong quá trình xây dựng cây.

20 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 20: Để xây dựng một mô hình dự đoán giá cổ phiếu, dữ liệu nào sau đây có thể được sử dụng làm thuộc tính đầu vào?

Giá cổ phiếu trong quá khứ.

Khối lượng giao dịch cổ phiếu.

Chỉ số thị trường chứng khoán (ví dụ: VN-Index).

Tất cả các đáp án trên.

21 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 21: Trong phân tích văn bản (text mining) ứng dụng trong kinh doanh, kỹ thuật 'phân tích tình cảm' (sentiment analysis) nhằm mục đích gì?

Phân loại văn bản theo chủ đề.

Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) được thể hiện trong văn bản.

Tóm tắt nội dung chính của văn bản.

Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.

22 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 22: Khi triển khai mô hình học máy vào thực tế kinh doanh, thách thức nào sau đây có thể phát sinh?

Khả năng diễn giải kết quả mô hình cho người dùng kinh doanh.

Đảm bảo mô hình duy trì hiệu suất tốt theo thời gian khi dữ liệu thay đổi.

Tích hợp mô hình vào hệ thống và quy trình kinh doanh hiện có.

Tất cả các đáp án trên.

23 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 23: Trong ngữ cảnh đạo đức khoa học dữ liệu, 'bias' (thiên vị) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì?

Mô hình hoạt động kém hiệu quả trên dữ liệu mới.

Mô hình trở nên quá phức tạp và khó hiểu.

Mô hình đưa ra quyết định phân biệt đối xử hoặc không công bằng đối với một số nhóm người.

Quá trình huấn luyện mô hình mất nhiều thời gian hơn.

24 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 24: Công cụ nào sau đây thường được sử dụng để quản lý và xử lý dữ liệu lớn (Big Data) trong môi trường phân tán?

Apache Hadoop và Spark

Microsoft Excel

SPSS Statistics

Tableau Desktop

25 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 25: Trong quá trình feature selection (lựa chọn thuộc tính), phương pháp 'Recursive Feature Elimination' (RFE) hoạt động như thế nào?

Chọn các thuộc tính có tương quan cao nhất với biến mục tiêu.

Loại bỏ lặp đi lặp lại các thuộc tính ít quan trọng nhất dựa trên hiệu suất mô hình.

Thêm dần các thuộc tính cho đến khi hiệu suất mô hình không còn cải thiện.

Phân tích tầm quan trọng của thuộc tính dựa trên chuyên gia miền.

26 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 26: Để đánh giá hiệu quả của chiến dịch marketing mới, doanh nghiệp thực hiện A/B testing. Chỉ số nào sau đây thường được sử dụng để so sánh hiệu suất giữa nhóm thử nghiệm (B) và nhóm kiểm soát (A)?

Độ chính xác (Accuracy)

Độ thu hồi (Recall)

Tỷ lệ chuyển đổi (Conversion rate)

F1-score

27 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 27: Trong lĩnh vực tài chính, phát hiện gian lận thẻ tín dụng là một ứng dụng quan trọng của khoa học dữ liệu. Loại bài toán học máy nào phù hợp cho ứng dụng này?

Phân tích hồi quy (Regression)

Phân tích gom cụm (Clustering)

Giảm chiều dữ liệu (Dimensionality reduction)

Phân loại (Classification)

28 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 28: Để đảm bảo tính minh bạch và giải thích được của mô hình học máy, đặc biệt trong các ứng dụng nhạy cảm như cho vay tín dụng, phương pháp nào sau đây được ưu tiên?

Mạng nơ-ron sâu (Deep Neural Networks)

Mô hình tuyến tính (Linear Models) và Cây quyết định (Decision Trees)

Máy vectơ hỗ trợ (Support Vector Machines - SVM)

Thuật toán K-Nearest Neighbors (KNN)

29 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 29: Trong kiến trúc dữ liệu hiện đại cho doanh nghiệp, 'data lake' (hồ dữ liệu) được sử dụng để làm gì?

Lưu trữ dữ liệu thô, đa dạng (cấu trúc, bán cấu trúc, phi cấu trúc) ở định dạng gốc.

Lưu trữ dữ liệu đã được làm sạch và biến đổi để phân tích cụ thể.

Quản lý dữ liệu giao dịch theo thời gian thực.

Thay thế hoàn toàn cho data warehouse (kho dữ liệu).

30 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 7

Câu 30: Yếu tố nào sau đây là quan trọng nhất để đảm bảo thành công của một dự án khoa học dữ liệu trong doanh nghiệp?

Sử dụng các thuật toán học máy phức tạp nhất.

Có đủ dữ liệu lớn.

Sử dụng công nghệ mới nhất.

Hiểu rõ bài toán kinh doanh, có dữ liệu chất lượng và đội ngũ có kỹ năng phù hợp.

Xem kết quả

By Wordpress Quiz plugin

Bài Tập, Đề Thi Trắc Nghiệm Online – Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh – Đề 07

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Đề trắc nghiệm liên quan:

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha