Bài Tập, Đề Thi Trắc Nghiệm Online – Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh – Đề 03

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 03

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh - Đề 03 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.

Câu 1: Trong phân tích dữ liệu kinh doanh, khi nào việc sử dụng kỹ thuật "lấy mẫu ngẫu nhiên" (random sampling) trở nên đặc biệt quan trọng?

  • A. Khi dữ liệu có cấu trúc rõ ràng và dễ dàng truy cập.
  • B. Khi kích thước tập dữ liệu quá lớn, vượt quá khả năng xử lý hoặc phân tích toàn bộ.
  • C. Khi cần đảm bảo tính chính xác tuyệt đối của kết quả phân tích, không chấp nhận sai số.
  • D. Khi muốn tập trung vào một nhóm nhỏ cụ thể trong tổng thể dữ liệu.

Câu 2: Một công ty thương mại điện tử muốn dự đoán khả năng khách hàng hủy đơn hàng sau khi đặt. Phương pháp học máy nào sau đây là phù hợp nhất để giải quyết bài toán này?

  • A. Phân loại (Classification)
  • B. Hồi quy (Regression)
  • C. Phân cụm (Clustering)
  • D. Giảm chiều dữ liệu (Dimensionality Reduction)

Câu 3: Trong mô hình hồi quy tuyến tính đa biến để dự đoán doanh số bán hàng, hệ số hồi quy (regression coefficient) của biến "chi phí quảng cáo" là 0.75. Ý nghĩa của hệ số này là gì?

  • A. Doanh số bán hàng sẽ tăng 0.75% khi chi phí quảng cáo tăng 1%.
  • B. Chi phí quảng cáo chiếm 75% trong tổng doanh số bán hàng.
  • C. Khi chi phí quảng cáo tăng thêm 1 đơn vị, doanh số bán hàng dự kiến sẽ tăng thêm 0.75 đơn vị, với điều kiện các yếu tố khác không đổi.
  • D. Mức độ phù hợp của mô hình hồi quy là 75%.

Câu 4: Để đánh giá hiệu quả của một mô hình phân loại khách hàng thành "khách hàng tiềm năng" và "khách hàng không tiềm năng", chỉ số F1-score được ưu tiên sử dụng hơn Accuracy trong trường hợp nào?

  • A. Khi số lượng khách hàng tiềm năng và không tiềm năng trong dữ liệu là tương đương nhau.
  • B. Khi mục tiêu chính là giảm thiểu số lượng khách hàng tiềm năng bị bỏ sót (false negatives).
  • C. Khi mô hình phân loại đạt độ chính xác (Accuracy) rất cao.
  • D. Khi tập dữ liệu có sự mất cân bằng lớn giữa số lượng khách hàng tiềm năng và khách hàng không tiềm năng.

Câu 5: Trong quá trình tiền xử lý dữ liệu, kỹ thuật "chuẩn hóa dữ liệu" (data normalization) thường được áp dụng để giải quyết vấn đề gì?

  • A. Loại bỏ các giá trị ngoại lệ (outliers) trong dữ liệu.
  • B. Đưa các biến số về cùng một thang đo, giúp các thuật toán học máy hoạt động hiệu quả hơn.
  • C. Xử lý các giá trị thiếu (missing values) trong dữ liệu.
  • D. Giảm số chiều của dữ liệu để đơn giản hóa mô hình.

Câu 6: Một chuỗi siêu thị muốn phân tích hành vi mua sắm của khách hàng để tối ưu hóa vị trí đặt sản phẩm trên kệ hàng. Kỹ thuật khai thác dữ liệu nào sau đây phù hợp nhất?

  • A. Phân tích hồi quy (Regression Analysis)
  • B. Phân tích chuỗi thời gian (Time Series Analysis)
  • C. Phân tích luật kết hợp (Association Rule Mining)
  • D. Phân tích thành phần chính (Principal Component Analysis)

Câu 7: Biểu đồ hộp (boxplot) thường được sử dụng trong phân tích thống kê mô tả để:

  • A. Thể hiện xu hướng biến động của dữ liệu theo thời gian.
  • B. Mô tả phân bố của dữ liệu, xác định các giá trị phân vị, trung vị và giá trị ngoại lệ.
  • C. So sánh giá trị trung bình của nhiều nhóm dữ liệu khác nhau.
  • D. Thể hiện mối quan hệ tương quan giữa hai biến số.

Câu 8: Trong quá trình xây dựng mô hình học máy, việc "chia tập dữ liệu thành tập huấn luyện và tập kiểm thử" (train-test split) nhằm mục đích chính là gì?

  • A. Tăng kích thước tập dữ liệu để mô hình học tốt hơn.
  • B. Giảm thời gian huấn luyện mô hình.
  • C. Đánh giá khả năng tổng quát hóa của mô hình trên dữ liệu mới, không phải dữ liệu đã được huấn luyện.
  • D. Chọn ra thuật toán học máy tốt nhất cho bài toán.

Câu 9: Thuật toán K-means Clustering được sử dụng để:

  • A. Phân nhóm dữ liệu thành các cụm dựa trên sự tương đồng giữa các đối tượng.
  • B. Dự đoán giá trị của một biến số phụ thuộc dựa trên các biến số độc lập.
  • C. Phân loại dữ liệu vào các lớp đã được xác định trước.
  • D. Giảm số chiều của dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất.

Câu 10: Trong phân tích chuỗi thời gian, phương pháp "trung bình trượt" (moving average) được sử dụng để:

  • A. Dự đoán giá trị tương lai của chuỗi thời gian.
  • B. Xác định tính mùa vụ (seasonality) trong chuỗi thời gian.
  • C. Phân tích mối tương quan giữa các chuỗi thời gian khác nhau.
  • D. Làm mịn chuỗi thời gian, giảm nhiễu và làm nổi bật xu hướng chung.

Câu 11: Khi dữ liệu chứa các giá trị ngoại lệ (outliers) có ảnh hưởng lớn đến kết quả phân tích, biện pháp nào sau đây thường được ưu tiên áp dụng?

  • A. Sử dụng các thuật toán học máy không nhạy cảm với ngoại lệ như cây quyết định.
  • B. Áp dụng các phương pháp thống kê robust hoặc tiền xử lý dữ liệu để giảm ảnh hưởng của ngoại lệ.
  • C. Tăng kích thước tập dữ liệu để làm loãng ảnh hưởng của ngoại lệ.
  • D. Bỏ qua hoàn toàn các giá trị ngoại lệ và chỉ phân tích dữ liệu còn lại.

Câu 12: Trong quá trình trực quan hóa dữ liệu, loại biểu đồ nào phù hợp nhất để so sánh tỷ lệ phần trăm của các phần trong một tổng thể?

  • A. Biểu đồ đường (line chart)
  • B. Biểu đồ cột (bar chart)
  • C. Biểu đồ tròn (pie chart)
  • D. Biểu đồ phân tán (scatter plot)

Câu 13: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời mạng (churn). Họ sử dụng mô hình Logistic Regression và thu được ngưỡng phân loại (classification threshold) mặc định là 0.5. Điều gì xảy ra nếu họ giảm ngưỡng này xuống 0.3?

  • A. Độ chính xác (Accuracy) của mô hình sẽ tăng lên.
  • B. Tỷ lệ khách hàng được dự đoán là rời mạng (Recall) sẽ tăng lên, nhưng có thể làm giảm độ chính xác dương tính (Precision).
  • C. Mô hình sẽ trở nên cân bằng hơn giữa Precision và Recall.
  • D. Không có sự thay đổi đáng kể nào vì ngưỡng 0.5 là tối ưu.

Câu 14: Trong phân tích dữ liệu lớn (Big Data), đặc điểm "Velocity" đề cập đến yếu tố nào?

  • A. Độ lớn của tập dữ liệu.
  • B. Sự đa dạng của các loại dữ liệu.
  • C. Tính xác thực và đáng tin cậy của dữ liệu.
  • D. Tốc độ dữ liệu được tạo ra và cần được xử lý.

Câu 15: Trong việc xây dựng kho dữ liệu (data warehouse) cho doanh nghiệp, mô hình "ngôi sao" (star schema) được sử dụng để:

  • A. Tối ưu hóa hiệu suất truy vấn và báo cáo dữ liệu.
  • B. Đảm bảo tính toàn vẹn và nhất quán của dữ liệu.
  • C. Giảm dung lượng lưu trữ dữ liệu.
  • D. Đơn giản hóa quá trình thu thập và tích hợp dữ liệu.

Câu 16: Phương pháp "phân tích thành phần chính" (Principal Component Analysis - PCA) được sử dụng trong khoa học dữ liệu với mục đích chính là:

  • A. Phân loại dữ liệu vào các nhóm khác nhau.
  • B. Giảm số chiều của dữ liệu bằng cách tìm ra các thành phần chính, giữ lại thông tin quan trọng nhất.
  • C. Dự đoán giá trị tương lai của một biến số.
  • D. Tìm ra các quy luật kết hợp giữa các biến số.

Câu 17: Trong kiểm định giả thuyết thống kê, "giá trị p" (p-value) thể hiện điều gì?

  • A. Xác suất giả thuyết null là đúng.
  • B. Mức độ ý nghĩa thống kê của kết quả.
  • C. Xác suất quan sát được kết quả thống kê mẫu (hoặc cực đoan hơn) nếu giả thuyết null là đúng.
  • D. Sai số loại I (Type I error) trong kiểm định giả thuyết.

Câu 18: Một ngân hàng sử dụng mô hình học máy để phát hiện giao dịch gian lận. Điều gì quan trọng nhất cần cân nhắc khi triển khai mô hình này trong thực tế?

  • A. Độ chính xác (Accuracy) của mô hình phải đạt mức cao nhất có thể.
  • B. Mô hình phải được huấn luyện trên lượng dữ liệu lớn nhất có thể.
  • C. Tốc độ dự đoán của mô hình phải nhanh nhất có thể.
  • D. Tính minh bạch, khả năng giải thích của mô hình và các vấn đề đạo đức liên quan đến quyết định tự động.

Câu 19: Trong ngôn ngữ Python, thư viện nào sau đây được sử dụng phổ biến nhất cho việc phân tích và thao tác dữ liệu dạng bảng?

  • A. Scikit-learn
  • B. Pandas
  • C. Matplotlib
  • D. Numpy

Câu 20: Để xây dựng một hệ thống khuyến nghị sản phẩm cho khách hàng dựa trên lịch sử mua hàng, phương pháp nào sau đây thường được sử dụng?

  • A. Phân tích hồi quy tuyến tính (Linear Regression)
  • B. Phân tích cụm K-means (K-means Clustering)
  • C. Lọc cộng tác (Collaborative Filtering)
  • D. Cây quyết định (Decision Tree)

Câu 21: Trong quá trình làm sạch dữ liệu, việc xử lý các giá trị thiếu (missing values) bằng cách "điền giá trị trung bình" (mean imputation) có thể gây ra vấn đề gì?

  • A. Làm giảm phương sai của dữ liệu và tạo ra sự sai lệch trong phân phối.
  • B. Tăng số lượng giá trị ngoại lệ trong dữ liệu.
  • C. Làm mất đi thông tin quan trọng về sự phân bố của dữ liệu.
  • D. Không ảnh hưởng đáng kể đến chất lượng phân tích dữ liệu.

Câu 22: Trong lĩnh vực Marketing, phân tích RFM (Recency, Frequency, Monetary) được sử dụng để:

  • A. Dự đoán doanh số bán hàng trong tương lai.
  • B. Phân khúc khách hàng dựa trên hành vi mua sắm gần đây, tần suất mua hàng và giá trị đơn hàng.
  • C. Đánh giá hiệu quả của các chiến dịch quảng cáo.
  • D. Xác định xu hướng thị trường và nhu cầu của khách hàng.

Câu 23: Khi nào thì việc sử dụng mô hình "mạng nơ-ron sâu" (deep neural network) trở nên thực sự cần thiết và hiệu quả hơn so với các mô hình học máy truyền thống?

  • A. Khi dữ liệu có kích thước nhỏ và cấu trúc đơn giản.
  • B. Khi cần mô hình dễ giải thích và diễn giải kết quả.
  • C. Khi dữ liệu có kích thước rất lớn và có cấu trúc phức tạp, phi tuyến.
  • D. Khi yêu cầu thời gian huấn luyện mô hình phải nhanh chóng.

Câu 24: Trong phân tích văn bản (text analysis), kỹ thuật "TF-IDF" (Term Frequency-Inverse Document Frequency) được sử dụng để:

  • A. Phân loại văn bản vào các chủ đề khác nhau.
  • B. Tìm kiếm các văn bản tương tự nhau.
  • C. Tóm tắt nội dung chính của văn bản.
  • D. Đánh trọng số của từ trong một văn bản, phản ánh mức độ quan trọng của từ đó trong văn bản và trong toàn bộ tập văn bản.

Câu 25: Một công ty muốn xây dựng mô hình dự báo nhu cầu điện tiêu thụ hàng ngày dựa trên dữ liệu thời tiết và lịch sử tiêu thụ. Loại mô hình nào sau đây phù hợp nhất?

  • A. Mô hình phân cụm K-means (K-means Clustering)
  • B. Mô hình ARIMA (Autoregressive Integrated Moving Average)
  • C. Mô hình hồi quy Logistic (Logistic Regression)
  • D. Mô hình cây quyết định (Decision Tree)

Câu 26: Trong kiểm thử A/B testing để so sánh hiệu quả của hai phiên bản website, kích thước mẫu (sample size) cần được xác định dựa trên yếu tố nào?

  • A. Tổng số lượng truy cập website hàng ngày.
  • B. Ngân sách dành cho chiến dịch A/B testing.
  • C. Độ lớn hiệu ứng mong muốn phát hiện và độ biến động của dữ liệu.
  • D. Thời gian thực hiện kiểm thử A/B.

Câu 27: Đâu là một thách thức đạo đức chính trong việc sử dụng khoa học dữ liệu trong kinh doanh?

  • A. Nguy cơ tạo ra và khuếch đại sự thiên vị (bias) trong thuật toán và quyết định tự động.
  • B. Chi phí đầu tư ban đầu cho hạ tầng và nhân lực khoa học dữ liệu.
  • C. Sự phức tạp trong việc giải thích kết quả phân tích dữ liệu cho người không chuyên.
  • D. Khó khăn trong việc thu thập dữ liệu chất lượng cao và đầy đủ.

Câu 28: Trong môi trường kinh doanh, "Business Intelligence (BI)" chủ yếu tập trung vào việc:

  • A. Xây dựng các mô hình dự đoán phức tạp để dự báo tương lai.
  • B. Cung cấp thông tin tổng quan và chi tiết về hiệu suất kinh doanh hiện tại và quá khứ để hỗ trợ ra quyết định.
  • C. Tự động hóa hoàn toàn các quy trình ra quyết định dựa trên dữ liệu.
  • D. Phân tích dữ liệu phi cấu trúc từ mạng xã hội và internet.

Câu 29: Để đánh giá mô hình phân cụm, chỉ số "Silhouette score" được sử dụng để đo lường điều gì?

  • A. Độ chính xác của việc phân cụm so với nhãn gốc (nếu có).
  • B. Tốc độ thực hiện thuật toán phân cụm.
  • C. Độ gắn kết của các điểm dữ liệu trong cùng một cụm và độ tách biệt giữa các cụm khác nhau.
  • D. Số lượng cụm tối ưu được tạo ra bởi thuật toán.

Câu 30: Trong quá trình triển khai một dự án khoa học dữ liệu, giai đoạn nào thường chiếm phần lớn thời gian và nguồn lực nhất?

  • A. Xây dựng và lựa chọn mô hình học máy.
  • B. Đánh giá và tinh chỉnh mô hình.
  • C. Trực quan hóa và báo cáo kết quả.
  • D. Thu thập, làm sạch và tiền xử lý dữ liệu.

1 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 1: Trong phân tích dữ liệu kinh doanh, khi nào việc sử dụng kỹ thuật 'lấy mẫu ngẫu nhiên' (random sampling) trở nên đặc biệt quan trọng?

2 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 2: Một công ty thương mại điện tử muốn dự đoán khả năng khách hàng hủy đơn hàng sau khi đặt. Phương pháp học máy nào sau đây là phù hợp nhất để giải quyết bài toán này?

3 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 3: Trong mô hình hồi quy tuyến tính đa biến để dự đoán doanh số bán hàng, hệ số hồi quy (regression coefficient) của biến 'chi phí quảng cáo' là 0.75. Ý nghĩa của hệ số này là gì?

4 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 4: Để đánh giá hiệu quả của một mô hình phân loại khách hàng thành 'khách hàng tiềm năng' và 'khách hàng không tiềm năng', chỉ số F1-score được ưu tiên sử dụng hơn Accuracy trong trường hợp nào?

5 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 5: Trong quá trình tiền xử lý dữ liệu, kỹ thuật 'chuẩn hóa dữ liệu' (data normalization) thường được áp dụng để giải quyết vấn đề gì?

6 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 6: Một chuỗi siêu thị muốn phân tích hành vi mua sắm của khách hàng để tối ưu hóa vị trí đặt sản phẩm trên kệ hàng. Kỹ thuật khai thác dữ liệu nào sau đây phù hợp nhất?

7 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 7: Biểu đồ hộp (boxplot) thường được sử dụng trong phân tích thống kê mô tả để:

8 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 8: Trong quá trình xây dựng mô hình học máy, việc 'chia tập dữ liệu thành tập huấn luyện và tập kiểm thử' (train-test split) nhằm mục đích chính là gì?

9 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 9: Thuật toán K-means Clustering được sử dụng để:

10 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 10: Trong phân tích chuỗi thời gian, phương pháp 'trung bình trượt' (moving average) được sử dụng để:

11 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 11: Khi dữ liệu chứa các giá trị ngoại lệ (outliers) có ảnh hưởng lớn đến kết quả phân tích, biện pháp nào sau đây thường được ưu tiên áp dụng?

12 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 12: Trong quá trình trực quan hóa dữ liệu, loại biểu đồ nào phù hợp nhất để so sánh tỷ lệ phần trăm của các phần trong một tổng thể?

13 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 13: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời mạng (churn). Họ sử dụng mô hình Logistic Regression và thu được ngưỡng phân loại (classification threshold) mặc định là 0.5. Điều gì xảy ra nếu họ giảm ngưỡng này xuống 0.3?

14 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 14: Trong phân tích dữ liệu lớn (Big Data), đặc điểm 'Velocity' đề cập đến yếu tố nào?

15 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 15: Trong việc xây dựng kho dữ liệu (data warehouse) cho doanh nghiệp, mô hình 'ngôi sao' (star schema) được sử dụng để:

16 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 16: Phương pháp 'phân tích thành phần chính' (Principal Component Analysis - PCA) được sử dụng trong khoa học dữ liệu với mục đích chính là:

17 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 17: Trong kiểm định giả thuyết thống kê, 'giá trị p' (p-value) thể hiện điều gì?

18 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 18: Một ngân hàng sử dụng mô hình học máy để phát hiện giao dịch gian lận. Điều gì quan trọng nhất cần cân nhắc khi triển khai mô hình này trong thực tế?

19 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 19: Trong ngôn ngữ Python, thư viện nào sau đây được sử dụng phổ biến nhất cho việc phân tích và thao tác dữ liệu dạng bảng?

20 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 20: Để xây dựng một hệ thống khuyến nghị sản phẩm cho khách hàng dựa trên lịch sử mua hàng, phương pháp nào sau đây thường được sử dụng?

21 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 21: Trong quá trình làm sạch dữ liệu, việc xử lý các giá trị thiếu (missing values) bằng cách 'điền giá trị trung bình' (mean imputation) có thể gây ra vấn đề gì?

22 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 22: Trong lĩnh vực Marketing, phân tích RFM (Recency, Frequency, Monetary) được sử dụng để:

23 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 23: Khi nào thì việc sử dụng mô hình 'mạng nơ-ron sâu' (deep neural network) trở nên thực sự cần thiết và hiệu quả hơn so với các mô hình học máy truyền thống?

24 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 24: Trong phân tích văn bản (text analysis), kỹ thuật 'TF-IDF' (Term Frequency-Inverse Document Frequency) được sử dụng để:

25 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 25: Một công ty muốn xây dựng mô hình dự báo nhu cầu điện tiêu thụ hàng ngày dựa trên dữ liệu thời tiết và lịch sử tiêu thụ. Loại mô hình nào sau đây phù hợp nhất?

26 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 26: Trong kiểm thử A/B testing để so sánh hiệu quả của hai phiên bản website, kích thước mẫu (sample size) cần được xác định dựa trên yếu tố nào?

27 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 27: Đâu là một thách thức đạo đức chính trong việc sử dụng khoa học dữ liệu trong kinh doanh?

28 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 28: Trong môi trường kinh doanh, 'Business Intelligence (BI)' chủ yếu tập trung vào việc:

29 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 29: Để đánh giá mô hình phân cụm, chỉ số 'Silhouette score' được sử dụng để đo lường điều gì?

30 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Khoa Học Dữ Liệu Trong Kinh Tế Và Kinh Doanh

Tags: Bộ đề 3

Câu 30: Trong quá trình triển khai một dự án khoa học dữ liệu, giai đoạn nào thường chiếm phần lớn thời gian và nguồn lực nhất?

Xem kết quả