Bài Tập, Đề Thi Trắc Nghiệm Online – Môn Học Máy – Đề 07

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Môn Học Máy

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy - Đề 07

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.

Câu 1: Bạn có một tập dữ liệu về khách hàng của một công ty thương mại điện tử, bao gồm thông tin nhân khẩu học, lịch sử mua hàng và tương tác trên trang web. Mục tiêu là phân nhóm khách hàng thành các phân khúc khác nhau để cá nhân hóa chiến dịch marketing. Phương pháp học máy nào sau đây phù hợp nhất để giải quyết vấn đề này?

  • A. Học có giám sát (Supervised learning)
  • B. Học không giám sát (Unsupervised learning)
  • C. Học tăng cường (Reinforcement learning)
  • D. Học bán giám sát (Semi-supervised learning)

Câu 2: Trong bài toán phân loại email spam, mô hình học máy của bạn dự đoán 120 email là spam, trong đó có 100 email thực sự là spam (True Positives). Tuy nhiên, mô hình cũng gắn nhãn spam cho 20 email không phải spam (False Positives). Độ chính xác (Precision) của mô hình trong trường hợp này là bao nhiêu?

  • A. 80%
  • B. 90%
  • C. 83.3%
  • D. 75%

Câu 3: Hàm kích hoạt ReLU (Rectified Linear Unit) thường được sử dụng trong mạng neural sâu vì lý do chính nào sau đây?

  • A. ReLU giúp mạng neural trở nên tuyến tính hơn, dễ huấn luyện.
  • B. ReLU giúp giảm thiểu vấn đề vanishing gradient và tăng tốc độ huấn luyện.
  • C. ReLU giúp tăng độ phức tạp của mô hình và cải thiện khả năng biểu diễn.
  • D. ReLU giúp chuẩn hóa dữ liệu đầu vào cho mạng neural.

Câu 4: Kỹ thuật Regularization (chính quy hóa) được sử dụng trong học máy để giải quyết vấn đề nào?

  • A. Underfitting (thiếu khớp)
  • B. Dữ liệu nhiễu (noisy data)
  • C. Mất cân bằng dữ liệu (imbalanced data)
  • D. Overfitting (quá khớp)

Câu 5: Trong thuật toán K-means clustering, bạn cần xác định trước tham số nào?

  • A. Số lượng cụm (K)
  • B. Tốc độ học (learning rate)
  • C. Số lượng epochs huấn luyện
  • D. Hàm mất mát (loss function)

Câu 6: Phương pháp đánh giá mô hình học máy Cross-validation (kiểm định chéo) có vai trò chính là gì?

  • A. Tăng tốc độ huấn luyện mô hình
  • B. Ước tính hiệu năng tổng quát hóa của mô hình
  • C. Tối ưu hóa siêu tham số của mô hình
  • D. Giảm kích thước tập dữ liệu huấn luyện

Câu 7: Khi nào thì việc sử dụng mô hình học máy phức tạp (ví dụ: mạng neural sâu) có thể không hiệu quả hoặc không cần thiết so với mô hình đơn giản hơn (ví dụ: hồi quy tuyến tính)?

  • A. Khi dữ liệu huấn luyện rất lớn
  • B. Khi cần độ chính xác dự đoán rất cao
  • C. Khi mối quan hệ giữa các đặc trưng và biến mục tiêu là tuyến tính hoặc đơn giản
  • D. Khi cần giải thích kết quả dự đoán một cách chi tiết

Câu 8: Trong thuật toán Decision Tree (cây quyết định), tiêu chí Gini impurity hoặc Entropy được sử dụng để làm gì?

  • A. Đo lường độ chính xác của cây quyết định
  • B. Kiểm soát độ sâu của cây quyết định
  • C. Xử lý dữ liệu bị thiếu trong tập huấn luyện
  • D. Chọn đặc trưng tốt nhất để phân chia nút

Câu 9: Ưu điểm chính của thuật toán Random Forest so với Decision Tree là gì?

  • A. Random Forest dễ diễn giải kết quả hơn Decision Tree.
  • B. Random Forest giảm overfitting và cải thiện độ chính xác so với Decision Tree.
  • C. Random Forest huấn luyện nhanh hơn Decision Tree.
  • D. Random Forest yêu cầu ít dữ liệu huấn luyện hơn Decision Tree.

Câu 10: Feature scaling (tỉ lệ đặc trưng) là một bước tiền xử lý dữ liệu quan trọng trong học máy. Kỹ thuật này đặc biệt cần thiết cho thuật toán nào sau đây?

  • A. Decision Tree (cây quyết định)
  • B. Naive Bayes
  • C. K-Nearest Neighbors (KNN)
  • D. Logistic Regression

Câu 11: Bạn muốn xây dựng một hệ thống gợi ý sản phẩm cho khách hàng dựa trên lịch sử mua hàng của họ và những khách hàng tương tự. Phương pháp học máy nào sau đây phù hợp nhất?

  • A. Phân tích hồi quy (Regression analysis)
  • B. Hệ thống khuyến nghị (Recommender system)
  • C. Phân tích chuỗi thời gian (Time series analysis)
  • D. Phân tích thành phần chính (Principal Component Analysis)

Câu 12: Trong học sâu, Batch Normalization (chuẩn hóa theo lô) giúp cải thiện quá trình huấn luyện bằng cách nào?

  • A. Ổn định phân phối đầu vào của các lớp và tăng tốc độ hội tụ
  • B. Giảm số lượng tham số của mạng neural
  • C. Tăng cường tính phi tuyến của mạng neural
  • D. Giảm thiểu overfitting bằng cách thêm nhiễu vào dữ liệu

Câu 13: Khi đánh giá mô hình phân loại, Recall (độ phủ) đo lường điều gì?

  • A. Tỷ lệ dự đoán đúng trên tổng số dự đoán
  • B. Tỷ lệ dự đoán đúng positive trên tổng số positive dự đoán
  • C. Tỷ lệ dự đoán đúng positive trên tổng số positive thực tế
  • D. Tỷ lệ dự đoán sai trên tổng số dự đoán

Câu 14: Thuật toán Support Vector Machine (SVM) hoạt động dựa trên nguyên tắc chính nào?

  • A. Tìm đường hồi quy tuyến tính tốt nhất
  • B. Phân cụm dữ liệu thành các nhóm dựa trên khoảng cách
  • C. Xây dựng cây quyết định dựa trên thông tin thu được
  • D. Tìm siêu phẳng tối ưu để phân tách các lớp với khoảng cách lề lớn nhất

Câu 15: Trong bài toán phát hiện gian lận thẻ tín dụng, dữ liệu thường bị mất cân bằng (số lượng giao dịch gian lận ít hơn rất nhiều so với giao dịch hợp lệ). Metric đánh giá nào sau đây phù hợp hơn Accuracy (độ chính xác) trong trường hợp này?

  • A. Accuracy (độ chính xác)
  • B. F1-score
  • C. Số lượng dự đoán đúng (Number of correct predictions)
  • D. Thời gian huấn luyện mô hình (Training time)

Câu 16: Kỹ thuật Feature engineering (kỹ thuật đặc trưng) bao gồm các công việc nào?

  • A. Lựa chọn thuật toán học máy phù hợp
  • B. Tối ưu hóa siêu tham số của mô hình
  • C. Chọn lọc, biến đổi và tạo ra các đặc trưng mới từ dữ liệu thô
  • D. Đánh giá hiệu năng của mô hình trên tập kiểm tra

Câu 17: Mục tiêu chính của Principal Component Analysis (PCA) là gì?

  • A. Giảm chiều dữ liệu trong khi vẫn giữ lại phần lớn thông tin
  • B. Phân cụm dữ liệu thành các nhóm có ý nghĩa
  • C. Dự đoán giá trị của biến mục tiêu dựa trên các đặc trưng
  • D. Phát hiện các điểm ngoại lệ trong dữ liệu

Câu 18: Trong ngữ cảnh của học tăng cường (Reinforcement learning), thuật ngữ “environment” (môi trường) đề cập đến điều gì?

  • A. Mô hình học máy (machine learning model)
  • B. Bối cảnh mà agent tương tác và học hỏi
  • C. Tập dữ liệu huấn luyện (training dataset)
  • D. Hàm phần thưởng (reward function)

Câu 19: Phương pháp ensemble learning (học ансамбль) nào hoạt động bằng cách huấn luyện tuần tự các mô hình yếu, trong đó mỗi mô hình tập trung vào việc sửa lỗi của mô hình trước đó?

  • A. Bagging
  • B. Stacking
  • C. Voting
  • D. Boosting

Câu 20: Khi nào thì bạn nên sử dụng thuật toán Naive Bayes classifier?

  • A. Khi dữ liệu có mối quan hệ phi tuyến phức tạp
  • B. Khi cần độ chính xác dự đoán rất cao và khả năng diễn giải
  • C. Khi các đặc trưng có tính độc lập tương đối và dữ liệu có kích thước lớn
  • D. Khi cần giảm chiều dữ liệu trước khi phân loại

Câu 21: Trong mạng neural tích chập (Convolutional Neural Network - CNN), lớp Convolutional layer (tích chập) có vai trò chính là gì?

  • A. Trích xuất đặc trưng cục bộ từ dữ liệu đầu vào
  • B. Giảm chiều dữ liệu đầu vào
  • C. Phân loại dữ liệu đầu vào
  • D. Kết nối đầy đủ các neuron giữa các lớp

Câu 22: Underfitting (thiếu khớp) xảy ra khi nào?

  • A. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
  • B. Mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu
  • C. Mô hình quá phức tạp và học thuộc lòng dữ liệu huấn luyện
  • D. Dữ liệu huấn luyện chứa quá nhiều nhiễu

Câu 23: Thuật toán Gradient Descent (hạ gradient) được sử dụng để làm gì trong học máy?

  • A. Đánh giá hiệu năng của mô hình
  • B. Tiền xử lý dữ liệu đầu vào
  • C. Chọn đặc trưng quan trọng nhất
  • D. Tối ưu hóa tham số của mô hình để giảm thiểu hàm mất mát

Câu 24: Recurrent Neural Network (RNN) phù hợp nhất cho loại dữ liệu nào?

  • A. Dữ liệu dạng bảng (tabular data)
  • B. Dữ liệu hình ảnh tĩnh (static images)
  • C. Dữ liệu tuần tự (sequential data)
  • D. Dữ liệu rời rạc (discrete data)

Câu 25: Kỹ thuật Dropout trong mạng neural được sử dụng để làm gì?

  • A. Tăng tốc độ huấn luyện mạng neural
  • B. Giảm overfitting và cải thiện khả năng tổng quát hóa
  • C. Tăng độ phức tạp của mô hình
  • D. Chuẩn hóa dữ liệu đầu vào

Câu 26: Trong thuật toán Logistic Regression, hàm sigmoid được sử dụng để làm gì?

  • A. Tính toán hàm mất mát
  • B. Tối ưu hóa tham số mô hình
  • C. Chuyển đổi đầu ra thành xác suất
  • D. Trích xuất đặc trưng từ dữ liệu

Câu 27: Metric AUC-ROC (Area Under the Curve - Receiver Operating Characteristic) thường được sử dụng để đánh giá mô hình nào?

  • A. Mô hình phân loại nhị phân
  • B. Mô hình hồi quy
  • C. Mô hình phân cụm
  • D. Mô hình giảm chiều dữ liệu

Câu 28: Thế nào là “curse of dimensionality” (lời nguyền chiều cao) trong học máy?

  • A. Hiện tượng overfitting do mô hình quá phức tạp
  • B. Vấn đề vanishing gradient trong mạng neural sâu
  • C. Tình trạng thiếu dữ liệu huấn luyện
  • D. Các vấn đề phát sinh khi làm việc với dữ liệu có số chiều rất lớn

Câu 29: Trong mô hình Linear Regression, mục tiêu là tìm đường thẳng (hoặc siêu phẳng) phù hợp nhất với dữ liệu. “Phù hợp nhất” thường được định nghĩa dựa trên việc tối thiểu hóa đại lượng nào?

  • A. Độ lệch chuẩn của dữ liệu (Data standard deviation)
  • B. Tổng bình phương sai số (Sum of Squared Errors)
  • C. Độ lớn của các tham số mô hình (Magnitude of model parameters)
  • D. Số lượng đặc trưng sử dụng (Number of features used)

Câu 30: Bạn cần triển khai một mô hình học máy trên thiết bị di động có tài nguyên hạn chế (ví dụ: bộ nhớ, pin). Yếu tố nào sau đây trở nên đặc biệt quan trọng khi lựa chọn và thiết kế mô hình?

  • A. Độ chính xác dự đoán cao nhất có thể (Highest possible accuracy)
  • B. Khả năng diễn giải kết quả dự đoán (Interpretability of predictions)
  • C. Hiệu quả tính toán và kích thước mô hình nhỏ gọn (Computational efficiency and model size)
  • D. Khả năng cập nhật mô hình liên tục (Continuous model updates)

1 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 1: Bạn có một tập dữ liệu về thông tin khách hàng và hành vi mua hàng của họ. Mục tiêu là phân nhóm khách hàng thành các phân khúc khác nhau để đưa ra các chiến lược marketing phù hợp. Phương pháp học máy nào sau đây là phù hợp nhất để giải quyết vấn đề này?

2 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 2: Trong bài toán phân loại, độ đo nào sau đây đánh giá khả năng mô hình dự đoán chính xác các trường hợp thuộc về lớp tích cực (positive) trong số tất cả các trường hợp thực tế là tích cực?

3 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 3: Cho một bài toán dự đoán giá nhà dựa trên các đặc trưng như diện tích, vị trí, số phòng ngủ, v.v. Mô hình học máy nào sau đây thích hợp nhất?

4 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 4: Kỹ thuật nào sau đây giúp giảm hiện tượng overfitting trong mô hình mạng nơ-ron bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện?

5 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 5: Trong học máy không giám sát, thuật toán PCA (Principal Component Analysis) được sử dụng để làm gì?

6 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 6: Hàm kích hoạt (Activation function) trong mạng nơ-ron có vai trò gì?

7 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 7: Phương pháp học máy nào mà trong đó mô hình học cách đưa ra quyết định thông qua việc tương tác với môi trường và nhận phần thưởng hoặc phạt?

8 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 8: Trong mô hình cây quyết định, độ đo Gini impurity hoặc Entropy được sử dụng để làm gì?

9 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 9: Thuật toán nào sau đây thuộc nhóm thuật toán học có giám sát?

10 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 10: Trong quá trình tiền xử lý dữ liệu, kỹ thuật scaling (ví dụ: StandardScaler, MinMaxScaler) được sử dụng để làm gì?

11 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 11: Mô hình nào sau đây có xu hướng bias cao và variance thấp?

12 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 12: Kỹ thuật “One-Hot Encoding” thường được sử dụng để xử lý loại dữ liệu nào?

13 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 13: Trong bài toán phân loại ảnh, mạng nơ-ron tích chập (CNN) thường được ưa chuộng hơn mạng nơ-ron truyền thẳng (Feedforward Neural Network) vì lý do chính nào?

14 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 14: Để đánh giá hiệu suất của mô hình phân loại nhị phân, độ đo AUC-ROC (Area Under the ROC Curve) thể hiện điều gì?

15 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 15: Kỹ thuật “cross-validation” (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình học máy?

16 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 16: Trong thuật toán K-Nearest Neighbors (KNN), tham số 'K' đại diện cho điều gì?

17 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 17: Khi nào thì nên sử dụng mô hình phân loại Logistic Regression thay vì Linear Regression?

18 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 18: Phương pháp ensemble learning (học tập hợp) nào kết hợp nhiều mô hình yếu bằng cách huấn luyện tuần tự, trong đó mỗi mô hình tập trung vào việc cải thiện các dự đoán sai của mô hình trước đó?

19 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 19: Trong mạng nơ-ron, backpropagation là thuật toán dùng để làm gì?

20 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 20: Chọn phát biểu đúng về sự khác biệt giữa 'precision' và 'recall' trong đánh giá mô hình phân loại.

21 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 21: Giả sử bạn xây dựng một mô hình phân loại email spam. Bạn muốn mô hình có độ 'recall' cao. Điều này có ý nghĩa gì trong ngữ cảnh bài toán?

22 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 22: Trong ngữ cảnh học máy, 'feature engineering' (kỹ thuật đặc trưng) bao gồm những công việc nào?

23 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 23: Phương pháp xử lý dữ liệu bị thiếu (missing data) nào sau đây có thể làm thay đổi phân phối dữ liệu gốc ít nhất?

24 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 24: Khi nào thì nên sử dụng thuật toán Support Vector Machine (SVM) thay vì Logistic Regression cho bài toán phân loại?

25 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 25: Trong thuật toán K-Means clustering, điều gì xảy ra khi bạn tăng số lượng cụm 'K'?

26 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 26: Cho một mô hình dự đoán bị underfitting. Biện pháp nào sau đây có thể giúp cải thiện mô hình?

27 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 27: Trong xử lý ngôn ngữ tự nhiên (NLP), TF-IDF (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?

28 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 28: Chọn phát biểu đúng về đạo đức trong ứng dụng học máy và trí tuệ nhân tạo.

29 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 29: Phương pháp nào sau đây giúp giảm kích thước tập dữ liệu huấn luyện mà vẫn cố gắng giữ lại thông tin quan trọng nhất?

30 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy

Tags: Bộ đề 7

Câu 30: Mô hình nào sau đây có khả năng xử lý dữ liệu chuỗi thời gian (time series data) tốt nhất, ví dụ như dự đoán giá cổ phiếu hoặc phân tích chuỗi DNA?

Xem kết quả