Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy - Đề 01 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong bài toán phân loại (classification) sử dụng mô hình học máy, độ đo nào sau đây thường được ưu tiên lựa chọn để đánh giá hiệu suất mô hình khi tập dữ liệu mục tiêu bị mất cân bằng (imbalanced dataset)?
- A. Độ chính xác (Accuracy)
- B. Độ đo Recall
- C. F1-score
- D. Ma trận nhầm lẫn (Confusion matrix)
Câu 2: Kỹ thuật Regularization (chính quy hóa) được sử dụng trong học máy nhằm mục đích chính nào sau đây?
- A. Tăng tốc độ huấn luyện mô hình
- B. Giảm hiện tượng overfitting (quá khớp)
- C. Cải thiện độ chính xác trên tập huấn luyện
- D. Giảm thiểu bias (sai lệch) trong mô hình
Câu 3: Trong các thuật toán học máy không giám sát (unsupervised learning), thuật toán nào sau đây được sử dụng phổ biến nhất để phân nhóm dữ liệu (clustering)?
- A. K-Means
- B. Support Vector Machine (SVM)
- C. Random Forest
- D. Linear Regression
Câu 4: Giả sử bạn có một mô hình học máy dự đoán giá nhà. Bạn nhận thấy rằng mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng lại kém hiệu quả trên dữ liệu kiểm tra mới. Hiện tượng này được gọi là gì?
- A. Underfitting (thiếu khớp)
- B. Overfitting (quá khớp)
- C. Bias cao (High bias)
- D. Variance cao (High variance)
Câu 5: Trong mạng nơ-ron (neural network), hàm kích hoạt (activation function) có vai trò gì?
- A. Tối ưu hóa trọng số của mạng
- B. Tính toán độ lỗi của mô hình
- C. Chuẩn hóa dữ liệu đầu vào
- D. Giới thiệu tính phi tuyến vào mạng
Câu 6: Phương pháp giảm chiều dữ liệu (dimensionality reduction) nào sau đây có thể giúp giữ lại phần lớn phương sai (variance) của dữ liệu gốc đồng thời giảm số lượng chiều?
- A. L1 Regularization
- B. Feature Selection (Lựa chọn đặc trưng)
- C. Principal Component Analysis (PCA)
- D. One-Hot Encoding
Câu 7: Trong học máy, thuật ngữ “feature engineering” (kỹ thuật tạo đặc trưng) đề cập đến công việc nào?
- A. Lựa chọn mô hình học máy phù hợp
- B. Biến đổi và tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình
- C. Tối ưu hóa siêu tham số của mô hình
- D. Đánh giá hiệu suất của mô hình
Câu 8: Thuật toán Gradient Descent (hạGradient) được sử dụng để làm gì trong huấn luyện mô hình học máy?
- A. Tìm giá trị tối ưu của các tham số mô hình để giảm thiểu hàm mất mát (loss function)
- B. Xác định số lượng đặc trưng quan trọng nhất
- C. Phân cụm dữ liệu thành các nhóm khác nhau
- D. Đánh giá độ chính xác của mô hình
Câu 9: Mô hình học máy nào sau đây thường được sử dụng cho bài toán dự đoán chuỗi thời gian (time series forecasting)?
- A. K-Nearest Neighbors (KNN)
- B. Support Vector Machine (SVM)
- C. Decision Tree
- D. Recurrent Neural Network (RNN)
Câu 10: Trong quy trình đánh giá mô hình phân loại, ROC curve (đường cong ROC) và AUC (diện tích dưới đường cong ROC) được sử dụng để đánh giá điều gì?
- A. Độ chính xác của mô hình trên tập huấn luyện
- B. Khả năng phân biệt giữa lớp dương tính và lớp âm tính của mô hình
- C. Mức độ overfitting của mô hình
- D. Thời gian huấn luyện mô hình
Câu 11: Phương pháp “cross-validation” (kiểm định chéo) được sử dụng để làm gì trong học máy?
- A. Tăng kích thước tập dữ liệu huấn luyện
- B. Giảm độ phức tạp của mô hình
- C. Đánh giá khả năng tổng quát hóa của mô hình và ước tính hiệu suất trên dữ liệu mới
- D. Tối ưu hóa siêu tham số của mô hình
Câu 12: Trong học sâu, “Convolutional Neural Networks (CNNs)” đặc biệt hiệu quả cho loại dữ liệu nào?
- A. Dữ liệu hình ảnh
- B. Dữ liệu văn bản
- C. Dữ liệu chuỗi thời gian
- D. Dữ liệu dạng bảng
Câu 13: Trong thuật toán K-Means clustering, cần xác định trước tham số nào?
- A. Số chiều dữ liệu
- B. Số lượng cụm (clusters) mong muốn
- C. Hàm khoảng cách sử dụng
- D. Số lần lặp tối đa
Câu 14: Phương pháp “ensemble learning” (học ансамбль) hoạt động dựa trên nguyên tắc nào?
- A. Chia nhỏ tập dữ liệu thành các phần nhỏ hơn
- B. Lựa chọn ra mô hình tốt nhất từ một tập hợp các mô hình
- C. Tối ưu hóa từng mô hình riêng lẻ
- D. Kết hợp dự đoán của nhiều mô hình học máy khác nhau để đưa ra dự đoán cuối cùng
Câu 15: Trong các mô hình cây quyết định (decision tree), độ đo “Gini impurity” và “Entropy” được sử dụng để làm gì?
- A. Đánh giá mức độ “hỗn loạn” của một tập hợp dữ liệu và lựa chọn thuộc tính phân chia tốt nhất
- B. Đo lường độ chính xác của cây quyết định
- C. Kiểm soát độ phức tạp của cây quyết định
- D. Tối ưu hóa các siêu tham số của cây quyết định
Câu 16: Giả sử bạn xây dựng một mô hình phân loại email spam. Bạn muốn tối ưu hóa để giảm thiểu số lượng email quan trọng bị đánh dấu là spam (false positives). Độ đo nào sau đây quan trọng nhất để theo dõi?
- A. Accuracy (Độ chính xác)
- B. Precision (Độ chuẩn xác)
- C. Recall (Độ phủ)
- D. F1-score
Câu 17: Trong học tăng cường (reinforcement learning), “agent” (tác nhân) học cách hành động trong một “environment” (môi trường) để tối đa hóa yếu tố nào?
- A. Độ chính xác của dự đoán
- B. Tốc độ học
- C. Phần thưởng tích lũy (cumulative reward)
- D. Độ phức tạp của môi trường
Câu 18: Kỹ thuật “dropout” thường được sử dụng trong mạng nơ-ron sâu (deep neural networks) để giải quyết vấn đề gì?
- A. Overfitting (quá khớp)
- B. Underfitting (thiếu khớp)
- C. Vanishing gradient (gradient biến mất)
- D. Exploding gradient (gradient bùng nổ)
Câu 19: Thuật toán nào sau đây thuộc loại học máy có giám sát (supervised learning)?
- A. K-Means
- B. Principal Component Analysis (PCA)
- C. Support Vector Machine (SVM)
- D. Apriori algorithm
Câu 20: Trong bài toán hồi quy (regression), độ đo nào sau đây thường được sử dụng để đánh giá hiệu suất mô hình?
- A. Accuracy (Độ chính xác)
- B. Precision (Độ chuẩn xác)
- C. Recall (Độ phủ)
- D. Mean Squared Error (MSE) - Sai số bình phương trung bình
Câu 21: Phương pháp “batch normalization” (chuẩn hóa theo lô) trong mạng nơ-ron sâu giúp giải quyết vấn đề nào liên quan đến quá trình huấn luyện?
- A. Overfitting (quá khớp)
- B. Internal covariate shift (sự thay đổi hiệp biến bên trong)
- C. Underfitting (thiếu khớp)
- D. Feature scaling ( масштабирование đặc trưng)
Câu 22: Trong học máy, “bias-variance tradeoff” (đánh đổi bias-variance) mô tả mối quan hệ giữa điều gì?
- A. Độ chính xác và độ phức tạp của mô hình
- B. Tốc độ huấn luyện và độ chính xác của mô hình
- C. Bias (sai lệch) và variance (phương sai) của mô hình, ảnh hưởng đến khả năng tổng quát hóa
- D. Dữ liệu huấn luyện và dữ liệu kiểm tra
Câu 23: Mô hình “Random Forest” thuộc loại thuật toán ensemble learning nào?
- A. Bagging
- B. Boosting
- C. Stacking
- D. Blending
Câu 24: Trong xử lý ngôn ngữ tự nhiên (NLP), “word embedding” (nhúng từ) có vai trò gì?
- A. Loại bỏ từ dừng (stop words)
- B. Biểu diễn từ ngữ thành các vector số để máy tính có thể xử lý
- C. Phân tích cú pháp câu
- D. Tách từ (tokenization)
Câu 25: Thuật toán “Support Vector Machine (SVM)” hoạt động dựa trên nguyên tắc nào?
- A. Tìm đường thẳng phân chia dữ liệu
- B. Phân cụm dữ liệu dựa trên khoảng cách
- C. Tìm siêu phẳng (hyperplane) tối ưu để phân tách các lớp dữ liệu với biên độ (margin) lớn nhất
- D. Xây dựng cây quyết định dựa trên thông tin thu được
Câu 26: Trong học máy, “hyperparameter tuning” (tinh chỉnh siêu tham số) là quá trình làm gì?
- A. Huấn luyện mô hình trên tập dữ liệu lớn hơn
- B. Lựa chọn thuật toán học máy phù hợp nhất
- C. Biến đổi dữ liệu đầu vào
- D. Tìm kiếm bộ giá trị siêu tham số tốt nhất cho mô hình để đạt hiệu suất cao nhất
Câu 27: Mô hình học máy nào sau đây có thể được sử dụng cho cả bài toán phân loại và hồi quy?
- A. K-Means
- B. Decision Tree
- C. Naive Bayes
- D. Linear Regression
Câu 28: Trong học sâu, “transfer learning” (học chuyển giao) mang lại lợi ích chính nào?
- A. Tăng độ chính xác trên tập huấn luyện
- B. Giảm overfitting
- C. Giảm thời gian huấn luyện và yêu cầu dữ liệu huấn luyện ít hơn cho các bài toán tương tự
- D. Tăng độ phức tạp của mô hình
Câu 29: Thuật toán “Apriori” thường được sử dụng trong lĩnh vực nào của học máy?
- A. Phân loại văn bản
- B. Phân tích ảnh
- C. Dự báo chuỗi thời gian
- D. Khai phá luật kết hợp (association rule mining)
Câu 30: Giả sử bạn có một tập dữ liệu chứa thông tin về khách hàng và hành vi mua sắm của họ. Bạn muốn phân nhóm khách hàng thành các phân khúc khác nhau để đưa ra các chiến lược marketing phù hợp. Phương pháp học máy nào phù hợp nhất?
- A. Clustering (Phân cụm)
- B. Regression (Hồi quy)
- C. Classification (Phân loại)
- D. Reinforcement Learning (Học tăng cường)