Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Học Máy - Đề 03 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Bạn có một tập dữ liệu về khách hàng của một công ty thương mại điện tử, bao gồm thông tin nhân khẩu học, lịch sử mua hàng và tương tác trên trang web. Mục tiêu là phân nhóm khách hàng thành các phân khúc khác nhau để cá nhân hóa chiến dịch marketing. Phương pháp học máy nào sau đây phù hợp nhất để giải quyết vấn đề này?
- A. Học có giám sát (Supervised learning)
- B. Học tăng cường (Reinforcement learning)
- C. Học không giám sát (Unsupervised learning)
- D. Học bán giám sát (Semi-supervised learning)
Câu 2: Trong bài toán phân loại email spam, bạn đã huấn luyện một mô hình học máy. Để đánh giá hiệu suất của mô hình trong việc phát hiện chính xác các email spam (tức là giảm thiểu việc bỏ sót email spam), thước đo nào sau đây quan trọng nhất?
- A. Độ chính xác (Accuracy)
- B. Độ Recall (Recall)
- C. Độ Precision (Precision)
- D. F1-score
Câu 3: Xét bài toán dự đoán giá nhà dựa trên các đặc trưng như diện tích, vị trí, số phòng ngủ, v.v. Mô hình hồi quy tuyến tính (Linear Regression) được sử dụng để xây dựng mô hình. Tuy nhiên, khi đánh giá trên tập kiểm tra, mô hình cho thấy hiệu suất kém (sai số lớn). Điều này có thể do hiện tượng gì?
- A. Underfitting (Mô hình chưa khớp)
- B. Overfitting (Mô hình quá khớp)
- C. Dữ liệu bị nhiễu (Noisy data)
- D. Thiếu dữ liệu huấn luyện
Câu 4: Để cải thiện khả năng tổng quát hóa của mô hình học sâu và giảm thiểu overfitting, kỹ thuật nào sau đây thường được sử dụng trong quá trình huấn luyện?
- A. Tăng kích thước batch size
- B. Sử dụng hàm kích hoạt ReLU
- C. Tăng số lớp mạng neural
- D. Dropout
Câu 5: Trong thuật toán K-means clustering, tham số "K" đại diện cho điều gì?
- A. Số chiều dữ liệu đầu vào
- B. Số lượng cụm cần phân chia
- C. Số lần lặp tối đa của thuật toán
- D. Hằng số tốc độ học
Câu 6: Ma trận nhầm lẫn (Confusion Matrix) là một công cụ quan trọng để đánh giá hiệu suất của mô hình phân loại. Trong ma trận nhầm lẫn, ô "True Positive" (TP) thể hiện điều gì?
- A. Số lượng mẫu Positive được dự đoán đúng là Positive
- B. Số lượng mẫu Negative bị dự đoán sai thành Positive
- C. Số lượng mẫu Positive bị dự đoán sai thành Negative
- D. Số lượng mẫu Negative được dự đoán đúng là Negative
Câu 7: Xét một mô hình phân loại nhị phân. Đường cong ROC (Receiver Operating Characteristic) được sử dụng để đánh giá điều gì?
- A. Độ chính xác của mô hình ở một ngưỡng phân loại cụ thể
- B. Sự cân bằng giữa Precision và Recall
- C. Hiệu suất của mô hình ở các ngưỡng phân loại khác nhau
- D. Tỷ lệ mẫu được phân loại đúng trên tổng số mẫu
Câu 8: Trong học máy, thuật ngữ "feature scaling" (chuẩn hóa đặc trưng) đề cập đến quá trình gì?
- A. Lựa chọn các đặc trưng quan trọng nhất từ dữ liệu
- B. Thay đổi phạm vi giá trị của các đặc trưng
- C. Tạo ra các đặc trưng mới từ các đặc trưng hiện có
- D. Giảm số chiều của dữ liệu
Câu 9: Phương pháp "Gradient Descent" (hạ gradient) được sử dụng để làm gì trong huấn luyện mô hình học máy?
- A. Đánh giá hiệu suất của mô hình
- B. Chuẩn hóa dữ liệu đầu vào
- C. Tối ưu hóa tham số mô hình
- D. Chọn đặc trưng phù hợp
Câu 10: Trong học tăng cường (Reinforcement Learning), "agent" (tác nhân) tương tác với "environment" (môi trường) để học hỏi thông qua điều gì?
- A. Dữ liệu được gán nhãn
- B. Phản hồi từ người giám sát
- C. Các quy tắc được lập trình sẵn
- D. Phần thưởng và phạt
Câu 11: Mạng neural Convolutional (CNN) thường được sử dụng hiệu quả nhất cho loại dữ liệu nào?
- A. Hình ảnh và video
- B. Dữ liệu dạng bảng
- C. Dữ liệu văn bản
- D. Chuỗi thời gian
Câu 12: Kỹ thuật "cross-validation" (kiểm định chéo) được sử dụng để làm gì trong quá trình phát triển mô hình học máy?
- A. Tăng tốc độ huấn luyện mô hình
- B. Đánh giá độ tin cậy của mô hình và lựa chọn tham số
- C. Giảm kích thước dữ liệu huấn luyện
- D. Cải thiện khả năng diễn giải mô hình
Câu 13: Trong thuật toán Decision Tree (cây quyết định), tiêu chí "Gini impurity" được sử dụng để làm gì?
- A. Đo lường độ chính xác của cây
- B. Kiểm soát độ phức tạp của cây
- C. Chọn đặc trưng phân chia tại mỗi nút
- D. Cân bằng cây quyết định
Câu 14: Phương pháp "ensemble learning" (học tập kết hợp) hoạt động dựa trên nguyên tắc nào?
- A. Kết hợp nhiều mô hình yếu để tạo thành mô hình mạnh hơn
- B. Chia nhỏ dữ liệu để huấn luyện nhiều mô hình song song
- C. Tối ưu hóa từng mô hình riêng lẻ
- D. Sử dụng một mô hình duy nhất với nhiều lớp ẩn
Câu 15: Thuật ngữ "bias-variance tradeoff" (đánh đổi bias-variance) mô tả sự cân bằng giữa yếu tố nào trong mô hình học máy?
- A. Độ chính xác và độ phức tạp
- B. Bias (độ chệch) và Variance (phương sai)
- C. Dữ liệu huấn luyện và dữ liệu kiểm tra
- D. Học có giám sát và học không giám sát
Câu 16: Trong xử lý ngôn ngữ tự nhiên (NLP), "word embedding" (biểu diễn nhúng từ) được sử dụng để làm gì?
- A. Phân tích cú pháp câu
- B. Loại bỏ từ dừng (stop words)
- C. Biểu diễn từ thành vector số
- D. Tách từ trong văn bản
Câu 17: Mô hình "Support Vector Machine" (SVM) hoạt động dựa trên nguyên tắc nào?
- A. Tìm đường biên quyết định phức tạp nhất
- B. Phân cụm dữ liệu dựa trên khoảng cách
- C. Xây dựng cây quyết định phân loại
- D. Tìm siêu phẳng tối ưu để phân tách các lớp
Câu 18: Trong hệ thống gợi ý (recommendation system), "collaborative filtering" (lọc cộng tác) dựa trên thông tin nào để đưa ra gợi ý?
- A. Thuộc tính của sản phẩm
- B. Hành vi và sở thích của người dùng
- C. Nội dung mô tả sản phẩm
- D. Thông tin nhân khẩu học của người dùng
Câu 19: Thuật toán "Principal Component Analysis" (PCA) được sử dụng để làm gì?
- A. Phân loại dữ liệu
- B. Phân cụm dữ liệu
- C. Giảm chiều dữ liệu
- D. Tăng chiều dữ liệu
Câu 20: Trong mô hình Logistic Regression, hàm kích hoạt (activation function) nào được sử dụng ở lớp đầu ra?
- A. Sigmoid
- B. ReLU
- C. Tanh
- D. Softmax
Câu 21: "Regularization" (chính quy hóa) là kỹ thuật được sử dụng để giải quyết vấn đề gì trong học máy?
- A. Underfitting
- B. Overfitting
- C. Dữ liệu nhiễu
- D. Thiếu dữ liệu
Câu 22: Trong thuật toán K-Nearest Neighbors (KNN), việc lựa chọn giá trị "K" (số lượng láng giềng gần nhất) có ảnh hưởng như thế nào đến mô hình?
- A. K lớn luôn tốt hơn K nhỏ
- B. K nhỏ luôn tốt hơn K lớn
- C. K quá nhỏ dễ overfitting, K quá lớn dễ underfitting
- D. Giá trị K không ảnh hưởng đến mô hình
Câu 23: Mô hình "Random Forest" là một ví dụ của phương pháp học tập kết hợp nào?
- A. Boosting
- B. Bagging
- C. Stacking
- D. Blending
Câu 24: Trong mạng neural, hàm kích hoạt "ReLU (Rectified Linear Unit)" có ưu điểm gì so với hàm sigmoid hoặc tanh?
- A. Luôn cho ra đầu ra trong khoảng [0, 1]
- B. Không bị ảnh hưởng bởi vanishing gradient
- C. Tính toán phức tạp hơn
- D. Giảm thiểu vanishing gradient và tính toán đơn giản hơn
Câu 25: "Feature engineering" (kỹ thuật đặc trưng) đóng vai trò như thế nào trong quy trình xây dựng mô hình học máy?
- A. Cải thiện chất lượng dữ liệu đầu vào cho mô hình
- B. Tối ưu hóa tham số của mô hình
- C. Đánh giá hiệu suất của mô hình
- D. Chọn thuật toán học máy phù hợp
Câu 26: Trong học sâu, "batch normalization" (chuẩn hóa theo batch) giúp giải quyết vấn đề gì trong quá trình huấn luyện mạng neural?
- A. Overfitting
- B. Underfitting
- C. Internal covariate shift
- D. Vanishing gradient
Câu 27: "Reinforcement learning" (học tăng cường) thường được ứng dụng trong lĩnh vực nào sau đây?
- A. Phân loại hình ảnh
- B. Robot tự hành và game
- C. Dự đoán giá cổ phiếu
- D. Phân tích văn bản
Câu 28: Để xử lý dữ liệu chuỗi thời gian (time series data), loại mạng neural nào thường được sử dụng?
- A. Convolutional Neural Networks (CNNs)
- B. Feedforward Neural Networks
- C. Recurrent Neural Networks (RNNs)
- D. Generative Adversarial Networks (GANs)
Câu 29: Trong quá trình tiền xử lý dữ liệu văn bản, "tokenization" (phân tách từ) là bước gì?
- A. Chia văn bản thành các đơn vị nhỏ hơn (ví dụ: từ)
- B. Loại bỏ các từ không quan trọng (stop words)
- C. Chuyển đổi văn bản thành chữ thường
- D. Tìm gốc từ (stemming) hoặc dạng chuẩn (lemmatization)
Câu 30: Xét bài toán phân loại ảnh mèo và chó. Bạn đã huấn luyện một mô hình CNN và đạt độ chính xác 95% trên tập huấn luyện, nhưng chỉ 70% trên tập kiểm tra. Biện pháp nào sau đây có thể giúp cải thiện hiệu suất mô hình trên tập kiểm tra?
- A. Giảm kích thước tập dữ liệu huấn luyện
- B. Áp dụng kỹ thuật tăng cường dữ liệu (data augmentation)
- C. Tăng số lớp trong mạng CNN
- D. Sử dụng batch size nhỏ hơn