Trắc nghiệm Tin học 12 Chân trời sáng tạo Bài F14: Học máy - Đề 10 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm cho khách hàng dựa trên lịch sử mua sắm và xem sản phẩm của họ. Hệ thống này phân tích hành vi của khách hàng để tìm ra các sản phẩm mà họ có khả năng quan tâm. Đây là ứng dụng điển hình của loại học máy nào?
- A. Học có giám sát (Supervised learning)
- B. Học không giám sát (Unsupervised learning)
- C. Học tăng cường (Reinforcement learning)
- D. Học sâu (Deep learning)
Câu 2: Trong bài toán phân loại email thành "Thư rác" (Spam) và "Không phải thư rác" (Not Spam), mô hình học máy được huấn luyện trên tập dữ liệu gồm các email đã được gán nhãn sẵn (email nào là Spam, email nào không). Đây là ví dụ về loại học máy nào?
- A. Học có giám sát (Supervised learning)
- B. Học không giám sát (Unsupervised learning)
- C. Học tăng cường (Reinforcement learning)
- D. Học bán giám sát (Semi-supervised learning)
Câu 3: Điểm khác biệt cốt lõi giữa học có giám sát và học không giám sát nằm ở:
- A. Tốc độ xử lý dữ liệu
- B. Độ phức tạp của thuật toán
- C. Việc sử dụng dữ liệu có nhãn hay không có nhãn trong quá trình huấn luyện
- D. Lĩnh vực ứng dụng
Câu 4: Một nhà khoa học dữ liệu đang làm việc với tập dữ liệu về các giao dịch ngân hàng khổng lồ nhưng không có thông tin phân loại nào được gán trước. Mục tiêu là phát hiện các giao dịch bất thường hoặc có dấu hiệu gian lận bằng cách tìm ra các mẫu dữ liệu khác biệt so với phần lớn các giao dịch thông thường. Loại học máy phù hợp nhất cho nhiệm vụ này là:
- A. Học có giám sát để phân loại giao dịch
- B. Học không giám sát để phát hiện bất thường (anomaly detection)
- C. Học tăng cường để tối ưu hóa quy trình giao dịch
- D. Học bán giám sát để kết hợp dữ liệu có và không có nhãn
Câu 5: Khi xây dựng mô hình học máy để dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng ngủ, vị trí, dữ liệu huấn luyện cần bao gồm cả giá nhà thực tế tương ứng với mỗi căn nhà. Đây là đặc điểm của bài toán thuộc loại:
- A. Học có giám sát (bài toán hồi quy)
- B. Học không giám sát (bài toán gom cụm)
- C. Học tăng cường
- D. Học bán giám sát
Câu 6: Bạn có một tập hợp ảnh khuôn mặt khổng lồ và muốn tự động nhóm các ảnh của cùng một người lại với nhau mà không cần biết trước đó là ảnh của ai. Đây là một ứng dụng của học máy không giám sát, cụ thể là bài toán:
- A. Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Phát hiện bất thường (Anomaly detection)
- D. Gom cụm (Clustering)
Câu 7: Mô hình học máy nào thường được sử dụng để dự đoán một giá trị liên tục, ví dụ như nhiệt độ ngày mai, doanh số bán hàng tháng tới, hoặc thời gian di chuyển giữa hai địa điểm?
- A. Mô hình phân loại (Classification model)
- B. Mô hình gom cụm (Clustering model)
- C. Mô hình hồi quy (Regression model)
- D. Mô hình phát hiện bất thường (Anomaly detection model)
Câu 8: Mục tiêu chính của các thuật toán gom cụm (clustering) trong học không giám sát là gì?
- A. Dự đoán nhãn cho dữ liệu mới
- B. Tìm kiếm cấu trúc ẩn hoặc nhóm các điểm dữ liệu tương tự nhau
- C. Dự đoán một giá trị liên tục
- D. Xác định các điểm dữ liệu không phù hợp với phần còn lại
Câu 9: Hệ thống nhận diện khuôn mặt trên điện thoại thông minh, cho phép mở khóa thiết bị bằng cách quét khuôn mặt người dùng, thường sử dụng các kỹ thuật học máy. Đây là một ví dụ về ứng dụng thuộc lĩnh vực:
- A. Nhận dạng hình ảnh (Image Recognition)
- B. Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
- C. Phân tích dữ liệu chuỗi thời gian (Time Series Analysis)
- D. Hệ thống gợi ý (Recommendation Systems)
Câu 10: Alan Turing đã đề xuất một phép thử nhằm đánh giá khả năng của máy móc có thể thể hiện hành vi thông minh tương đương con người hay không. Phép thử này được gọi là:
- A. Phép thử Einstein
- B. Phép thử Newton
- C. Phép thử AlphaGo
- D. Phép thử Turing
Câu 11: Để huấn luyện một mô hình học máy có giám sát hiệu quả, yêu cầu quan trọng nhất đối với dữ liệu là gì?
- A. Dữ liệu phải có nhãn (labels) rõ ràng và chính xác.
- B. Kích thước dữ liệu phải rất nhỏ.
- C. Dữ liệu không được chứa bất kỳ thông tin nào về kết quả mong muốn.
- D. Dữ liệu phải được thu thập ngẫu nhiên hoàn toàn không có cấu trúc.
Câu 12: Một trong những thách thức chính khi áp dụng học không giám sát là:
- A. Khó tìm kiếm dữ liệu không có nhãn.
- B. Mô hình thường quá đơn giản để xử lý dữ liệu phức tạp.
- C. Việc đánh giá kết quả (ví dụ: xác định số lượng cụm tối ưu hoặc ý nghĩa của các cụm) thường khó khăn và mang tính chủ quan hơn học có giám sát.
- D. Yêu cầu sức mạnh tính toán thấp hơn nhiều so với học có giám sát.
Câu 13: Giả sử bạn muốn xây dựng một mô hình học máy để dự đoán liệu một khối u là ác tính hay lành tính dựa trên các đặc điểm hình ảnh y tế. Đây là một bài toán thuộc loại học có giám sát, cụ thể là:
- A. Phân loại nhị phân (Binary classification)
- B. Hồi quy (Regression)
- C. Gom cụm (Clustering)
- D. Giảm chiều dữ liệu (Dimensionality reduction)
Câu 14: Trong quy trình xây dựng mô hình học máy, việc chia dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (test set) có mục đích chính là gì?
- A. Để mô hình học thuộc lòng dữ liệu huấn luyện.
- B. Để tăng tốc độ huấn luyện mô hình.
- C. Để đảm bảo mô hình hoạt động tốt trên dữ liệu đã được sử dụng để huấn luyện.
- D. Để đánh giá khả năng tổng quát hóa (generalization) của mô hình trên dữ liệu mới, chưa từng thấy.
Câu 15: Phát biểu nào sau đây KHÔNG đúng về Học máy?
- A. Học máy là một lĩnh vực con của Trí tuệ nhân tạo.
- B. Học máy cho phép máy tính học hỏi từ dữ liệu mà không cần được lập trình tường minh cho từng nhiệm vụ cụ thể.
- C. Tất cả các mô hình học máy đều yêu cầu dữ liệu có nhãn để hoạt động.
- D. Học máy có thể được ứng dụng trong nhiều lĩnh vực như y tế, tài chính, thương mại điện tử.
Câu 16: Hệ thống dịch thuật tự động như Google Translate sử dụng các kỹ thuật học máy để cải thiện chất lượng bản dịch theo thời gian. Quá trình cải thiện này thường dựa trên việc phân tích các cặp câu/đoạn văn bản đã dịch và đôi khi cả phản hồi từ người dùng. Đây là ứng dụng học máy trong lĩnh vực:
- A. Thị giác máy tính (Computer Vision)
- B. Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
- C. Hệ thống nhúng (Embedded Systems)
- D. Robot học (Robotics)
Câu 17: Một công ty viễn thông muốn phân khúc khách hàng của mình thành các nhóm khác nhau dựa trên hành vi sử dụng dịch vụ (thời gian gọi, lượng dữ liệu sử dụng, loại gói cước, v.v.) để đưa ra các chiến dịch marketing phù hợp cho từng nhóm. Họ không có sẵn thông tin phân loại khách hàng trước đó. Loại học máy phù hợp nhất là:
- A. Học có giám sát để dự đoán hành vi khách hàng
- B. Học tăng cường để tối ưu hóa gói cước
- C. Hồi quy để dự đoán doanh thu từ khách hàng
- D. Học không giám sát để gom cụm khách hàng
Câu 18: Phát biểu nào mô tả đúng nhất mục tiêu của học máy?
- A. Xây dựng các thuật toán cho phép máy tính học từ dữ liệu và cải thiện hiệu suất dựa trên kinh nghiệm (dữ liệu).
- B. Lập trình máy tính để thực hiện chính xác các tác vụ theo một tập hợp quy tắc được định nghĩa trước.
- C. Tạo ra các hệ thống máy tính có khả năng suy nghĩ và cảm nhận như con người.
- D. Chỉ tập trung vào việc xử lý và lưu trữ dữ liệu lớn.
Câu 19: Khi nói về dữ liệu trong học máy, "nhãn" (label) trong học có giám sát thường đề cập đến điều gì?
- A. Tên của các cột trong bảng dữ liệu.
- B. Kết quả mong muốn hoặc giá trị mục tiêu tương ứng với mỗi điểm dữ liệu đầu vào.
- C. Các đặc điểm (features) của dữ liệu.
- D. Số lượng điểm dữ liệu trong tập huấn luyện.
Câu 20: Một ứng dụng của học máy trong y tế là phân tích hình ảnh y tế (ví dụ: X-quang, MRI) để phát hiện sớm các dấu hiệu bệnh. Để huấn luyện mô hình cho nhiệm vụ này, cần có một tập dữ liệu lớn gồm các hình ảnh y tế đã được chuyên gia y tế "gán nhãn" (ví dụ: hình ảnh nào có dấu hiệu bệnh A, hình ảnh nào không). Đây là ví dụ rõ ràng về việc sử dụng loại học máy nào?
- A. Học có giám sát (Supervised learning)
- B. Học không giám sát (Unsupervised learning)
- C. Học tăng cường (Reinforcement learning)
- D. Học bán giám sát (Semi-supervised learning)
Câu 21: Phát biểu nào sau đây là đúng khi so sánh giữa Học máy và Lập trình truyền thống?
- A. Lập trình truyền thống xử lý tốt hơn các vấn đề phức tạp liên quan đến mẫu dữ liệu không rõ ràng.
- B. Học máy yêu cầu lập trình viên phải viết ra tất cả các quy tắc xử lý cho mọi trường hợp có thể xảy ra.
- C. Học máy cho phép hệ thống tự động tìm ra các quy tắc hoặc mẫu từ dữ liệu, trong khi lập trình truyền thống yêu cầu quy tắc được xác định rõ bởi con người.
- D. Lập trình truyền thống không bao giờ sử dụng dữ liệu, còn học máy thì luôn luôn.
Câu 22: Mô hình học máy nào phù hợp nhất để xác định xem một câu văn bản có mang sắc thái tích cực, tiêu cực hay trung lập không (Sentiment Analysis)?
- A. Mô hình phân loại (Classification model)
- B. Mô hình hồi quy (Regression model)
- C. Mô hình gom cụm (Clustering model)
- D. Mô hình phát hiện bất thường (Anomaly detection model)
Câu 23: Giả sử bạn có một tập dữ liệu gồm các đặc điểm của nhiều loại trái cây khác nhau (màu sắc, kích thước, hình dạng, vị...). Bạn muốn tự động phân nhóm các loại trái cây tương tự nhau lại mà không cần biết trước đó là loại trái cây gì. Đây là một bài toán sử dụng học không giám sát, cụ thể là:
- A. Hồi quy (Regression)
- B. Gom cụm (Clustering)
- C. Phân loại (Classification)
- D. Dự đoán chuỗi thời gian (Time series forecasting)
Câu 24: Khả năng "tổng quát hóa" (generalization) của mô hình học máy đề cập đến điều gì?
- A. Khả năng xử lý dữ liệu có kích thước rất lớn.
- B. Khả năng học thuộc lòng dữ liệu huấn luyện một cách hoàn hảo.
- C. Khả năng đưa ra dự đoán chính xác trên dữ liệu mới, chưa từng được sử dụng trong quá trình huấn luyện.
- D. Khả năng chạy trên nhiều loại phần cứng khác nhau.
Câu 25: Khi mô hình học máy hoạt động rất tốt trên tập dữ liệu huấn luyện nhưng lại kém hiệu quả trên tập dữ liệu kiểm tra, hiện tượng này thường được gọi là gì?
- A. Học dưới mức (Underfitting)
- B. Tổng quát hóa (Generalization)
- C. Tối ưu hóa (Optimization)
- D. Học quá mức (Overfitting)
Câu 26: Hệ thống trợ lý ảo giọng nói như Siri, Google Assistant, Alexa là những ví dụ nổi bật về ứng dụng của học máy trong lĩnh vực nào?
- A. Nhận dạng giọng nói và Xử lý ngôn ngữ tự nhiên
- B. Thị giác máy tính và Phân tích dữ liệu
- C. Hệ thống gợi ý và Gom cụm
- D. Phát hiện bất thường và Hồi quy
Câu 27: Giảm chiều dữ liệu (Dimensionality Reduction) là một kỹ thuật thường được sử dụng trong học máy, đặc biệt là trong học không giám sát hoặc tiền xử lý dữ liệu. Mục đích chính của kỹ thuật này là gì?
- A. Tăng số lượng đặc điểm (features) của dữ liệu.
- B. Giảm số lượng đặc điểm của dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng.
- C. Gán nhãn cho dữ liệu không có nhãn.
- D. Chia dữ liệu thành các nhóm khác nhau.
Câu 28: Phát biểu nào sau đây mô tả chính xác một ứng dụng của học máy trong lĩnh vực tài chính?
- A. Soạn thảo báo cáo tài chính theo mẫu cố định.
- B. In ấn các chứng từ giao dịch.
- C. Tính toán lãi suất theo công thức đã cho.
- D. Dự đoán xu hướng giá cổ phiếu hoặc phát hiện giao dịch gian lận.
Câu 29: Trong học có giám sát, nếu kết quả đầu ra mà mô hình cần dự đoán là một trong số hữu hạn các danh mục rời rạc (ví dụ: A, B, C; hoặc Mèo, Chó, Chim), thì bài toán đó thuộc loại nào?
- A. Bài toán phân loại (Classification problem)
- B. Bài toán hồi quy (Regression problem)
- C. Bài toán gom cụm (Clustering problem)
- D. Bài toán giảm chiều (Dimensionality reduction problem)
Câu 30: Điều gì làm cho học máy trở nên mạnh mẽ trong việc giải quyết các bài toán phức tạp mà lập trình truyền thống gặp khó khăn?
- A. Học máy luôn nhanh hơn lập trình truyền thống.
- B. Học máy không yêu cầu dữ liệu đầu vào.
- C. Học máy có khả năng tự động phát hiện các mẫu và mối quan hệ phức tạp trong dữ liệu, ngay cả khi con người không thể xác định rõ ràng các quy tắc.
- D. Học máy chỉ hoạt động với dữ liệu hoàn hảo, không có nhiễu.