Trắc nghiệm Tin học 12 Kết nối tri thức Bài 25: Làm quen với Học máy - Đề 05 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Học máy (Machine Learning) được định nghĩa là một lĩnh vực thuộc trí tuệ nhân tạo (AI) cho phép máy tính có khả năng tự học từ dữ liệu. Đặc điểm cốt lõi nào phân biệt học máy với lập trình truyền thống dựa trên luật lệ tường minh?
- A. Học máy chỉ xử lý được dữ liệu số.
- B. Học máy xây dựng mô hình từ dữ liệu để đưa ra dự đoán hoặc quyết định mà không cần lập trình cụ thể cho mọi trường hợp.
- C. Học máy luôn yêu cầu sự can thiệp của con người trong quá trình ra quyết định cuối cùng.
- D. Học máy chỉ áp dụng cho các bài toán quá phức tạp mà con người không thể giải quyết.
Câu 2: Một công ty thương mại điện tử muốn phát triển hệ thống tự động phân loại email khách hàng gửi đến thành các nhóm như "Đơn hàng", "Hỗ trợ kỹ thuật", "Khiếu nại", dựa vào nội dung email. Để huấn luyện mô hình này, họ cần sử dụng một tập dữ liệu email đã được gán nhãn sẵn (ví dụ: email X được gán nhãn "Đơn hàng"). Phương pháp học máy nào phù hợp nhất trong trường hợp này?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Học sâu (Deep Learning)
Câu 3: Một nhà khoa học dữ liệu đang nghiên cứu hành vi mua sắm của khách hàng tại một siêu thị. Ông muốn phân nhóm khách hàng thành các nhóm nhỏ hơn dựa trên các đặc điểm như tần suất mua hàng, tổng chi tiêu, loại sản phẩm yêu thích, mà không có bất kỳ định nghĩa trước nào về các nhóm này. Loại dữ liệu nào sẽ được sử dụng chủ yếu và phương pháp học máy nào là thích hợp?
- A. Dữ liệu có nhãn, Học có giám sát
- B. Dữ liệu có nhãn, Học không giám sát
- C. Dữ liệu không có nhãn, Học không giám sát
- D. Dữ liệu không có nhãn, Học có giám sát
Câu 4: Trong quá trình huấn luyện mô hình học có giám sát, dữ liệu đầu vào được sử dụng để làm gì?
- A. Để mô hình tự động tạo ra các nhãn mới.
- B. Để kiểm tra tốc độ xử lý của máy tính.
- C. Để mô hình tìm kiếm thông tin trên internet.
- D. Để mô hình học mối quan hệ giữa đặc điểm đầu vào và nhãn tương ứng.
Câu 5: Đâu là sự khác biệt cơ bản về mục tiêu giữa bài toán Phân loại (Classification) và bài toán Hồi quy (Regression) trong học có giám sát?
- A. Phân loại dự đoán giá trị số liên tục, Hồi quy dự đoán nhãn rời rạc.
- B. Phân loại dự đoán nhãn rời rạc (thuộc các lớp), Hồi quy dự đoán giá trị số liên tục.
- C. Phân loại sử dụng dữ liệu có nhãn, Hồi quy sử dụng dữ liệu không nhãn.
- D. Phân loại chỉ áp dụng cho hình ảnh, Hồi quy chỉ áp dụng cho văn bản.
Câu 6: Một ứng dụng phổ biến của học máy là hệ thống gợi ý sản phẩm (recommendation system) trên các nền tảng mua sắm trực tuyến. Hệ thống này phân tích lịch sử mua hàng, lượt xem sản phẩm, và đánh giá của người dùng để đề xuất các sản phẩm mà họ có thể quan tâm. Loại hình học máy nào thường được sử dụng trong các hệ thống gợi ý, đặc biệt là khi phân tích hành vi người dùng để tìm ra những người có sở thích tương đồng?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Chỉ có thể sử dụng Học tăng cường (Reinforcement Learning)
- D. Chỉ có thể sử dụng lập trình truyền thống
Câu 7: Một ngân hàng muốn sử dụng học máy để phát hiện các giao dịch bất thường, có khả năng là gian lận. Họ có một tập dữ liệu lớn về các giao dịch trong quá khứ, nhưng chỉ một phần rất nhỏ trong số đó được xác định là gian lận. Việc gán nhãn cho toàn bộ dữ liệu là rất tốn kém. Phương pháp học máy nào có thể giúp xác định các giao dịch đáng ngờ dựa trên sự khác biệt so với "hành vi bình thường" của các giao dịch?
- A. Học có giám sát (Supervised Learning) vì cần phân loại gian lận/không gian lận.
- B. Học không giám sát (Unsupervised Learning) để phát hiện ngoại lai (outliers).
- C. Học tăng cường (Reinforcement Learning) để tối ưu hóa lợi nhuận.
- D. Chỉ có thể dùng phương pháp thống kê truyền thống.
Câu 8: Tại sao chất lượng và số lượng của dữ liệu huấn luyện lại đóng vai trò quan trọng đối với hiệu suất của mô hình học máy?
- A. Dữ liệu chất lượng cao giúp mô hình học nhanh hơn, còn số lượng không quan trọng.
- B. Số lượng dữ liệu lớn luôn đảm bảo mô hình chính xác, bất kể chất lượng.
- C. Dữ liệu chất lượng giúp mô hình học được các mẫu hình đúng đắn, còn số lượng đủ lớn giúp mô hình khái quát hóa tốt trên dữ liệu mới.
- D. Chất lượng dữ liệu chỉ quan trọng trong học không giám sát.
Câu 9: Một trong những ứng dụng nổi bật của học máy là xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Ứng dụng NLP nào sau đây không phải là ví dụ trực tiếp của việc sử dụng học máy để hiểu hoặc tạo ra ngôn ngữ?
- A. Dịch tự động văn bản từ ngôn ngữ này sang ngôn ngữ khác.
- B. Phân tích cảm xúc của đoạn văn bản (tích cực, tiêu cực, trung lập).
- C. Tóm tắt tự động nội dung của một bài báo dài.
- D. Thay đổi định dạng của một tệp văn bản từ .docx sang .pdf.
Câu 10: Giả sử bạn muốn xây dựng một hệ thống học máy để dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng ngủ, vị trí, v.v. Bạn có một tập dữ liệu về các ngôi nhà đã bán trong quá khứ, bao gồm cả giá bán cuối cùng. Đây là một bài toán thuộc loại nào trong học có giám sát?
- A. Hồi quy (Regression)
- B. Phân loại (Classification)
- C. Phân cụm (Clustering)
- D. Phát hiện ngoại lai (Outlier Detection)
Câu 11: Một nhà nghiên cứu muốn phân tích một bộ sưu tập lớn các bức ảnh động vật để tự động nhóm chúng lại dựa trên sự tương đồng về hình ảnh, mà không cần biết trước chúng thuộc loài nào. Phương pháp học máy nào sẽ giúp ông thực hiện mục tiêu này?
- A. Học có giám sát (Supervised Learning) để phân loại từng loài.
- B. Học tăng cường (Reinforcement Learning) để huấn luyện robot nhận dạng.
- C. Học không giám sát (Unsupervised Learning) để phân cụm các bức ảnh tương đồng.
- D. Chỉ có thể phân loại thủ công.
Câu 12: Tại sao việc phân chia dữ liệu thành tập huấn luyện (training set) và tập kiểm thử (test set) lại quan trọng trong quá trình xây dựng mô hình học máy có giám sát?
- A. Để mô hình học được tất cả các mẫu trong dữ liệu.
- B. Để đảm bảo mô hình chạy nhanh hơn.
- C. Để tập kiểm thử có kích thước lớn hơn tập huấn luyện.
- D. Để đánh giá khả năng khái quát hóa của mô hình trên dữ liệu chưa từng thấy.
Câu 13: Hệ thống nhận dạng tiếng nói trên điện thoại thông minh, giúp chuyển đổi lời nói thành văn bản, là một ví dụ điển hình của ứng dụng học máy. Để hoạt động hiệu quả, hệ thống này cần được huấn luyện trên một lượng lớn dữ liệu nào?
- A. Các đoạn ghi âm giọng nói đã được gán nhãn (phiên âm tương ứng).
- B. Các văn bản chỉ có chữ viết.
- C. Các hình ảnh của sóng âm thanh.
- D. Dữ liệu về cấu trúc ngữ pháp của ngôn ngữ.
Câu 14: Trong học máy không giám sát, mô hình không được cung cấp nhãn đầu ra. Vậy mục tiêu chính của các thuật toán học không giám sát thường là gì?
- A. Dự đoán giá trị số dựa trên dữ liệu đầu vào.
- B. Phân loại dữ liệu vào các lớp được định nghĩa trước.
- C. Tìm kiếm cấu trúc ẩn, mối quan hệ, hoặc mẫu hình trong dữ liệu.
- D. Tối ưu hóa hành động để nhận phần thưởng tối đa.
Câu 15: Một bác sĩ muốn sử dụng học máy để hỗ trợ chẩn đoán bệnh dựa trên kết quả xét nghiệm và triệu chứng của bệnh nhân. Bác sĩ có một tập dữ liệu lịch sử bao gồm các thông tin này cùng với chẩn đoán cuối cùng của từng bệnh nhân (bị bệnh A, bị bệnh B, hay không bị bệnh). Loại bài toán học máy nào phù hợp nhất để xây dựng hệ thống này?
- A. Hồi quy (Regression)
- B. Phân loại (Classification)
- C. Phân cụm (Clustering)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 16: Giả sử bạn đang huấn luyện một mô hình học máy để nhận dạng chó và mèo từ hình ảnh. Dữ liệu huấn luyện của bạn chỉ bao gồm hình ảnh chó và mèo. Khi bạn đưa vào một hình ảnh con hổ, mô hình có khả năng sẽ làm gì?
- A. Từ chối phân loại vì không có dữ liệu về hổ.
- B. Tự động tạo ra nhãn "hổ" và thêm vào mô hình.
- C. Hỏi người dùng xem đó là con vật gì.
- D. Phân loại sai thành chó hoặc mèo dựa trên sự tương đồng mà nó đã học được.
Câu 17: Vai trò của học máy trong việc xử lý lượng dữ liệu lớn (Big Data) là gì?
- A. Tự động hóa việc phân tích, tìm kiếm mẫu hình và đưa ra dự đoán từ dữ liệu phức tạp và khổng lồ.
- B. Lưu trữ dữ liệu lớn một cách hiệu quả hơn.
- C. Giảm bớt nhu cầu về dữ liệu cho các bài toán phức tạp.
- D. Chỉ hỗ trợ việc hiển thị dữ liệu lớn dưới dạng biểu đồ.
Câu 18: Khi một mô hình học máy có giám sát hoạt động kém trên tập dữ liệu kiểm thử (test set) mặc dù hoạt động rất tốt trên tập dữ liệu huấn luyện (training set), vấn đề phổ biến nào có thể xảy ra?
- A. Mô hình chưa học đủ từ dữ liệu.
- B. Tập kiểm thử quá dễ so với tập huấn luyện.
- C. Mô hình bị học lệch (overfitting), tức là học quá chi tiết vào dữ liệu huấn luyện mà không khái quát hóa được cho dữ liệu mới.
- D. Dữ liệu huấn luyện không có nhãn.
Câu 19: Hãy xem xét hai nhiệm vụ: (A) Dự đoán liệu một email mới có phải là thư rác hay không, và (B) Khám phá các chủ đề chính xuất hiện trong một bộ sưu tập lớn các bài báo mà không biết trước các chủ đề đó là gì. Nhiệm vụ (A) và (B) lần lượt phù hợp với loại hình học máy nào?
- A. (A) Học có giám sát, (B) Học không giám sát
- B. (A) Học không giám sát, (B) Học có giám sát
- C. (A) Học tăng cường, (B) Học có giám sát
- D. (A) Học không giám sát, (B) Học tăng cường
Câu 20: Yếu tố nào sau đây không phải là một lợi ích chính của việc áp dụng học máy trong các bài toán thực tế?
- A. Tự động hóa các tác vụ phức tạp yêu cầu khả năng nhận dạng mẫu hoặc đưa ra quyết định dựa trên dữ liệu.
- B. Khả năng cải thiện hiệu suất theo thời gian khi có thêm dữ liệu mới.
- C. Xử lý và rút trích thông tin từ lượng dữ liệu khổng lồ mà con người khó xử lý thủ công.
- D. Loại bỏ hoàn toàn nhu cầu về chuyên gia hoặc sự giám sát của con người trong mọi ứng dụng.
Câu 21: Trong bối cảnh học máy, "tính năng" (feature) của dữ liệu đầu vào là gì?
- A. Kết quả dự đoán của mô hình.
- B. Các thuộc tính, đặc điểm hoặc biến độc lập được sử dụng làm đầu vào cho mô hình học máy.
- C. Thuật toán được sử dụng để huấn luyện mô hình.
- D. Tên của mô hình học máy.
Câu 22: Một nhà bán lẻ trực tuyến muốn phân tích dữ liệu lịch sử mua sắm của khách hàng để tìm ra các nhóm sản phẩm thường được mua cùng nhau (ví dụ: người mua sữa thường mua thêm bánh mì). Kết quả phân tích này có thể giúp họ sắp xếp sản phẩm trong cửa hàng hoặc tạo các chương trình khuyến mãi kết hợp. Đây là một ứng dụng của học máy không giám sát, cụ thể là kỹ thuật nào?
- A. Phân tích luật kết hợp (Association Rule Mining)
- B. Phân loại (Classification)
- C. Hồi quy (Regression)
- D. Nhận dạng thực thể có tên (Named Entity Recognition)
Câu 23: Điều gì xảy ra với mô hình học máy có giám sát sau khi nó hoàn thành quá trình huấn luyện trên tập dữ liệu huấn luyện?
- A. Mô hình bị loại bỏ vì đã học xong.
- B. Mô hình tự động tạo ra dữ liệu huấn luyện mới.
- C. Mô hình sẵn sàng được sử dụng để đưa ra dự đoán hoặc quyết định trên dữ liệu mới, chưa từng thấy.
- D. Mô hình yêu cầu con người lập trình lại các quy tắc.
Câu 24: Một công ty bảo hiểm muốn dự đoán khả năng một khách hàng sẽ yêu cầu bồi thường trong năm tới dựa trên tuổi tác, lịch sử bồi thường trước đây, loại hình bảo hiểm, v.v. Họ có dữ liệu lịch sử của hàng ngàn khách hàng, bao gồm cả việc họ có yêu cầu bồi thường hay không. Đây là một bài toán dự đoán nhị phân (Có/Không) thuộc loại hình học máy nào?
- A. Hồi quy (Regression)
- B. Phân loại (Classification)
- C. Phân cụm (Clustering)
- D. Phát hiện ngoại lai (Outlier Detection)
Câu 25: Một đặc điểm quan trọng của học máy là khả năng "khái quát hóa". Khả năng này đề cập đến điều gì?
- A. Khả năng của mô hình đưa ra dự đoán chính xác trên dữ liệu mới, chưa từng được sử dụng trong quá trình huấn luyện.
- B. Khả năng của mô hình tự động thu thập thêm dữ liệu từ internet.
- C. Khả năng của mô hình giải thích cách nó đưa ra dự đoán.
- D. Khả năng của mô hình chạy trên nhiều loại phần cứng khác nhau.
Câu 26: So với lập trình truyền thống, học máy đặc biệt hiệu quả trong việc giải quyết các bài toán mà:
- A. Có thể dễ dàng viết ra các quy tắc logic tường minh để xử lý tất cả các trường hợp có thể xảy ra.
- B. Chỉ liên quan đến việc tính toán số học đơn giản.
- C. Rất khó hoặc không thể xác định và viết ra tất cả các quy tắc tường minh do tính phức tạp, đa dạng hoặc sự thay đổi liên tục của dữ liệu/vấn đề.
- D. Chỉ yêu cầu xử lý một lượng nhỏ dữ liệu.
Câu 27: Một trong những thách thức khi làm việc với học máy là việc chuẩn bị dữ liệu (data preprocessing). Tại sao bước này lại quan trọng?
- A. Để giảm kích thước của tập dữ liệu xuống mức tối thiểu.
- B. Để làm cho dữ liệu trở nên khó hiểu hơn đối với con người nhưng dễ hiểu hơn với máy tính.
- C. Để mô hình không cần học từ dữ liệu nữa.
- D. Để làm sạch dữ liệu, xử lý các giá trị thiếu, chuyển đổi định dạng, và chuẩn hóa dữ liệu, giúp mô hình học hiệu quả và chính xác hơn.
Câu 28: Nếu bạn có một tập dữ liệu về các bài đánh giá sản phẩm (reviews) và muốn tìm ra các bài đánh giá có nội dung tương tự nhau để nhóm chúng lại, bạn sẽ sử dụng loại hình học máy nào?
- A. Học có giám sát (Supervised Learning) để phân loại đánh giá tốt/xấu.
- B. Học không giám sát (Unsupervised Learning) để phân cụm các đánh giá tương đồng.
- C. Học tăng cường (Reinforcement Learning) để cải thiện chất lượng đánh giá.
- D. Hồi quy (Regression) để dự đoán điểm đánh giá.
Câu 29: Khi nói về học máy, thuật ngữ "mô hình" (model) thường dùng để chỉ điều gì?
- A. Tập dữ liệu được sử dụng để huấn luyện.
- B. Phần mềm dùng để hiển thị kết quả.
- C. Kết quả của quá trình huấn luyện, là một cấu trúc toán học hoặc thuật toán đã học được các mẫu hình từ dữ liệu và có thể đưa ra dự đoán/quyết định.
- D. Giao diện người dùng của ứng dụng học máy.
Câu 30: Một hệ thống học máy được huấn luyện để phân biệt hình ảnh giữa xe đạp và xe máy. Nếu dữ liệu huấn luyện chỉ bao gồm hình ảnh xe đạp và xe máy được chụp từ góc nhìn trực diện, mô hình có khả năng gặp khó khăn gì khi xử lý hình ảnh xe máy được chụp từ góc nhìn nghiêng hoặc từ phía sau?
- A. Khả năng khái quát hóa kém đối với các biến thể trong dữ liệu (góc nhìn, điều kiện ánh sáng, v.v.) không có trong tập huấn luyện.
- B. Mô hình sẽ yêu cầu thêm nhãn cho các hình ảnh mới.
- C. Tốc độ xử lý hình ảnh sẽ giảm đáng kể.
- D. Mô hình sẽ tự động điều chỉnh để nhận dạng được các góc nhìn mới.