Trắc nghiệm Tin học 12 Chân trời sáng tạo Bài F15: Khoa học dữ liệu - Đề 10 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Khoa học dữ liệu được mô tả là một lĩnh vực liên ngành. Điều này có nghĩa là Khoa học dữ liệu kết hợp kiến thức và kỹ thuật từ những lĩnh vực nào để phân tích và khám phá thông tin từ dữ liệu?
- A. Chỉ Khoa học máy tính và Lập trình.
- B. Chỉ Toán học và Thống kê.
- C. Toán học, Thống kê, Khoa học máy tính, Trí tuệ nhân tạo và các lĩnh vực chuyên môn khác liên quan.
- D. Chỉ Quản lý cơ sở dữ liệu và Bảo mật thông tin.
Câu 2: Một trong những mục tiêu cốt lõi của Khoa học dữ liệu là "khám phá tri thức từ dữ liệu". Kỹ thuật nào dưới đây là ví dụ điển hình cho việc khám phá tri thức bằng cách tìm ra các mối quan hệ thú vị giữa các mục trong tập dữ liệu lớn, thường được áp dụng trong phân tích giỏ hàng?
- A. Phát hiện ngoại lệ (Anomaly Detection).
- B. Khai phá luật kết hợp (Association Rule Mining).
- C. Giảm chiều dữ liệu (Dimensionality Reduction).
- D. Hồi quy tuyến tính (Linear Regression).
Câu 3: Một công ty thương mại điện tử muốn hiểu rõ hơn về hành vi mua sắm của khách hàng để đưa ra các đề xuất sản phẩm phù hợp. Họ thu thập dữ liệu về lịch sử duyệt web, lịch sử mua hàng, thông tin nhân khẩu học. Mục tiêu này của công ty thuộc nhóm mục tiêu chính nào của Khoa học dữ liệu?
- A. Tự động hóa quy trình.
- B. Tăng cường bảo mật dữ liệu.
- C. Giảm chi phí vận hành hệ thống.
- D. Cá nhân hóa dịch vụ và nâng cao trải nghiệm người dùng.
Câu 4: Dữ liệu thô thường chứa nhiều lỗi, thiếu sót hoặc không nhất quán. Giai đoạn xử lý dữ liệu nào trong quy trình Khoa học dữ liệu tập trung vào việc làm sạch, biến đổi và tích hợp dữ liệu để chuẩn bị cho việc phân tích?
- A. Tiền xử lý dữ liệu (Data Preprocessing).
- B. Mô hình hóa dữ liệu (Data Modeling).
- C. Trực quan hóa dữ liệu (Data Visualization).
- D. Triển khai mô hình (Model Deployment).
Câu 5: Một nhà phân tích dữ liệu đang sử dụng các biểu đồ (ví dụ: biểu đồ cột, biểu đồ đường, biểu đồ phân tán) để trình bày kết quả phân tích cho một nhóm không chuyên về kỹ thuật. Hoạt động này thuộc giai đoạn nào trong quy trình Khoa học dữ liệu và có mục đích gì?
- A. Tiền xử lý dữ liệu, nhằm loại bỏ dữ liệu nhiễu.
- B. Mô hình hóa dữ liệu, nhằm xây dựng thuật toán dự đoán.
- C. Trực quan hóa dữ liệu, nhằm truyền đạt thông tin và khám phá xu hướng một cách dễ hiểu.
- D. Thu thập dữ liệu, nhằm thu thập thêm dữ liệu cần thiết.
Câu 6: Một ngân hàng sử dụng Khoa học dữ liệu để phân tích các giao dịch của khách hàng nhằm phát hiện những hoạt động bất thường, có khả năng là gian lận. Kỹ thuật nào trong Khoa học dữ liệu được áp dụng chủ yếu trong trường hợp này để xác định các điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu?
- A. Phát hiện ngoại lệ (Anomaly Detection).
- B. Gom cụm (Clustering).
- C. Khai phá luật kết hợp (Association Rule Mining).
- D. Phân loại (Classification).
Câu 7: Trong lĩnh vực y tế, Khoa học dữ liệu được ứng dụng để dự đoán khả năng mắc bệnh của bệnh nhân dựa trên các triệu chứng, lịch sử y tế và kết quả xét nghiệm. Ứng dụng này thuộc nhóm mục tiêu chính nào của Khoa học dữ liệu?
- A. Tối ưu hóa quy trình vận hành.
- B. Hỗ trợ ra quyết định (ví dụ: chẩn đoán và điều trị).
- C. Tự động hóa công việc hành chính.
- D. Tìm kiếm nguồn nhân lực.
Câu 8: Một nhà khoa học dữ liệu đang xây dựng một mô hình Học máy để phân loại email thành "spam" hoặc "không spam". Quá trình này thuộc giai đoạn nào trong quy trình Khoa học dữ liệu?
- A. Thu thập dữ liệu.
- B. Mô hình hóa dữ liệu (Xây dựng và huấn luyện mô hình).
- C. Triển khai mô hình.
- D. Trực quan hóa kết quả.
Câu 9: Khi phân tích một tập dữ liệu có rất nhiều thuộc tính (chiều), việc giảm số lượng thuộc tính xuống mà vẫn giữ được thông tin quan trọng là cần thiết để đơn giản hóa mô hình và tránh hiện tượng quá khớp (overfitting). Kỹ thuật nào trong Khoa học dữ liệu giúp thực hiện việc này?
- A. Gom cụm (Clustering).
- B. Phát hiện ngoại lệ (Anomaly Detection).
- C. Giảm chiều dữ liệu (Dimensionality Reduction).
- D. Khai phá luật kết hợp (Association Rule Mining).
Câu 10: Một cửa hàng bán lẻ sử dụng dữ liệu bán hàng lịch sử để dự đoán nhu cầu của từng mặt hàng trong tuần tới, từ đó tối ưu hóa lượng hàng tồn kho. Ứng dụng này của Khoa học dữ liệu thuộc nhóm mục tiêu chính nào?
- A. Tối ưu hóa quyết định và quy trình.
- B. Cá nhân hóa dịch vụ.
- C. Phát hiện hành vi gian lận.
- D. Tăng cường bảo mật hệ thống.
Câu 11: Công cụ nào dưới đây chủ yếu được biết đến là một ngôn ngữ lập trình phổ biến được sử dụng rộng rãi trong Khoa học dữ liệu để xử lý, phân tích và mô hình hóa dữ liệu?
- A. Microsoft Word.
- B. Adobe Photoshop.
- C. Google Chrome.
- D. Python.
Câu 12: Trong quy trình Khoa học dữ liệu, sau khi đã tiền xử lý và khám phá dữ liệu, giai đoạn tiếp theo thường là xây dựng các mô hình (ví dụ: mô hình dự đoán, mô hình phân loại). Giai đoạn này được gọi là gì?
- A. Thu thập dữ liệu.
- B. Trực quan hóa dữ liệu.
- C. Mô hình hóa dữ liệu.
- D. Triển khai mô hình.
Câu 13: Một nhà khoa học dữ liệu cần trình bày một cách trực quan mối quan hệ giữa hai biến số liên tục (ví dụ: chi tiêu quảng cáo và doanh thu). Biểu đồ nào sau đây là phù hợp nhất để thể hiện mối quan hệ này?
- A. Biểu đồ phân tán (Scatter plot).
- B. Biểu đồ cột (Bar chart).
- C. Biểu đồ tròn (Pie chart).
- D. Biểu đồ tần suất (Histogram).
Câu 14: Một công ty viễn thông muốn phân tích dữ liệu cuộc gọi của khách hàng để xác định các nhóm khách hàng có hành vi sử dụng tương tự nhau nhằm mục đích tiếp thị mục tiêu. Kỹ thuật nào trong Khoa học dữ liệu phù hợp nhất để nhóm các đối tượng (khách hàng) dựa trên sự tương đồng về đặc điểm (hành vi sử dụng)?
- A. Phân loại (Classification).
- B. Gom cụm (Clustering).
- C. Hồi quy (Regression).
- D. Phát hiện ngoại lệ (Anomaly Detection).
Câu 15: Khi một mô hình Khoa học dữ liệu đã được xây dựng và kiểm thử thành công, bước tiếp theo là đưa mô hình đó vào sử dụng trong môi trường thực tế để tạo ra giá trị (ví dụ: tích hợp vào ứng dụng web, hệ thống nội bộ). Bước này được gọi là gì?
- A. Khám phá dữ liệu.
- B. Tiền xử lý dữ liệu.
- C. Đánh giá mô hình.
- D. Triển khai mô hình (Model Deployment).
Câu 16: Hệ thống gợi ý sản phẩm trên các trang thương mại điện tử (ví dụ: "Những khách hàng mua X cũng mua Y") là một ví dụ điển hình của ứng dụng Khoa học dữ liệu sử dụng kỹ thuật nào?
- A. Khai phá luật kết hợp (Association Rule Mining).
- B. Phát hiện ngoại lệ (Anomaly Detection).
- C. Giảm chiều dữ liệu (Dimensionality Reduction).
- D. Phân loại (Classification).
Câu 17: Công cụ nào dưới đây KHÔNG phải là công cụ/nền tảng phổ biến được sử dụng trong Khoa học dữ liệu để phân tích và trực quan hóa dữ liệu?
- A. Power BI.
- B. Tableau.
- C. Microsoft Paint.
- D. Google Data Studio.
Câu 18: Một trong những thách thức lớn nhất trong Khoa học dữ liệu, đặc biệt khi làm việc với dữ liệu lớn, là đảm bảo chất lượng dữ liệu. Dữ liệu kém chất lượng có thể dẫn đến kết quả phân tích sai lệch. Bước nào trong quy trình Khoa học dữ liệu được thiết kế để giải quyết vấn đề này?
- A. Tiền xử lý dữ liệu (Data Preprocessing).
- B. Triển khai mô hình (Model Deployment).
- C. Đánh giá mô hình (Model Evaluation).
- D. Thu thập dữ liệu (Data Collection).
Câu 19: Một nhà khoa học dữ liệu được giao nhiệm vụ dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng ngủ, vị trí, v.v. Bài toán này thuộc loại mô hình học máy nào trong Khoa học dữ liệu?
- A. Bài toán phân loại (Classification).
- B. Bài toán gom cụm (Clustering).
- C. Bài toán phát hiện ngoại lệ (Anomaly Detection).
- D. Bài toán hồi quy (Regression).
Câu 20: Lĩnh vực Trí tuệ nhân tạo (AI), đặc biệt là Học máy (Machine Learning), đóng vai trò quan trọng trong Khoa học dữ liệu. Mối quan hệ chính giữa Học máy và Khoa học dữ liệu là gì?
- A. Khoa học dữ liệu là một nhánh con của Học máy.
- B. Học máy là một tập hợp các kỹ thuật và công cụ mạnh mẽ được Khoa học dữ liệu sử dụng để xây dựng mô hình và khám phá tri thức.
- C. Học máy và Khoa học dữ liệu là hai lĩnh vực hoàn toàn độc lập.
- D. Khoa học dữ liệu chỉ sử dụng Học máy để trực quan hóa dữ liệu.
Câu 21: Một trong những thành tựu đáng chú ý của Khoa học dữ liệu là khả năng tự động hóa các tác vụ lặp đi lặp lại dựa trên phân tích dữ liệu. Ví dụ nào sau đây thể hiện rõ nhất thành tựu này?
- A. Tạo ra một báo cáo bán hàng thủ công hàng tháng.
- B. Tổ chức cuộc họp nhóm để thảo luận về chiến lược.
- C. Hệ thống phân loại email tự động vào các thư mục khác nhau.
- D. Thiết kế giao diện người dùng cho một ứng dụng mới.
Câu 22: Để một mô hình Khoa học dữ liệu hoạt động hiệu quả trong thực tế, nó cần được đánh giá cẩn thận trên dữ liệu chưa từng thấy trong quá trình huấn luyện. Mục đích chính của việc đánh giá mô hình là gì?
- A. Đo lường hiệu suất và độ chính xác của mô hình trên dữ liệu mới.
- B. Thu thập thêm dữ liệu để huấn luyện mô hình.
- C. Biến đổi dữ liệu để phù hợp với mô hình.
- D. Trực quan hóa cấu trúc bên trong của mô hình.
Câu 23: Một công ty truyền thông muốn phân tích dữ liệu người dùng trên nền tảng của họ để hiểu loại nội dung nào được xem nhiều nhất vào những thời điểm nào trong ngày. Mục tiêu này giúp công ty tối ưu hóa lịch đăng bài. Ứng dụng này thuộc nhóm mục tiêu chính nào của Khoa học dữ liệu?
- A. Phát hiện gian lận.
- B. Cá nhân hóa quảng cáo.
- C. Phát triển phần mềm mới.
- D. Khám phá tri thức và đưa ra quyết định kinh doanh.
Câu 24: Trong quá trình tiền xử lý dữ liệu, việc xử lý các giá trị bị thiếu (missing values) là rất quan trọng. Phương pháp nào sau đây KHÔNG phải là một cách phổ biến để xử lý giá trị thiếu?
- A. Xóa bỏ các dòng hoặc cột chứa giá trị thiếu.
- B. Nhân đôi các dòng không chứa giá trị thiếu.
- C. Điền giá trị thiếu bằng giá trị trung bình, trung vị hoặc mode của cột.
- D. Sử dụng các mô hình học máy để dự đoán giá trị thiếu.
Câu 25: Phân tích cảm xúc (Sentiment Analysis) từ các bài đăng trên mạng xã hội hoặc đánh giá sản phẩm là một ứng dụng phổ biến của Khoa học dữ liệu. Bài toán này thường được giải quyết bằng loại mô hình học máy nào?
- A. Bài toán phân loại (Classification) (ví dụ: tích cực, tiêu cực, trung tính).
- B. Bài toán hồi quy (Regression).
- C. Bài toán gom cụm (Clustering).
- D. Bài toán giảm chiều dữ liệu (Dimensionality Reduction).
Câu 26: Khi trình bày kết quả phân tích dữ liệu, việc lựa chọn biểu đồ phù hợp có vai trò quan trọng trong việc truyền tải thông điệp hiệu quả. Biểu đồ nào sau đây phù hợp nhất để so sánh giá trị của một biến số giữa các danh mục khác nhau (ví dụ: doanh thu theo từng loại sản phẩm)?
- A. Biểu đồ phân tán (Scatter plot).
- B. Biểu đồ đường (Line chart).
- C. Biểu đồ cột (Bar chart).
- D. Biểu đồ miền (Area chart).
Câu 27: Khoa học dữ liệu giúp doanh nghiệp đưa ra quyết định dựa trên dữ liệu thay vì chỉ dựa vào kinh nghiệm hoặc trực giác. Điều này thường dẫn đến kết quả nào?
- A. Giảm khả năng tự động hóa.
- B. Nâng cao hiệu quả và tính chính xác của quyết định kinh doanh.
- C. Tăng chi phí hoạt động.
- D. Giảm sự cần thiết của các chuyên gia phân tích.
Câu 28: Một nhà khoa học dữ liệu đang làm việc với một tập dữ liệu văn bản lớn (ví dụ: email, bài báo). Bước tiền xử lý dữ liệu nào thường được thực hiện để chuyển đổi văn bản thành định dạng số hóa mà mô hình học máy có thể xử lý?
- A. Phát hiện ngoại lệ.
- B. Gom cụm.
- C. Trực quan hóa dữ liệu.
- D. Vector hóa văn bản (Text Vectorization) hoặc Trích xuất đặc trưng văn bản (Text Feature Extraction).
Câu 29: Trong ứng dụng y tế, Khoa học dữ liệu có thể phân tích hình ảnh y khoa (ví dụ: X-quang, MRI) để hỗ trợ bác sĩ phát hiện các dấu hiệu bệnh lý. Đây là một ví dụ về việc ứng dụng Học máy trong lĩnh vực nào?
- A. Thị giác máy tính (Computer Vision).
- B. Xử lý ngôn ngữ tự nhiên (Natural Language Processing).
- C. Hệ thống gợi ý (Recommendation Systems).
- D. Phát hiện gian lận (Fraud Detection).
Câu 30: Một công ty muốn xây dựng một chatbot trả lời tự động các câu hỏi thường gặp của khách hàng dựa trên dữ liệu các cuộc trò chuyện trước đây. Ứng dụng này của Khoa học dữ liệu chủ yếu sử dụng kỹ thuật từ lĩnh vực nào?
- A. Thị giác máy tính (Computer Vision).
- B. Xử lý ngôn ngữ tự nhiên (Natural Language Processing).
- C. Phát hiện ngoại lệ (Anomaly Detection).
- D. Giảm chiều dữ liệu (Dimensionality Reduction).