Trắc nghiệm Tin học 12 Cánh diều Bài 3: Giới thiệu về Khoa học dữ liệu ( Tiếp theo) - Đề 08
Trắc nghiệm Tin học 12 Cánh diều Bài 3: Giới thiệu về Khoa học dữ liệu ( Tiếp theo) - Đề 08 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Một công ty bán lẻ thu thập dữ liệu từ hàng triệu giao dịch mua sắm hàng ngày, dữ liệu này bao gồm mã sản phẩm, thời gian mua, địa điểm cửa hàng và thông tin khách hàng (nếu có). Đặc trưng "Volume" của Dữ liệu lớn (Big Data) thể hiện rõ nhất qua khía cạnh nào trong tình huống này?
- A. Số lượng bản ghi giao dịch khổng lồ được tạo ra liên tục mỗi ngày.
- B. Sự đa dạng của các loại sản phẩm được bán.
- C. Tốc độ xử lý dữ liệu để đưa ra khuyến mãi kịp thời.
- D. Độ chính xác của thông tin khách hàng.
Câu 2: Một hệ thống giám sát giao thông thông minh thu thập dữ liệu từ hàng ngàn cảm biến, camera và thiết bị GPS trên các phương tiện. Dữ liệu này được cập nhật liên tục theo từng giây. Đặc trưng "Velocity" của Dữ liệu lớn (Big Data) được nhấn mạnh qua yếu tố nào?
- A. Khối lượng dữ liệu lưu trữ từ các camera.
- B. Nhiều loại dữ liệu khác nhau (hình ảnh, số liệu cảm biến, vị trí).
- C. Tốc độ dữ liệu được tạo ra và cần được xử lý gần như tức thời.
- D. Độ tin cậy của dữ liệu vị trí từ GPS.
Câu 3: Một dự án phân tích dữ liệu về sức khỏe cộng đồng thu thập thông tin từ hồ sơ bệnh án (văn bản có cấu trúc), ghi chú của bác sĩ (văn bản phi cấu trúc), hình ảnh X-quang, kết quả xét nghiệm (số liệu) và dữ liệu từ thiết bị đeo tay thông minh (dữ liệu chuỗi thời gian). Đặc trưng "Variety" của Dữ liệu lớn (Big Data) thể hiện rõ nhất qua khía cạnh nào?
- A. Số lượng lớn bệnh nhân tham gia dự án.
- B. Sự tồn tại của nhiều định dạng và nguồn dữ liệu khác nhau.
- C. Tốc độ cập nhật dữ liệu từ thiết bị đeo tay.
- D. Mức độ chính xác của kết quả xét nghiệm.
Câu 4: Khi phân tích dữ liệu từ mạng xã hội để hiểu xu hướng dư luận về một sản phẩm mới, nhà khoa học dữ liệu nhận thấy nhiều bài đăng chứa thông tin mâu thuẫn hoặc không rõ ràng. Điều này liên quan trực tiếp đến đặc trưng nào của Dữ liệu lớn?
- A. Volume (Khối lượng)
- B. Velocity (Tốc độ)
- C. Variety (Đa dạng)
- D. Veracity (Tính xác thực)
Câu 5: Việc sử dụng các thuật toán học máy để dự đoán khả năng một khách hàng sẽ rời bỏ dịch vụ (churn prediction) dựa trên lịch sử tương tác của họ thuộc loại phân tích dữ liệu nào?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích đề xuất (Prescriptive Analytics)
- D. Phân tích chẩn đoán (Diagnostic Analytics)
Câu 6: Một báo cáo hàng quý tổng hợp số liệu bán hàng của công ty, bao gồm tổng doanh thu theo từng khu vực, sản phẩm bán chạy nhất và biểu đồ xu hướng doanh thu trong 3 tháng qua. Đây là ví dụ điển hình của loại phân tích dữ liệu nào?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích đề xuất (Prescriptive Analytics)
- D. Phân tích nhân quả (Causal Analytics)
Câu 7: Một hệ thống đề xuất sản phẩm trên trang thương mại điện tử phân tích lịch sử mua sắm và xem sản phẩm của bạn, sau đó đưa ra gợi ý về các mặt hàng bạn có khả năng quan tâm nhất. Chức năng này sử dụng chủ yếu loại phân tích dữ liệu nào?
- A. Phân tích mô tả
- B. Phân tích dự đoán
- C. Phân tích đề xuất
- D. Phân tích chẩn đoán
Câu 8: Một ứng dụng bản đồ giao thông sử dụng dữ liệu thời gian thực về mật độ xe cộ, tai nạn và công trình để không chỉ hiển thị tình hình giao thông hiện tại mà còn đề xuất cho người dùng tuyến đường tối ưu nhất để đến đích, tránh các điểm tắc nghẽn. Đây là ví dụ về loại phân tích dữ liệu nào?
- A. Phân tích mô tả
- B. Phân tích dự đoán
- C. Phân tích đề xuất
- D. Phân tích chẩn đoán
Câu 9: Để xử lý và phân tích hàng petabyte dữ liệu từ các kính thiên văn vô tuyến, các nhà khoa học cần một hệ thống có khả năng tính toán song song mạnh mẽ và khả năng lưu trữ linh hoạt. Công nghệ nào dưới đây đóng vai trò quan trọng trong việc cung cấp các tài nguyên này một cách hiệu quả về chi phí và khả năng mở rộng?
- A. Điện toán đám mây (Cloud Computing)
- B. Máy tính cá nhân hiệu năng cao (High-performance PC)
- C. Cơ sở dữ liệu quan hệ truyền thống (Traditional Relational Database)
- D. Phần mềm bảng tính (Spreadsheet Software)
Câu 10: Một công ty game muốn lưu trữ dữ liệu hồ sơ người dùng (không có cấu trúc cố định cho tất cả các loại game), dữ liệu tương tác trong game, và các bình luận, đánh giá của người chơi. Loại cơ sở dữ liệu nào phù hợp nhất để xử lý tính "Variety" và khả năng mở rộng linh hoạt cho lượng dữ liệu này?
- A. Cơ sở dữ liệu quan hệ (SQL Database)
- B. Hệ thống tệp tin phẳng (Flat File System)
- C. Kho dữ liệu (Data Warehouse)
- D. Cơ sở dữ liệu NoSQL
Câu 11: Để thực hiện các phép tính phức tạp trên một dataset rất lớn mà không thể chứa vừa trong bộ nhớ của một máy tính đơn lẻ, người ta thường sử dụng phương pháp phân tán công việc tính toán trên nhiều máy tính hoạt động song song. Khái niệm nào mô tả tập hợp các máy tính hoạt động như một hệ thống duy nhất để giải quyết các bài toán lớn?
- A. Máy tính cá nhân (Personal Computer)
- B. Máy tính cụm (Computer Cluster)
- C. Siêu máy tính (Supercomputer) - mặc dù siêu máy tính cũng là dạng cluster, nhưng "cluster" là khái niệm chung hơn cho tập hợp máy tính.
- D. Máy chủ đơn lẻ (Single Server)
Câu 12: Thuật toán song song (Parallel Algorithm) mang lại lợi ích gì quan trọng nhất trong việc xử lý Dữ liệu lớn?
- A. Giảm thời gian xử lý bằng cách thực hiện nhiều phép tính đồng thời.
- B. Làm cho dữ liệu trở nên chính xác hơn.
- C. Tăng tính đa dạng của dữ liệu đầu vào.
- D. Giảm khối lượng dữ liệu cần xử lý.
Câu 13: Khoa học dữ liệu là một lĩnh vực liên ngành. Ngoài Tin học và Toán học/Thống kê, lĩnh vực nào sau đây cũng đóng vai trò cốt lõi, đặc biệt trong việc hiểu rõ bài toán kinh doanh và diễn giải kết quả phân tích?
- A. Vật lý học
- B. Ngữ văn
- C. Kiến thức chuyên ngành (Domain Knowledge) của lĩnh vực ứng dụng
- D. Lịch sử học
Câu 14: Quá trình khám phá các mẫu, xu hướng và thông tin hữu ích từ các tập dữ liệu lớn, thường sử dụng kết hợp các kỹ thuật từ thống kê, học máy và hệ thống cơ sở dữ liệu được gọi là gì?
- A. Khai phá dữ liệu (Data Mining)
- B. Nhập liệu (Data Entry)
- C. Báo cáo dữ liệu (Data Reporting)
- D. Sao lưu dữ liệu (Data Backup)
Câu 15: Trong quy trình Khoa học dữ liệu, bước nào thường bao gồm việc làm sạch dữ liệu, xử lý các giá trị thiếu, chuẩn hóa định dạng và tích hợp dữ liệu từ nhiều nguồn khác nhau?
- A. Hiểu biết về bài toán (Business Understanding)
- B. Chuẩn bị dữ liệu (Data Preparation)
- C. Mô hình hóa (Modeling)
- D. Đánh giá mô hình (Evaluation)
Câu 16: Sau khi xây dựng và huấn luyện một mô hình dự đoán, nhà khoa học dữ liệu cần đánh giá hiệu suất của mô hình đó bằng cách sử dụng các chỉ số phù hợp (ví dụ: độ chính xác, độ phủ, F1-score). Bước này thuộc giai đoạn nào trong quy trình Khoa học dữ liệu?
- A. Thu thập dữ liệu
- B. Trực quan hóa dữ liệu
- C. Mô hình hóa
- D. Đánh giá mô hình
Câu 17: Việc trình bày kết quả phân tích dữ liệu dưới dạng biểu đồ, đồ thị, báo cáo tương tác để giúp người không chuyên về kỹ thuật dễ dàng hiểu và đưa ra quyết định được gọi là gì?
- A. Khai phá dữ liệu
- B. Mô hình hóa dữ liệu
- C. Trực quan hóa dữ liệu (Data Visualization)
- D. Thu thập dữ liệu
Câu 18: Một ngân hàng sử dụng Khoa học dữ liệu để phân tích các giao dịch bất thường, phát hiện các mẫu hành vi đáng ngờ nhằm ngăn chặn gian lận thẻ tín dụng. Đây là ứng dụng của Khoa học dữ liệu trong lĩnh vực nào?
- A. Tài chính - Ngân hàng
- B. Y tế
- C. Giáo dục
- D. Nông nghiệp
Câu 19: Một bệnh viện áp dụng Khoa học dữ liệu để phân tích dữ liệu bệnh sử, kết quả xét nghiệm và hình ảnh y tế nhằm hỗ trợ bác sĩ chẩn đoán bệnh sớm hơn hoặc đưa ra phác đồ điều trị cá nhân hóa cho bệnh nhân. Đây là ứng dụng của Khoa học dữ liệu trong lĩnh vực nào?
- A. Thương mại điện tử
- B. Y tế
- C. Sản xuất
- D. Du lịch
Câu 20: Một công ty sản xuất sử dụng cảm biến IoT để thu thập dữ liệu từ máy móc trong nhà máy (nhiệt độ, áp suất, độ rung). Khoa học dữ liệu được áp dụng để phân tích dữ liệu này nhằm dự đoán khi nào một bộ phận máy có khả năng hỏng hóc, từ đó thực hiện bảo trì phòng ngừa. Ứng dụng này thuộc lĩnh vực nào?
- A. Giải trí
- B. Chính phủ
- C. Sản xuất công nghiệp
- D. Vận tải logistics
Câu 21: Khi làm việc với Dữ liệu lớn, đặc trưng "Value" đề cập đến điều gì?
- A. Chi phí để lưu trữ dữ liệu.
- B. Số lượng người truy cập dữ liệu.
- C. Tốc độ xử lý dữ liệu.
- D. Khả năng trích xuất thông tin hữu ích và tạo ra giá trị kinh tế/xã hội từ dữ liệu.
Câu 22: Phân tích chẩn đoán (Diagnostic Analytics) trong Khoa học dữ liệu nhằm mục đích chính là gì?
- A. Mô tả điều gì đang xảy ra.
- B. Dự đoán điều gì sẽ xảy ra trong tương lai.
- C. Giải thích tại sao điều gì đó lại xảy ra (tìm nguyên nhân gốc rễ).
- D. Đề xuất hành động nên làm tiếp theo.
Câu 23: Một nhà khoa học dữ liệu đang tìm cách xây dựng một mô hình để phân loại các email là "spam" hoặc "không spam". Đây là một bài toán điển hình của loại phân tích nào?
- A. Phân tích mô tả
- B. Phân tích dự đoán (cụ thể là phân loại)
- C. Phân tích đề xuất
- D. Trực quan hóa dữ liệu
Câu 24: Công cụ nào dưới đây thường được sử dụng để trực quan hóa kết quả phân tích dữ liệu, giúp người dùng dễ dàng nhận diện xu hướng và mẫu hình?
- A. Tableau, Power BI, Matplotlib
- B. MySQL, PostgreSQL
- C. Hadoop, Spark
- D. Python (chỉ ngôn ngữ, không phải công cụ trực quan hóa cụ thể)
Câu 25: Tầm quan trọng của kiến thức chuyên ngành (Domain Knowledge) trong Khoa học dữ liệu thể hiện rõ nhất ở giai đoạn nào trong quy trình xử lý dữ liệu?
- A. Chỉ trong việc thu thập dữ liệu.
- B. Chỉ trong việc viết mã lập trình.
- C. Chỉ trong việc lưu trữ dữ liệu.
- D. Trong việc hiểu bài toán kinh doanh, chuẩn bị dữ liệu, lựa chọn mô hình và diễn giải kết quả.
Câu 26: Một thách thức lớn khi làm việc với Dữ liệu lớn là việc tích hợp dữ liệu từ nhiều nguồn khác nhau với các định dạng, cấu trúc và mức độ sạch sẽ không đồng nhất. Thách thức này liên quan chủ yếu đến đặc trưng nào của Dữ liệu lớn?
- A. Volume
- B. Velocity
- C. Variety
- D. Value
Câu 27: Trong bối cảnh Dữ liệu lớn, thuật toán MapReduce (hoặc các framework tương tự như Spark) được thiết kế để làm gì?
- A. Thu thập dữ liệu từ các nguồn khác nhau.
- B. Xử lý song song các tập dữ liệu lớn trên một cụm máy tính.
- C. Trực quan hóa dữ liệu phức tạp.
- D. Thiết kế cơ sở dữ liệu NoSQL.
Câu 28: Việc đảm bảo quyền riêng tư của người dùng khi phân tích dữ liệu cá nhân là một khía cạnh quan trọng của Khoa học dữ liệu. Điều này thuộc về vấn đề gì?
- A. Hiệu suất xử lý.
- B. Khả năng mở rộng hệ thống.
- C. Đa dạng dữ liệu.
- D. Đạo đức và pháp lý (Ethics and Legal).
Câu 29: Một trong những vai trò chính của máy tính và thuật toán trong Khoa học dữ liệu là khả năng tự động hóa các tác vụ phân tích phức tạp. Điều này giúp vượt qua hạn chế nào của con người khi xử lý Dữ liệu lớn?
- A. Khả năng xử lý và tìm mẫu trong lượng dữ liệu khổng lồ và tốc độ cao.
- B. Khả năng hiểu biết chuyên ngành sâu sắc.
- C. Khả năng đặt ra câu hỏi nghiên cứu ban đầu.
- D. Khả năng diễn giải kết quả cho người khác.
Câu 30: Khoa học dữ liệu không chỉ dừng lại ở việc phân tích dữ liệu quá khứ hay dự đoán tương lai mà còn hướng tới việc đưa ra các khuyến nghị hành động cụ thể. Khía cạnh này thể hiện rõ nhất ở loại phân tích nào?
- A. Phân tích mô tả
- B. Phân tích dự đoán
- C. Phân tích đề xuất
- D. Trực quan hóa dữ liệu