Trắc nghiệm Tin học 12 Kết nối tri thức Bài 27: Máy tính và Khoa học dữ liệu - Đề 08
Trắc nghiệm Tin học 12 Kết nối tri thức Bài 27: Máy tính và Khoa học dữ liệu - Đề 08 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quy trình khoa học dữ liệu, máy tính đóng vai trò chủ chốt nào trong giai đoạn thu thập dữ liệu từ các nguồn khác nhau?
- A. Chỉ thực hiện phân tích thống kê đơn giản.
- B. Tự động tạo ra dữ liệu mới hoàn toàn.
- C. Chỉ hiển thị dữ liệu dưới dạng biểu đồ.
- D. Cung cấp công cụ và khả năng kết nối để tự động hóa việc thu thập dữ liệu từ nhiều nguồn.
Câu 2: Giai đoạn tiền xử lý dữ liệu (data preprocessing) trong khoa học dữ liệu thường bao gồm các công việc như làm sạch dữ liệu, xử lý dữ liệu bị thiếu, chuyển đổi định dạng. Vai trò của máy tính trong giai đoạn này là gì?
- A. Thực hiện các phép tính toán học phức tạp để dự đoán xu hướng.
- B. Áp dụng các thuật toán để làm sạch, biến đổi và chuẩn hóa dữ liệu với số lượng lớn một cách tự động.
- C. Lưu trữ dữ liệu tạm thời trước khi phân tích.
- D. Tạo báo cáo tổng hợp về chất lượng dữ liệu.
Câu 3: Một nhà khoa học dữ liệu đang làm việc với một tập dữ liệu gồm hàng terabyte thông tin giao dịch khách hàng để tìm ra các mẫu mua sắm bất thường. Công nghệ tính toán nào sau đây là cần thiết nhất để xử lý khối lượng dữ liệu khổng lồ này một cách hiệu quả?
- A. Máy tính cá nhân cấu hình thấp.
- B. Phần mềm soạn thảo văn bản.
- C. Hệ thống máy tính có khả năng xử lý song song hoặc điện toán đám mây.
- D. Máy in tốc độ cao.
Câu 4: Trong khoa học dữ liệu, trực quan hóa dữ liệu (data visualization) là quá trình biểu diễn dữ liệu và kết quả phân tích dưới dạng đồ họa (biểu đồ, đồ thị...). Máy tính hỗ trợ quá trình này như thế nào?
- A. Cung cấp các công cụ phần mềm để tạo ra biểu đồ, đồ thị tương tác từ dữ liệu đã xử lý.
- B. Chỉ đơn thuần lưu trữ các hình ảnh biểu đồ đã có sẵn.
- C. Tự động giải thích ý nghĩa của biểu đồ mà không cần sự can thiệp của con người.
- D. Tạo ra dữ liệu giả để điền vào biểu đồ.
Câu 5: Dự án Hệ gene người (Human Genome Project - HGP) là một ví dụ điển hình về việc ứng dụng máy tính trong khoa học dữ liệu quy mô lớn. Vai trò quan trọng nhất của máy tính và các thuật toán trong HGP là gì?
- A. Chỉ để ghi chép lại quá trình thí nghiệm bằng tay.
- B. Xử lý, lưu trữ và phân tích khối lượng dữ liệu gene khổng lồ để xác định trình tự DNA.
- C. Thay thế hoàn toàn các nhà khoa học trong phòng thí nghiệm.
- D. Tạo ra các đột biến gene mới cho nghiên cứu.
Câu 6: Điện toán đám mây (cloud computing) mang lại lợi ích đáng kể nào cho các dự án khoa học dữ liệu, đặc biệt là những dự án cần xử lý dữ liệu lớn?
- A. Bắt buộc phải mua sắm nhiều máy tính cá nhân mới.
- B. Giảm khả năng chia sẻ dữ liệu giữa các nhóm nghiên cứu.
- C. Chỉ cho phép xử lý dữ liệu khi không có kết nối internet.
- D. Cung cấp tài nguyên tính toán và lưu trữ linh hoạt, có khả năng mở rộng theo nhu cầu mà không cần đầu tư lớn vào cơ sở hạ tầng vật lý ban đầu.
Câu 7: Khả năng xử lý song song (parallel processing) là kỹ thuật cho phép nhiều tác vụ tính toán được thực hiện đồng thời. Kỹ thuật này đặc biệt quan trọng trong khoa học dữ liệu để giải quyết vấn đề gì?
- A. Giảm đáng kể thời gian cần thiết để phân tích các tập dữ liệu rất lớn và phức tạp.
- B. Chỉ dùng để tạo ra các biểu đồ đơn giản.
- C. Giảm độ chính xác của kết quả phân tích.
- D. Tăng chi phí vận hành hệ thống máy tính.
Câu 8: Tự động hóa (automation) trong khoa học dữ liệu, được hỗ trợ bởi máy tính và thuật toán, giúp cải thiện hiệu quả công việc như thế nào?
- A. Loại bỏ hoàn toàn vai trò của con người trong mọi giai đoạn.
- B. Chỉ áp dụng được cho các tập dữ liệu rất nhỏ.
- C. Tăng tốc độ thực hiện các tác vụ lặp đi lặp lại (ví dụ: thu thập, làm sạch), giảm thiểu sai sót do con người và đảm bảo tính nhất quán.
- D. Làm cho quy trình phân tích trở nên phức tạp hơn.
Câu 9: Khi một công ty thương mại điện tử muốn phân tích hành vi mua sắm của hàng triệu khách hàng để đưa ra các đề xuất sản phẩm cá nhân hóa theo thời gian thực, khả năng tính toán của máy tính đóng vai trò nào?
- A. Chỉ lưu trữ lịch sử mua hàng của khách.
- B. Thực hiện các mô hình phân tích phức tạp trên dữ liệu lớn với tốc độ cao để đưa ra đề xuất ngay lập tức.
- C. Tạo ra các sản phẩm mới dựa trên dữ liệu.
- D. In ấn danh sách sản phẩm phổ biến nhất.
Câu 10: Một nhà nghiên cứu cần phân tích dữ liệu từ kính thiên văn vô tuyến để tìm kiếm các tín hiệu bất thường có thể chỉ ra sự sống ngoài Trái Đất. Khối lượng dữ liệu này là cực kỳ lớn. Công nghệ tính toán nào giúp nhà nghiên cứu xử lý được thách thức về quy mô dữ liệu này?
- A. Sử dụng siêu máy tính hoặc hệ thống điện toán phân tán.
- B. Chỉ phân tích một phần rất nhỏ dữ liệu.
- C. Thực hiện phân tích bằng tay trên giấy.
- D. Sử dụng máy tính bảng thông thường.
Câu 11: Giả sử bạn cần xây dựng một mô hình dự đoán giá nhà dựa trên hàng trăm yếu tố (diện tích, vị trí, số phòng...). Việc huấn luyện mô hình này đòi hỏi lặp đi lặp lại các phép tính phức tạp trên tập dữ liệu lớn. Máy tính với cấu hình mạnh (CPU/GPU) hỗ trợ công việc này như thế nào?
- A. Chỉ giúp nhập dữ liệu giá nhà ban đầu.
- B. Tự động thu thập dữ liệu từ internet mà không cần thuật toán.
- C. Chỉ hiển thị kết quả cuối cùng của mô hình.
- D. Cung cấp sức mạnh xử lý cần thiết để thực hiện các thuật toán học máy phức tạp và huấn luyện mô hình trong thời gian hợp lý.
Câu 12: Trong bối cảnh khoa học dữ liệu, thuật toán học máy (machine learning algorithms) thường được sử dụng để tìm kiếm các mẫu ẩn, phân loại hoặc dự đoán. Máy tính đóng vai trò gì trong việc triển khai và thực thi các thuật toán này?
- A. Chỉ viết ra mã lệnh của thuật toán.
- B. Tự động thiết kế thuật toán mới mà không cần lập trình.
- C. Là nền tảng vật lý và môi trường phần mềm để chạy các thuật toán học máy trên dữ liệu.
- D. Lưu trữ kết quả cuối cùng dưới dạng tệp PDF.
Câu 13: Một trong những thách thức lớn khi làm việc với dữ liệu lớn (Big Data) là tốc độ xử lý. Ngoài xử lý song song, máy tính còn hỗ trợ giải quyết thách thức này thông qua việc sử dụng các cấu trúc dữ liệu và hệ quản trị cơ sở dữ liệu được tối ưu hóa cho dữ liệu lớn. Điều này giúp gì?
- A. Làm cho dữ liệu trở nên phức tạp hơn.
- B. Truy xuất và xử lý dữ liệu nhanh hơn so với các phương pháp truyền thống.
- C. Giảm kích thước tổng thể của tập dữ liệu.
- D. Tăng chi phí lưu trữ dữ liệu.
Câu 14: Xét một hệ thống giám sát giao thông thông minh sử dụng camera và cảm biến để thu thập dữ liệu về lưu lượng xe theo thời gian thực. Khoa học dữ liệu được áp dụng để phân tích dữ liệu này nhằm tối ưu hóa tín hiệu đèn giao thông. Máy tính đóng vai trò gì trong việc cho phép phân tích theo thời gian thực này?
- A. Cung cấp khả năng xử lý dữ liệu liên tục và tốc độ cao ngay khi dữ liệu được thu thập.
- B. Chỉ lưu trữ dữ liệu và phân tích sau đó hàng tuần.
- C. Tạo ra các phương tiện giao thông ảo.
- D. Chỉ hiển thị hình ảnh từ camera.
Câu 15: Tích hợp dữ liệu từ nhiều nguồn khác nhau là một công việc phổ biến trong khoa học dữ liệu (ví dụ: kết hợp dữ liệu bán hàng, dữ liệu marketing và dữ liệu phản hồi khách hàng). Máy tính và các công cụ phần mềm hỗ trợ việc tích hợp này như thế nào?
- A. Chỉ cho phép tích hợp dữ liệu nếu chúng có cùng định dạng ban đầu.
- B. Yêu cầu người dùng phải nhập lại toàn bộ dữ liệu vào một tệp duy nhất.
- C. Tự động tạo ra các nguồn dữ liệu mới để tích hợp.
- D. Cung cấp các công cụ, API và khả năng xử lý để kết nối, biến đổi và hợp nhất dữ liệu từ các nguồn, định dạng khác nhau một cách hiệu quả.
Câu 16: Khi một nhà khoa học dữ liệu sử dụng thư viện phần mềm như Pandas (trong Python) để làm sạch và biến đổi dữ liệu, họ đang tận dụng khả năng nào của máy tính?
- A. Khả năng in ấn tài liệu.
- B. Khả năng thực thi mã lệnh và sử dụng các thư viện được viết sẵn để thao tác dữ liệu.
- C. Khả năng giao tiếp bằng giọng nói.
- D. Khả năng kết nối mạng internet duy nhất.
Câu 17: Một nhóm nghiên cứu y tế đang sử dụng máy tính để phân tích dữ liệu hình ảnh y tế (ví dụ: ảnh X-quang, MRI) nhằm phát hiện sớm các dấu hiệu bệnh. Công nghệ nào trong khoa học dữ liệu, được hỗ trợ mạnh mẽ bởi máy tính, thường được sử dụng cho loại phân tích hình ảnh này?
- A. Học sâu (Deep Learning), đặc biệt là Mạng nơ-ron tích chập (CNN).
- B. Phân tích dữ liệu văn bản.
- C. Mô hình dự báo thời tiết.
- D. Cơ sở dữ liệu quan hệ truyền thống.
Câu 18: Việc lưu trữ khối lượng dữ liệu khổng lồ, ngày càng tăng là một thách thức trong khoa học dữ liệu. Máy tính và các hệ thống lưu trữ hiện đại (ví dụ: hệ thống tệp phân tán, cơ sở dữ liệu NoSQL) giải quyết thách thức này như thế nào?
- A. Bằng cách xóa bớt dữ liệu cũ.
- B. Chỉ cho phép lưu trữ dữ liệu dưới dạng văn bản thuần túy.
- C. Cung cấp khả năng lưu trữ có dung lượng lớn, chi phí hiệu quả và khả năng mở rộng để chứa dữ liệu Big Data.
- D. Lưu trữ tất cả dữ liệu trên một ổ đĩa cứng duy nhất.
Câu 19: Trong các mô hình dự báo (ví dụ: dự báo doanh số bán hàng, dự báo thời tiết), khoa học dữ liệu sử dụng các thuật toán phức tạp. Máy tính cung cấp nền tảng để thực hiện các phép tính lặp đi lặp lại với độ chính xác cao, điều này quan trọng vì:
- A. Làm cho quá trình dự báo mất nhiều thời gian hơn.
- B. Giảm số lượng dữ liệu cần thiết.
- C. Chỉ cho phép dự báo các sự kiện trong quá khứ.
- D. Đảm bảo kết quả dự báo đáng tin cậy và chính xác dựa trên dữ liệu và mô hình.
Câu 20: Một công ty muốn sử dụng khoa học dữ liệu để phân tích cảm xúc (sentiment analysis) từ hàng triệu bình luận của khách hàng trên mạng xã hội. Công việc này đòi hỏi xử lý ngôn ngữ tự nhiên (NLP). Máy tính hỗ trợ giai đoạn phân tích NLP này như thế nào?
- A. Chỉ hiển thị các bình luận tích cực.
- B. Cung cấp sức mạnh tính toán để chạy các mô hình NLP phức tạp nhằm phân tích cấu trúc, ngữ nghĩa và cảm xúc trong văn bản.
- C. Tự động trả lời bình luận của khách hàng.
- D. Dịch bình luận sang ngôn ngữ khác.
Câu 21: Giả sử bạn có một tập dữ liệu về nhiệt độ và lượng mưa của một thành phố trong 10 năm và muốn tìm mối tương quan giữa hai yếu tố này bằng hồi quy tuyến tính. Máy tính giúp bạn thực hiện việc này bằng cách:
- A. Thay đổi dữ liệu nhiệt độ và lượng mưa.
- B. Chỉ hiển thị dữ liệu thô.
- C. Thực thi thuật toán hồi quy tuyến tính để tính toán hệ số tương quan và xây dựng mô hình dựa trên dữ liệu đầu vào.
- D. Tự động viết báo cáo khoa học về kết quả.
Câu 22: Việc chia sẻ và cộng tác trên các dự án khoa học dữ liệu quy mô lớn trở nên dễ dàng hơn nhờ có máy tính và mạng máy tính. Lợi ích cụ thể của khả năng này là gì?
- A. Cho phép các nhà khoa học dữ liệu từ các địa điểm khác nhau cùng truy cập, xử lý và cập nhật dữ liệu, mô hình một cách hiệu quả.
- B. Bắt buộc mỗi người phải làm việc độc lập trên bản sao dữ liệu riêng.
- C. Chỉ cho phép chia sẻ kết quả cuối cùng, không phải dữ liệu thô.
- D. Làm tăng nguy cơ mất mát dữ liệu.
Câu 23: Khi một thuật toán học máy được "triển khai" (deployed), nghĩa là nó được đưa vào sử dụng trong một ứng dụng thực tế (ví dụ: hệ thống đề xuất sản phẩm, phát hiện gian lận). Máy tính đóng vai trò gì trong giai đoạn triển khai này?
- A. Chỉ dùng để tạo ra tài liệu hướng dẫn sử dụng.
- B. Tự động cải tiến thuật toán mà không cần dữ liệu mới.
- C. Chỉ hiển thị mã nguồn của thuật toán.
- D. Cung cấp môi trường chạy (server, nền tảng đám mây...) để thuật toán có thể nhận dữ liệu đầu vào mới và đưa ra kết quả/dự đoán trong thời gian thực hoặc gần thời gian thực.
Câu 24: Công cụ Jupyter Notebook, một môi trường lập trình dựa trên web phổ biến trong khoa học dữ liệu, cho phép người dùng kết hợp code, văn bản giải thích, công thức và trực quan hóa dữ liệu. Máy tính cung cấp khả năng nào để hỗ trợ môi trường tương tác này?
- A. Chỉ dùng để viết văn bản.
- B. Khả năng thực thi từng đoạn mã (cell), hiển thị kết quả ngay lập tức và tích hợp các thành phần đa phương tiện.
- C. Tự động viết code cho người dùng.
- D. Chỉ dùng để vẽ biểu đồ tĩnh.
Câu 25: Một công ty bảo hiểm muốn phân tích dữ liệu lịch sử yêu cầu bồi thường để phát hiện các hành vi gian lận tiềm ẩn. Phân tích này thường dựa vào việc tìm kiếm các mẫu bất thường trong tập dữ liệu lớn. Máy tính hỗ trợ công việc này bằng cách nào?
- A. Chỉ lưu trữ các yêu cầu bồi thường đã được xác minh.
- B. Yêu cầu nhân viên đọc và phân tích từng yêu cầu bồi thường một.
- C. Cung cấp sức mạnh tính toán để chạy các thuật toán phát hiện bất thường trên toàn bộ tập dữ liệu, xác định các trường hợp có khả năng gian lận cao.
- D. Tự động thanh toán tất cả các yêu cầu bồi thường.
Câu 26: Trong khoa học dữ liệu, việc đánh giá hiệu suất của mô hình (ví dụ: độ chính xác của mô hình dự đoán) là rất quan trọng. Máy tính giúp quá trình đánh giá này bằng cách:
- A. Tự động làm cho mô hình đạt hiệu suất hoàn hảo.
- B. Chỉ hiển thị các chỉ số hiệu suất theo dạng văn bản.
- C. Yêu cầu người dùng tính toán thủ công tất cả các chỉ số.
- D. Thực hiện các phép tính thống kê và so sánh kết quả dự đoán của mô hình với dữ liệu thực tế một cách tự động và nhanh chóng.
Câu 27: Một nhà khoa học khí hậu sử dụng dữ liệu từ vệ tinh, trạm khí tượng và mô hình dự báo để nghiên cứu biến đổi khí hậu. Khối lượng và sự đa dạng của dữ liệu này rất lớn. Máy tính đóng vai trò nào trong việc quản lý và phân tích dữ liệu đa nguồn này?
- A. Cung cấp nền tảng lưu trữ, xử lý và tích hợp các loại dữ liệu khác nhau từ nhiều nguồn.
- B. Chỉ xử lý dữ liệu từ một nguồn duy nhất.
- C. Tự động thay đổi dữ liệu để phù hợp với mô hình.
- D. Chỉ dùng để hiển thị bản đồ thời tiết.
Câu 28: Khả năng mở rộng (scalability) của hệ thống tính toán là yếu tố quan trọng trong khoa học dữ liệu khi quy mô dữ liệu hoặc độ phức tạp của bài toán tăng lên. Máy tính và cơ sở hạ tầng (như điện toán đám mây) hỗ trợ khả năng mở rộng này như thế nào?
- A. Bắt buộc phải mua sắm thiết bị mới mỗi khi cần thêm tài nguyên.
- B. Giảm hiệu suất khi xử lý nhiều dữ liệu hơn.
- C. Cho phép tăng hoặc giảm tài nguyên tính toán (CPU, RAM, lưu trữ) một cách linh hoạt theo nhu cầu sử dụng.
- D. Chỉ hoạt động hiệu quả với quy mô dữ liệu cố định.
Câu 29: Một nhà tiếp thị sử dụng khoa học dữ liệu để phân khúc khách hàng dựa trên hành vi trực tuyến của họ. Điều này bao gồm việc nhóm các khách hàng có đặc điểm tương tự nhau. Máy tính hỗ trợ quá trình phân khúc này bằng cách:
- A. Tự động tạo ra các khách hàng mới cho từng phân khúc.
- B. Thực thi các thuật toán phân cụm (clustering) trên dữ liệu khách hàng để tự động nhóm họ vào các phân khúc khác nhau.
- C. Chỉ lưu trữ tên của khách hàng.
- D. Yêu cầu nhà tiếp thị tự phân loại từng khách hàng một.
Câu 30: Vai trò của máy tính trong việc lặp lại các thí nghiệm hoặc mô phỏng trong khoa học dữ liệu (ví dụ: chạy lại mô hình với các tham số khác nhau để tìm ra kết quả tốt nhất) là gì?
- A. Thực hiện các quy trình lặp lại một cách nhanh chóng, chính xác và không mệt mỏi, cho phép khám phá không gian tham số rộng lớn.
- B. Chỉ cho phép chạy thí nghiệm một lần duy nhất.
- C. Yêu cầu người dùng phải thiết lập lại toàn bộ môi trường cho mỗi lần lặp.
- D. Tự động chọn tham số tốt nhất mà không cần thử nghiệm.