Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 03 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Một công ty bán lẻ lớn thu thập dữ liệu từ nhiều nguồn: giao dịch bán hàng tại cửa hàng, hoạt động trực tuyến, tương tác trên mạng xã hội và dữ liệu từ cảm biến IoT trong chuỗi cung ứng. Dữ liệu này thể hiện đặc điểm "đa dạng" (Variety) của Big Data như thế nào?
- A. Số lượng giao dịch bán hàng khổng lồ được tạo ra mỗi giây.
- B. Dữ liệu đến từ các nguồn khác nhau như văn bản, hình ảnh, video và dữ liệu cảm biến.
- C. Tốc độ dữ liệu được tạo ra và cần được xử lý nhanh chóng.
- D. Độ tin cậy và chính xác của dữ liệu thu thập được từ nhiều nguồn.
Câu 2: Trong kiến trúc Hadoop HDFS, thành phần nào chịu trách nhiệm quản lý metadata của hệ thống tệp, bao gồm thông tin về vị trí các khối dữ liệu và quyền truy cập?
- A. NameNode
- B. DataNode
- C. ResourceManager
- D. NodeManager
Câu 3: Xét tình huống một hệ thống Big Data cần xử lý luồng dữ liệu nhật ký web liên tục để phát hiện và ngăn chặn tấn công DDoS trong thời gian thực. Phương pháp xử lý dữ liệu nào sau đây phù hợp nhất?
- A. Xử lý hàng loạt (Batch processing)
- B. Xử lý theo yêu cầu (On-demand processing)
- C. Xử lý luồng (Stream processing)
- D. Xử lý trong bộ nhớ (In-memory processing) trên toàn bộ dữ liệu
Câu 4: Công nghệ NoSQL thường được ưa chuộng hơn so với cơ sở dữ liệu quan hệ (RDBMS) trong Big Data vì lý do chính nào sau đây?
- A. NoSQL đảm bảo tính toàn vẹn dữ liệu (ACID) mạnh mẽ hơn RDBMS.
- B. NoSQL sử dụng ngôn ngữ truy vấn SQL chuẩn, dễ học hơn.
- C. NoSQL có chi phí triển khai và vận hành thấp hơn RDBMS trong mọi trường hợp.
- D. NoSQL có khả năng mở rộng theo chiều ngang (horizontally scalable) tốt hơn để xử lý lượng dữ liệu lớn và tăng trưởng nhanh.
Câu 5: Trong mô hình lập trình MapReduce, giai đoạn "Reduce" có vai trò chính là gì?
- A. Phân chia dữ liệu đầu vào thành các phần nhỏ hơn để xử lý song song.
- B. Tổng hợp, kết hợp và rút gọn dữ liệu đã được xử lý ở giai đoạn Map để tạo ra kết quả cuối cùng.
- C. Lọc và chuyển đổi dữ liệu đầu vào sang định dạng phù hợp.
- D. Đảm bảo dữ liệu được lưu trữ an toàn và tin cậy trong hệ thống phân tán.
Câu 6: "Data Lake" và "Data Warehouse" là hai kiến trúc lưu trữ dữ liệu khác nhau. Điểm khác biệt cốt lõi giữa Data Lake và Data Warehouse là gì?
- A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ dữ liệu phi cấu trúc.
- B. Data Lake được thiết kế cho truy vấn thời gian thực, còn Data Warehouse cho phân tích lịch sử.
- C. Data Lake lưu trữ dữ liệu thô ở định dạng gốc, còn Data Warehouse lưu trữ dữ liệu đã được xử lý và cấu trúc hóa cho mục đích phân tích cụ thể.
- D. Data Lake sử dụng cơ sở dữ liệu quan hệ, còn Data Warehouse sử dụng NoSQL.
Câu 7: Giả sử bạn cần phân tích nhật ký truy cập website (web access logs) để xác định các mẫu hành vi người dùng và phát hiện các phiên truy cập bất thường. Công cụ nào sau đây trong hệ sinh thái Hadoop phù hợp nhất cho tác vụ này?
- A. HDFS (Hadoop Distributed File System)
- B. Hive hoặc Pig
- C. YARN (Yet Another Resource Negotiator)
- D. ZooKeeper
Câu 8: Trong Big Data, "tính khả biến" (Veracity) đề cập đến khía cạnh nào của dữ liệu?
- A. Lượng dữ liệu khổng lồ cần được xử lý.
- B. Tốc độ dữ liệu được tạo ra và thay đổi.
- C. Sự đa dạng về loại và định dạng dữ liệu.
- D. Độ tin cậy, độ chính xác và chất lượng của dữ liệu, bao gồm cả việc xử lý dữ liệu nhiễu và không nhất quán.
Câu 9: Để đảm bảo an ninh dữ liệu trong môi trường Big Data, biện pháp nào sau đây là quan trọng nhất?
- A. Tăng tốc độ xử lý dữ liệu.
- B. Mở rộng khả năng lưu trữ dữ liệu.
- C. Mã hóa dữ liệu nhạy cảm khi lưu trữ và truyền tải.
- D. Đảm bảo tính sẵn sàng cao của hệ thống.
Câu 10: Khái niệm "CAP Theorem" trong hệ thống phân tán nhấn mạnh đến sự đánh đổi giữa ba yếu tố nào?
- A. Công suất (Capacity), Tính khả dụng (Availability), Hiệu suất (Performance).
- B. Tính nhất quán (Consistency), Tính khả dụng (Availability), Khả năng chịu phân vùng (Partition Tolerance).
- C. Chi phí (Cost), Tính khả dụng (Availability), Hiệu suất (Performance).
- D. Tính nhất quán (Consistency), Tính toàn vẹn (Integrity), Khả năng chịu lỗi (Fault Tolerance).
Câu 11: Quy trình ETL (Extract, Transform, Load) đóng vai trò gì trong dự án Big Data?
- A. Chuẩn bị và tích hợp dữ liệu từ nhiều nguồn khác nhau để sẵn sàng cho phân tích.
- B. Phân tích dữ liệu lớn để khám phá thông tin chi tiết và xu hướng.
- C. Trực quan hóa dữ liệu để trình bày kết quả phân tích.
- D. Quản lý và giám sát hạ tầng Big Data.
Câu 12: Trong ngữ cảnh Big Data, "Data Governance" (Quản trị dữ liệu) bao gồm những hoạt động chính nào?
- A. Chỉ tập trung vào bảo mật dữ liệu.
- B. Chỉ tập trung vào chất lượng dữ liệu.
- C. Chỉ tập trung vào tuân thủ quy định về dữ liệu.
- D. Thiết lập các chính sách, quy trình, tiêu chuẩn và trách nhiệm để quản lý, bảo mật, chất lượng và tuân thủ dữ liệu trong toàn tổ chức.
Câu 13: "Spark Streaming" và "Apache Kafka" thường được sử dụng cùng nhau trong các ứng dụng Big Data thời gian thực. Kafka đóng vai trò chính là gì trong sự kết hợp này?
- A. Xử lý và phân tích dữ liệu luồng trong thời gian thực.
- B. Thu thập, lưu trữ và truyền tải dữ liệu luồng một cách tin cậy và có khả năng mở rộng.
- C. Quản lý tài nguyên và phân phối công việc cho các ứng dụng Spark.
- D. Lưu trữ dữ liệu luồng lâu dài để phân tích lịch sử.
Câu 14: Phân tích "dự đoán" (Predictive Analytics) trong Big Data khác biệt với phân tích "mô tả" (Descriptive Analytics) như thế nào?
- A. Phân tích mô tả sử dụng thuật toán phức tạp hơn phân tích dự đoán.
- B. Phân tích mô tả tập trung vào dữ liệu phi cấu trúc, còn phân tích dự đoán tập trung vào dữ liệu có cấu trúc.
- C. Phân tích dự đoán sử dụng dữ liệu lịch sử để dự đoán xu hướng và sự kiện tương lai, trong khi phân tích mô tả tập trung vào việc tóm tắt và mô tả dữ liệu đã xảy ra.
- D. Phân tích dự đoán luôn chính xác hơn phân tích mô tả.
Câu 15: Ứng dụng của Machine Learning trong Big Data thường tập trung vào mục tiêu nào sau đây?
- A. Tăng tốc độ truyền tải dữ liệu.
- B. Giảm chi phí lưu trữ dữ liệu.
- C. Cải thiện chất lượng dữ liệu đầu vào.
- D. Tự động hóa quá trình phân tích, tìm kiếm mẫu ẩn, dự đoán và đưa ra quyết định dựa trên lượng lớn dữ liệu.
Câu 16: "Data Visualization" (Trực quan hóa dữ liệu) quan trọng như thế nào trong quá trình phân tích Big Data?
- A. Không quan trọng, vì kết quả phân tích Big Data chủ yếu dựa trên số liệu thống kê.
- B. Rất quan trọng, giúp con người dễ dàng nhận diện mẫu, xu hướng và thông tin chi tiết ẩn sâu trong dữ liệu phức tạp, hỗ trợ quá trình ra quyết định.
- C. Chỉ quan trọng đối với dữ liệu phi cấu trúc.
- D. Chỉ cần thiết khi báo cáo kết quả cho lãnh đạo cấp cao.
Câu 17: Các nhà cung cấp dịch vụ đám mây lớn như AWS, Azure và GCP cung cấp các giải pháp Big Data trên nền tảng đám mây. Lợi ích chính của việc sử dụng đám mây cho Big Data là gì?
- A. Tăng cường bảo mật dữ liệu hơn so với hạ tầng tại chỗ.
- B. Đảm bảo tốc độ xử lý dữ liệu nhanh nhất trong mọi trường hợp.
- C. Tính linh hoạt, khả năng mở rộng dễ dàng theo nhu cầu, giảm chi phí đầu tư ban đầu vào hạ tầng và quản lý.
- D. Đơn giản hóa việc tuân thủ các quy định về dữ liệu.
Câu 18: "Edge Computing" (Điện toán biên) có vai trò gì trong bối cảnh Big Data, đặc biệt là với sự phát triển của IoT?
- A. Thay thế hoàn toàn việc xử lý dữ liệu trên đám mây.
- B. Chỉ tập trung vào lưu trữ dữ liệu tại biên.
- C. Tăng cường khả năng bảo mật cho dữ liệu trên đám mây.
- D. Cho phép xử lý dữ liệu gần nguồn phát sinh (ví dụ: thiết bị IoT), giảm độ trễ, băng thông mạng và tăng cường khả năng phản ứng thời gian thực.
Câu 19: Quy định GDPR (General Data Protection Regulation) của Liên minh Châu Âu ảnh hưởng đến việc xử lý dữ liệu Big Data như thế nào?
- A. Đặt ra các yêu cầu nghiêm ngặt về bảo vệ dữ liệu cá nhân, quyền riêng tư của người dùng, ảnh hưởng đến cách thu thập, xử lý và lưu trữ dữ liệu Big Data, đặc biệt là dữ liệu liên quan đến công dân EU.
- B. Khuyến khích các doanh nghiệp thu thập càng nhiều dữ liệu cá nhân càng tốt để phục vụ phân tích Big Data.
- C. Không có ảnh hưởng đáng kể đến các dự án Big Data.
- D. Chỉ áp dụng cho các công ty công nghệ lớn, không áp dụng cho các doanh nghiệp nhỏ và vừa.
Câu 20: Một trong những thách thức đạo đức lớn khi ứng dụng Big Data và AI là "thiên vị" (bias) trong dữ liệu và thuật toán. Thiên vị này có thể dẫn đến hậu quả nào?
- A. Tăng cường tính minh bạch và dễ hiểu của hệ thống AI.
- B. Đưa ra các quyết định không công bằng, phân biệt đối xử hoặc gây bất lợi cho một nhóm người nhất định do dữ liệu huấn luyện hoặc thuật toán phản ánh thiên vị.
- C. Giảm chi phí phát triển và triển khai hệ thống Big Data và AI.
- D. Nâng cao hiệu suất và độ chính xác của tất cả các hệ thống AI.
Câu 21: Phương pháp "batch ingestion" (tiếp nhận dữ liệu hàng loạt) phù hợp với loại dữ liệu và ứng dụng nào?
- A. Dữ liệu luồng liên tục như nhật ký web hoặc dữ liệu cảm biến thời gian thực.
- B. Các ứng dụng yêu cầu độ trễ thấp và phản hồi ngay lập tức.
- C. Dữ liệu tĩnh, khối lượng lớn, không yêu cầu xử lý thời gian thực, ví dụ như dữ liệu giao dịch cuối ngày, dữ liệu lịch sử.
- D. Dữ liệu có kích thước nhỏ và cần được xử lý riêng lẻ.
Câu 22: "Data Wrangling" (chuẩn bị dữ liệu) là một bước quan trọng trong quy trình phân tích Big Data. Hoạt động chính của Data Wrangling là gì?
- A. Lưu trữ dữ liệu vào hệ thống lưu trữ Big Data.
- B. Phân tích dữ liệu để tìm ra thông tin chi tiết.
- C. Trực quan hóa dữ liệu sau khi đã phân tích.
- D. Làm sạch dữ liệu nhiễu, xử lý dữ liệu thiếu, chuyển đổi định dạng và cấu trúc dữ liệu để chuẩn bị cho phân tích.
Câu 23: Định dạng tệp "Parquet" và "ORC" thường được sử dụng trong Hadoop để lưu trữ dữ liệu cột (columnar data). Ưu điểm chính của định dạng lưu trữ cột so với định dạng lưu trữ hàng (row-based) là gì?
- A. Dễ dàng cập nhật và sửa đổi dữ liệu hơn.
- B. Tối ưu hóa cho các truy vấn phân tích chỉ truy xuất một số cột nhất định, giảm thiểu lượng dữ liệu cần đọc từ đĩa và tăng hiệu suất truy vấn.
- C. Tiết kiệm không gian lưu trữ hơn trong mọi trường hợp.
- D. Phù hợp hơn cho các ứng dụng giao dịch (transactional applications) yêu cầu truy xuất toàn bộ bản ghi.
Câu 24: Ngôn ngữ truy vấn "HiveQL" được sử dụng để truy vấn dữ liệu trong Hadoop. HiveQL có cú pháp tương tự với ngôn ngữ nào?
- A. SQL (Structured Query Language)
- B. Java
- C. Python
- D. C++
Câu 25: Tính "khả năng mở rộng" (Scalability) và "khả năng chịu lỗi" (Fault Tolerance) là hai đặc tính quan trọng của hệ thống Big Data phân tán. Hai đặc tính này liên quan đến nhau như thế nào?
- A. Khả năng mở rộng chỉ quan trọng khi hệ thống không có khả năng chịu lỗi.
- B. Khả năng chịu lỗi chỉ cần thiết khi hệ thống không có khả năng mở rộng.
- C. Cả hai đều cần thiết để xây dựng hệ thống Big Data mạnh mẽ: khả năng mở rộng để xử lý lượng dữ liệu và tải tăng lên, khả năng chịu lỗi để đảm bảo hệ thống tiếp tục hoạt động khi có sự cố xảy ra.
- D. Khả năng mở rộng và khả năng chịu lỗi là hai khái niệm hoàn toàn độc lập và không liên quan đến nhau.
Câu 26: Trong giai đoạn "lập kế hoạch" của một dự án Big Data, hoạt động nào sau đây là quan trọng nhất?
- A. Lựa chọn công nghệ và công cụ Big Data cụ thể.
- B. Xây dựng hạ tầng Big Data.
- C. Thu thập và chuẩn bị dữ liệu.
- D. Xác định rõ mục tiêu kinh doanh, yêu cầu bài toán cần giải quyết và phạm vi dự án.
Câu 27: Trong ngành y tế, Big Data được ứng dụng để phân tích dữ liệu bệnh án điện tử, dữ liệu hình ảnh y tế và dữ liệu gen. Một ứng dụng tiềm năng quan trọng của Big Data trong y tế là gì?
- A. Giảm chi phí lưu trữ dữ liệu bệnh án.
- B. Cá nhân hóa phác đồ điều trị dựa trên đặc điểm di truyền và lịch sử bệnh của từng bệnh nhân, dự đoán nguy cơ mắc bệnh và cải thiện hiệu quả chăm sóc sức khỏe.
- C. Tăng tốc độ nhập liệu dữ liệu bệnh án điện tử.
- D. Thay thế hoàn toàn bác sĩ con người bằng hệ thống AI.
Câu 28: Một trong những thách thức lớn khi triển khai Big Data trong doanh nghiệp là "khoảng cách kỹ năng" (skills gap). Khoảng cách kỹ năng này đề cập đến vấn đề gì?
- A. Sự thiếu hụt công nghệ Big Data phù hợp.
- B. Sự thiếu hụt dữ liệu chất lượng cao.
- C. Sự thiếu hụt nhân lực có kỹ năng và kiến thức chuyên môn về Big Data, bao gồm kỹ sư dữ liệu, nhà khoa học dữ liệu, chuyên gia phân tích dữ liệu.
- D. Sự thiếu hụt ngân sách đầu tư cho dự án Big Data.
Câu 29: Xu hướng nào sau đây được dự đoán sẽ định hình tương lai của Big Data trong những năm tới?
- A. Sự tích hợp sâu rộng hơn giữa Big Data, Trí tuệ nhân tạo (AI) và Internet of Things (IoT), tạo ra các hệ thống thông minh và tự động hóa.
- B. Sự suy giảm vai trò của điện toán đám mây trong Big Data.
- C. Sự tập trung hoàn toàn vào dữ liệu có cấu trúc và giảm thiểu xử lý dữ liệu phi cấu trúc.
- D. Sự biến mất của các công cụ và framework Big Data mã nguồn mở.
Câu 30: Khi lựa chọn công nghệ Big Data cho một dự án cụ thể, yếu tố nào sau đây cần được xem xét đầu tiên?
- A. Chi phí của công nghệ.
- B. Yêu cầu bài toán, loại dữ liệu cần xử lý, mục tiêu kinh doanh và các yêu cầu phi chức năng (ví dụ: hiệu suất, khả năng mở rộng, bảo mật).
- C. Sự phổ biến của công nghệ trên thị trường.
- D. Kỹ năng hiện có của đội ngũ phát triển.