Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 04 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Doanh nghiệp X muốn phân tích nhật ký truy cập website để tối ưu trải nghiệm người dùng. Dữ liệu nhật ký web thuộc loại dữ liệu nào trong Big Data?
- A. Dữ liệu có cấu trúc (Structured Data)
- B. Dữ liệu bán cấu trúc (Semi-structured Data)
- C. Dữ liệu phi cấu trúc (Unstructured Data)
- D. Siêu dữ liệu (Metadata)
Câu 2: Khi xử lý lượng lớn dữ liệu cảm biến từ hàng ngàn thiết bị IoT trong thời gian thực, thách thức lớn nhất đối với hệ thống Big Data là gì?
- A. Tính đa dạng của dữ liệu (Variety)
- B. Độ chính xác của dữ liệu (Veracity)
- C. Vận tốc dữ liệu (Velocity)
- D. Giá trị dữ liệu (Value)
Câu 3: Trong mô hình Hadoop Distributed File System (HDFS), thành phần nào chịu trách nhiệm quản lý metadata của hệ thống tệp, bao gồm vị trí các khối dữ liệu và quyền truy cập?
- A. NameNode
- B. DataNode
- C. ResourceManager
- D. NodeManager
Câu 4: Để xử lý truy vấn tương tác (interactive queries) trên dữ liệu lớn với độ trễ thấp, công nghệ nào sau đây thường được ưu tiên hơn so với MapReduce?
- A. Hadoop MapReduce
- B. Apache Spark
- C. Apache Hive
- D. Apache Pig
Câu 5: Một công ty thương mại điện tử muốn xây dựng hệ thống đề xuất sản phẩm cá nhân hóa cho từng khách hàng dựa trên lịch sử mua hàng và hành vi duyệt web. Kỹ thuật phân tích dữ liệu nào sau đây phù hợp nhất?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích chẩn đoán (Diagnostic Analytics)
- C. Phân tích dự đoán (Predictive Analytics)
- D. Phân tích đề xuất (Prescriptive Analytics)
Câu 6: Trong kiến trúc Lambda, layer "batch" và layer "speed" phục vụ mục đích khác nhau. Layer "speed" chủ yếu tập trung vào điều gì?
- A. Xử lý lịch sử dữ liệu lớn
- B. Xử lý dữ liệu thời gian thực và độ trễ thấp
- C. Đảm bảo tính nhất quán dữ liệu
- D. Lưu trữ dữ liệu lâu dài
Câu 7: Công cụ nào sau đây trong hệ sinh thái Hadoop thường được sử dụng để thu thập và tải dữ liệu lớn từ các nguồn khác nhau (như cơ sở dữ liệu quan hệ, máy chủ web, mạng xã hội) vào HDFS?
- A. Apache Flume
- B. Apache Kafka
- C. Apache Sqoop
- D. Apache Avro
Câu 8: Khi thiết kế hệ thống Big Data chịu lỗi (fault-tolerant), kỹ thuật sao chép dữ liệu (data replication) đóng vai trò quan trọng. Trong HDFS, cơ chế sao chép mặc định là bao nhiêu bản sao?
Câu 9: Trong ngữ cảnh Big Data, "data lake" và "data warehouse" khác nhau chủ yếu về điều gì?
- A. Quy mô dữ liệu lưu trữ
- B. Tốc độ truy cập dữ liệu
- C. Công nghệ nền tảng sử dụng
- D. Cấu trúc và mục đích sử dụng dữ liệu
Câu 10: Thuật ngữ "schema-on-read" thường được liên kết với loại hình lưu trữ dữ liệu Big Data nào?
- A. Data Warehouse
- B. Data Lake
- C. Cơ sở dữ liệu quan hệ (Relational Database)
- D. Hệ thống OLAP
Câu 11: Giả sử bạn có một tập dữ liệu lớn chứa thông tin giao dịch ngân hàng. Bạn muốn phát hiện các giao dịch gian lận tiềm ẩn. Phương pháp học máy nào sau đây phù hợp nhất?
- A. Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Phân cụm (Clustering)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 12: Trong quá trình ETL (Extract, Transform, Load) cho Big Data, giai đoạn "Transformation" bao gồm các hoạt động chính nào?
- A. Thu thập dữ liệu từ nhiều nguồn
- B. Làm sạch, chuẩn hóa và biến đổi dữ liệu
- C. Tải dữ liệu vào kho lưu trữ
- D. Trực quan hóa dữ liệu
Câu 13: Apache Kafka thường được sử dụng trong Big Data cho mục đích gì?
- A. Lưu trữ dữ liệu dạng cột
- B. Xử lý truy vấn SQL trên Hadoop
- C. Xây dựng pipeline dữ liệu streaming thời gian thực
- D. Phân tích dữ liệu đồ thị
Câu 14: Chọn phát biểu đúng về ưu điểm của cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ (RDBMS) trong bối cảnh Big Data.
- A. Khả năng mở rộng ngang (horizontal scalability) tốt hơn
- B. Đảm bảo tính toàn vẹn dữ liệu (ACID properties) mạnh mẽ hơn
- C. Hỗ trợ truy vấn SQL phức tạp tốt hơn
- D. Mô hình dữ liệu quan hệ linh hoạt hơn
Câu 15: Công nghệ nào sau đây thường được sử dụng để xây dựng Data Warehouse trên nền tảng Hadoop?
- A. Apache HBase
- B. Apache Hive
- C. Apache Spark SQL
- D. Apache Cassandra
Câu 16: Khi lựa chọn công nghệ lưu trữ Big Data, yếu tố nào sau đây quan trọng nhất khi dữ liệu có tính biến động cao và yêu cầu truy cập ngẫu nhiên tốc độ cao?
- A. Chi phí lưu trữ thấp
- B. Khả năng xử lý batch mạnh mẽ
- C. Hiệu năng đọc/ghi ngẫu nhiên nhanh
- D. Khả năng truy vấn SQL phức tạp
Câu 17: Trong mô hình MapReduce, giai đoạn "Shuffle" có vai trò gì?
- A. Thực hiện phép tính trên từng khối dữ liệu đầu vào
- B. Sắp xếp và nhóm các giá trị trung gian theo khóa
- C. Tổng hợp kết quả cuối cùng
- D. Đọc dữ liệu từ HDFS
Câu 18: "Data governance" trong Big Data bao gồm những hoạt động chính nào?
- A. Chỉ bảo mật dữ liệu
- B. Chỉ quản lý chất lượng dữ liệu
- C. Chỉ tuân thủ các quy định về dữ liệu
- D. Quản lý chất lượng, bảo mật, tuân thủ và sử dụng dữ liệu hiệu quả
Câu 19: Để phân tích dữ liệu đồ thị (graph data) quy mô lớn, công nghệ nào sau đây chuyên dụng và hiệu quả nhất?
- A. Hadoop HDFS
- B. Apache Hive
- C. Neo4j (Graph Database)
- D. Apache Cassandra
Câu 20: Khi dữ liệu Big Data có thuộc tính "Veracity" thấp, điều này có nghĩa là gì?
- A. Dữ liệu có khối lượng rất lớn
- B. Dữ liệu có độ tin cậy và chính xác thấp
- C. Dữ liệu đến với tốc độ rất cao
- D. Dữ liệu rất đa dạng về loại hình
Câu 21: Trong mô hình Spark, "RDD" (Resilient Distributed Dataset) là gì?
- A. Tập hợp dữ liệu phân tán, bất biến và chịu lỗi
- B. Ngôn ngữ truy vấn dữ liệu cho Spark
- C. Công cụ quản lý tài nguyên trong Spark
- D. Giao diện người dùng web của Spark
Câu 22: Ứng dụng nào sau đây thể hiện việc sử dụng Big Data trong lĩnh vực Y tế?
- A. Quản lý chuỗi cung ứng
- B. Phân tích hành vi khách hàng
- C. Phân tích dữ liệu bệnh án điện tử để cải thiện chăm sóc bệnh nhân
- D. Dự báo thời tiết
Câu 23: Khi so sánh Spark và Hadoop MapReduce, ưu điểm chính của Spark về hiệu năng đến từ đâu?
- A. Khả năng mở rộng tốt hơn
- B. Xử lý dữ liệu in-memory
- C. Hỗ trợ nhiều ngôn ngữ lập trình hơn
- D. Kiến trúc đơn giản hơn
Câu 24: Trong ngữ cảnh Big Data và điện toán đám mây, dịch vụ "object storage" (ví dụ: Amazon S3, Azure Blob Storage) thường được sử dụng cho mục đích gì?
- A. Xử lý giao dịch trực tuyến
- B. Lưu trữ dữ liệu quan hệ
- C. Chạy ứng dụng thời gian thực
- D. Lưu trữ dữ liệu phi cấu trúc và bán cấu trúc quy mô lớn
Câu 25: "Data wrangling" hay "data munging" là quá trình gì trong quy trình xử lý Big Data?
- A. Thu thập dữ liệu từ các nguồn khác nhau
- B. Trực quan hóa dữ liệu sau phân tích
- C. Làm sạch, biến đổi và chuẩn bị dữ liệu thô để phân tích
- D. Xây dựng mô hình học máy
Câu 26: Khi thiết kế một hệ thống Big Data cho phân tích nhật ký web, quyết định lựa chọn kích thước khối (block size) HDFS lớn hơn (ví dụ 128MB thay vì 64MB) có thể mang lại lợi ích gì?
- A. Tăng hiệu suất đọc/ghi tuần tự dữ liệu lớn
- B. Giảm độ trễ truy cập ngẫu nhiên
- C. Tăng khả năng chịu lỗi của hệ thống
- D. Giảm chi phí lưu trữ
Câu 27: Trong kiến trúc Kappa, điểm khác biệt chính so với kiến trúc Lambda là gì?
- A. Kappa xử lý dữ liệu nhanh hơn Lambda
- B. Kappa loại bỏ batch layer, chỉ dùng stream processing layer
- C. Kappa đảm bảo tính nhất quán dữ liệu tốt hơn Lambda
- D. Kappa dễ dàng mở rộng hơn Lambda
Câu 28: Nguyên tắc "data locality" trong Hadoop có ý nghĩa gì?
- A. Đảm bảo dữ liệu được lưu trữ gần người dùng
- B. Sao chép dữ liệu đến nhiều DataNode
- C. Di chuyển tính toán đến nơi dữ liệu được lưu trữ
- D. Phân chia dữ liệu thành các khối nhỏ
Câu 29: Để trực quan hóa dữ liệu Big Data và tạo dashboard tương tác, công cụ nào sau đây thường được sử dụng?
- A. Apache Pig
- B. Apache Oozie
- C. Apache Zookeeper
- D. Tableau hoặc Power BI
Câu 30: Trong bối cảnh Big Data, "data silos" là gì và tại sao chúng gây ra vấn đề?
- A. Các kho dữ liệu bị cô lập, không chia sẻ thông tin
- B. Các công cụ trực quan hóa dữ liệu
- C. Các phương pháp bảo mật dữ liệu
- D. Các định dạng dữ liệu phi cấu trúc