Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Đặc điểm "Variety" (Đa dạng) của Dữ liệu lớn (Big Data) đề cập đến yếu tố nào?
- A. Số lượng dữ liệu được tạo ra và lưu trữ ngày càng tăng.
- B. Sự khác biệt về loại dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc) và nguồn gốc dữ liệu.
- C. Tốc độ dữ liệu được tạo ra và cần xử lý.
- D. Độ tin cậy và chất lượng của dữ liệu.
Câu 2: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch công việc?
- A. HDFS (Hadoop Distributed File System)
- B. MapReduce
- C. YARN (Yet Another Resource Negotiator)
- D. NameNode
Câu 3: Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn theo thời gian thực (real-time data processing)?
- A. Hadoop MapReduce
- B. HDFS
- C. Hive
- D. Apache Kafka
Câu 4: Cơ sở dữ liệu NoSQL nào phù hợp nhất cho việc lưu trữ và truy vấn dữ liệu dạng đồ thị (graph data), ví dụ như mạng xã hội?
- A. MongoDB (Document Database)
- B. Neo4j (Graph Database)
- C. Cassandra (Wide-Column Store)
- D. Redis (Key-Value Store)
Câu 5: Phương pháp phân tích dữ liệu lớn nào tập trung vào việc khám phá các mẫu ẩn, xu hướng, và thông tin hữu ích từ lượng lớn dữ liệu?
- A. Khai thác dữ liệu (Data Mining)
- B. Thống kê mô tả (Descriptive Statistics)
- C. Báo cáo kinh doanh (Business Reporting)
- D. Truy vấn SQL (SQL Querying)
Câu 6: Trong mô hình lập trình MapReduce, giai đoạn "Reduce" (Giảm) có chức năng chính là gì?
- A. Chia dữ liệu đầu vào thành các phần nhỏ hơn.
- B. Ánh xạ dữ liệu đầu vào thành các cặp key-value.
- C. Tổng hợp, kết hợp, và xử lý các kết quả trung gian từ giai đoạn Map để tạo ra kết quả cuối cùng.
- D. Lưu trữ dữ liệu phân tán trên cluster.
Câu 7: Để xử lý và phân tích dữ liệu lớn trên đám mây (cloud), nền tảng nào sau đây thường được sử dụng?
- A. Microsoft Office 365
- B. Adobe Creative Cloud
- C. Salesforce
- D. Amazon Web Services (AWS)
Câu 8: Thách thức "Veracity" (Độ tin cậy) trong Big Data liên quan đến vấn đề nào?
- A. Khối lượng dữ liệu quá lớn để xử lý.
- B. Sự không chắc chắn, không chính xác, và thiếu tin cậy của dữ liệu.
- C. Tốc độ tạo ra dữ liệu quá nhanh.
- D. Sự đa dạng của các loại dữ liệu.
Câu 9: Ngôn ngữ lập trình nào phổ biến nhất được sử dụng để phát triển các ứng dụng Spark?
- A. Scala
- B. C++
- C. PHP
- D. Swift
Câu 10: Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu lớn và tạo dashboard tương tác?
- A. Hadoop
- B. Spark
- C. Tableau
- D. Kafka
Câu 11: Trong HDFS, NameNode đóng vai trò gì?
- A. Lưu trữ dữ liệu thực tế.
- B. Quản lý metadata (siêu dữ liệu) và namespace của hệ thống tệp.
- C. Xử lý các tính toán MapReduce.
- D. Điều phối tài nguyên cluster.
Câu 12: Loại hình phân tích dữ liệu lớn nào tập trung vào việc dự đoán các sự kiện hoặc xu hướng trong tương lai?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích chẩn đoán (Diagnostic Analytics)
- C. Phân tích quy tắc (Prescriptive Analytics)
- D. Phân tích dự đoán (Predictive Analytics)
Câu 13: Giả sử bạn có một tập dữ liệu văn bản lớn (ví dụ: log server). Công nghệ nào sau đây phù hợp nhất để lập chỉ mục và tìm kiếm nhanh trên dữ liệu này?
- A. Hadoop MapReduce
- B. Apache Hive
- C. Elasticsearch
- D. Apache HBase
Câu 14: Trong bối cảnh Big Data, "Data Lake" (Hồ dữ liệu) là gì?
- A. Một hệ thống quản lý cơ sở dữ liệu quan hệ truyền thống.
- B. Một kho lưu trữ tập trung cho phép lưu trữ dữ liệu thô ở nhiều định dạng khác nhau cho đến khi cần thiết.
- C. Một phương pháp xử lý dữ liệu theo lô (batch processing).
- D. Một công cụ trực quan hóa dữ liệu.
Câu 15: Để đảm bảo tính sẵn sàng cao (high availability) cho NameNode trong Hadoop, giải pháp nào thường được sử dụng?
- A. Cấu hình NameNode dự phòng (Active/Standby NameNodes)
- B. Sử dụng nhiều DataNode hơn.
- C. Tăng kích thước bộ nhớ cho NameNode.
- D. Sử dụng RAID cho ổ đĩa NameNode.
Câu 16: Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Big Data?
- A. Phân tích hành vi khách hàng trong thương mại điện tử.
- B. Dự báo thời tiết.
- C. Soạn thảo văn bản bằng Microsoft Word.
- D. Phát hiện gian lận trong giao dịch tài chính.
Câu 17: Trong Spark, khái niệm "RDD" (Resilient Distributed Dataset) là gì?
- A. Ngôn ngữ truy vấn dữ liệu của Spark.
- B. Khối xây dựng cơ bản của Spark, đại diện cho một tập hợp các đối tượng phân tán, có khả năng chịu lỗi.
- C. Thành phần quản lý tài nguyên trong Spark.
- D. Công cụ trực quan hóa dữ liệu của Spark.
Câu 18: Khi nào thì việc sử dụng Big Data trở nên thực sự cần thiết và mang lại lợi ích lớn nhất?
- A. Khi dữ liệu có cấu trúc rõ ràng và dễ quản lý.
- B. Khi chỉ cần phân tích dữ liệu trong quá khứ.
- C. Khi dữ liệu có kích thước nhỏ và tốc độ tạo ra chậm.
- D. Khi dữ liệu có khối lượng lớn, tốc độ cao, và đa dạng, vượt quá khả năng xử lý của các hệ thống truyền thống.
Câu 19: Vấn đề bảo mật dữ liệu lớn (Big Data security) tập trung vào việc bảo vệ khía cạnh nào?
- A. Bảo vệ dữ liệu khỏi truy cập trái phép, rò rỉ, và đảm bảo tính toàn vẹn, tính khả dụng của dữ liệu.
- B. Đảm bảo tốc độ xử lý dữ liệu nhanh chóng.
- C. Tối ưu hóa chi phí lưu trữ dữ liệu.
- D. Trực quan hóa dữ liệu một cách hiệu quả.
Câu 20: Trong kiến trúc Lambda, lớp "Batch Layer" (Lớp xử lý lô) có vai trò gì?
- A. Xử lý dữ liệu thời gian thực.
- B. Phục vụ các truy vấn thời gian thực.
- C. Xử lý toàn bộ dữ liệu lịch sử theo lô định kỳ để tính toán các view chính xác.
- D. Lưu trữ dữ liệu đến theo thời gian thực.
Câu 21: Công nghệ nào sau đây thường được sử dụng để thu thập (ingest) dữ liệu streaming từ nhiều nguồn khác nhau vào hệ thống Big Data?
- A. Hadoop HDFS
- B. Apache Flume
- C. Apache Hive
- D. Apache Spark SQL
Câu 22: Phương pháp nào sau đây giúp giảm thiểu độ trễ (latency) trong việc truy vấn dữ liệu lớn?
- A. Tăng hệ số sao chép dữ liệu (replication factor).
- B. Sử dụng ổ cứng HDD thay vì SSD.
- C. Giảm số lượng DataNode trong cluster.
- D. Sử dụng cơ sở dữ liệu in-memory hoặc caching lớp dữ liệu.
Câu 23: Trong ngữ cảnh Big Data, thuật ngữ "Data Governance" (Quản trị dữ liệu) đề cập đến điều gì?
- A. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp.
- B. Công nghệ lưu trữ dữ liệu phân tán.
- C. Tập hợp các quy tắc, chính sách, quy trình và tiêu chuẩn để quản lý dữ liệu của tổ chức.
- D. Phương pháp trực quan hóa dữ liệu.
Câu 24: Để thực hiện phân tích SQL trên dữ liệu lớn lưu trữ trong HDFS, công cụ nào sau đây thường được sử dụng?
- A. Apache Hive
- B. Hadoop MapReduce
- C. Apache Kafka
- D. Elasticsearch
Câu 25: Giả sử một công ty thương mại điện tử muốn cá nhân hóa trải nghiệm mua sắm cho từng khách hàng dựa trên lịch sử duyệt web và mua hàng. Ứng dụng Big Data nào phù hợp nhất?
- A. Hệ thống giám sát an ninh.
- B. Hệ thống đề xuất sản phẩm (Recommendation System).
- C. Hệ thống quản lý kho.
- D. Hệ thống thanh toán trực tuyến.
Câu 26: Trong mô hình CAP theorem, hệ thống phân tán nào sau đây ưu tiên tính nhất quán (Consistency) và khả năng chịu phân vùng (Partition Tolerance) hơn tính sẵn sàng (Availability)?
- A. Hệ thống AP (Availability and Partition Tolerance)
- B. Hệ thống CA (Consistency and Availability)
- C. Hệ thống CP (Consistency and Partition Tolerance)
- D. Hệ thống AC (Availability and Consistency)
Câu 27: Để xử lý dữ liệu phức tạp và thực hiện các thuật toán Machine Learning trên Big Data, framework nào sau đây được ưa chuộng?
- A. Hadoop MapReduce
- B. Apache Hive
- C. Apache Kafka Streams
- D. Apache Spark MLlib
Câu 28: Trong quá trình ETL (Extract, Transform, Load) cho Big Data, giai đoạn "Transformation" (Biến đổi) bao gồm các hoạt động nào?
- A. Thu thập dữ liệu từ các nguồn khác nhau.
- B. Làm sạch, chuẩn hóa, chuyển đổi, và tích hợp dữ liệu.
- C. Tải dữ liệu đã xử lý vào kho dữ liệu.
- D. Trực quan hóa dữ liệu.
Câu 29: Khi thiết kế một hệ thống Big Data, yếu tố "Khả năng mở rộng" (Scalability) quan trọng như thế nào?
- A. Rất quan trọng, vì hệ thống cần có khả năng xử lý lượng dữ liệu ngày càng tăng và tải công việc biến đổi.
- B. Ít quan trọng, vì dữ liệu thường có kích thước cố định.
- C. Chỉ quan trọng đối với một số ứng dụng cụ thể.
- D. Không quan trọng bằng hiệu suất xử lý.
Câu 30: Trong Big Data, "Schema on Read" (Lược đồ khi đọc) là phương pháp xử lý dữ liệu như thế nào?
- A. Áp dụng lược đồ dữ liệu (schema) trước khi ghi dữ liệu vào hệ thống.
- B. Lược đồ dữ liệu được cố định và không thể thay đổi.
- C. Lược đồ dữ liệu được áp dụng khi đọc dữ liệu, cho phép sự linh hoạt trong cấu trúc dữ liệu.
- D. Không sử dụng lược đồ dữ liệu trong quá trình xử lý.