Bài Tập, Đề Thi Trắc Nghiệm Online – Môn Dữ Liệu Lớn (Bigdata) – Đề 10

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Môn Dữ Liệu Lớn (Bigdata)

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 10

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 10 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.

Câu 1: Khái niệm "Big Data" thường được mô tả bằng 4Vs (Volume, Velocity, Variety, Veracity). Hãy chọn phát biểu không phản ánh đúng ý nghĩa của "Velocity" trong bối cảnh Big Data.

  • A. Dữ liệu được tạo ra và xử lý với tốc độ rất cao, gần như theo thời gian thực.
  • B. Tốc độ dòng chảy dữ liệu liên tục và nhanh chóng từ nhiều nguồn khác nhau.
  • C. Sự đa dạng của các loại dữ liệu, bao gồm cấu trúc, bán cấu trúc và phi cấu trúc.
  • D. Tần suất dữ liệu được tạo ra, thu thập và cần được xử lý trong một khoảng thời gian nhất định.

Câu 2: Trong hệ sinh thái Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch cho các ứng dụng MapReduce?

  • A. HDFS (Hadoop Distributed File System)
  • B. YARN (Yet Another Resource Negotiator)
  • C. MapReduce
  • D. HBase

Câu 3: HDFS (Hadoop Distributed File System) được thiết kế để lưu trữ dữ liệu lớn. Điều nào sau đây không phải là một đặc điểm thiết kế chính của HDFS?

  • A. Chịu lỗi (Fault-tolerant) bằng cách sao chép dữ liệu.
  • B. Khả năng mở rộng (Scalable) để lưu trữ petabyte dữ liệu.
  • C. Truy cập tuần tự (Sequential access) được tối ưu hóa cho đọc/ghi dữ liệu lớn.
  • D. Độ trễ thấp (Low latency) cho các truy vấn thời gian thực.

Câu 4: Giả sử bạn có một tập dữ liệu chứa thông tin nhật ký web (web logs) với dung lượng rất lớn và cấu trúc phi cấu trúc. Công nghệ NoSQL nào sau đây sẽ phù hợp nhất để lưu trữ và truy vấn hiệu quả loại dữ liệu này?

  • A. Document Database (ví dụ: MongoDB)
  • B. Key-Value Store (ví dụ: Redis)
  • C. Column-Family Database (ví dụ: Cassandra)
  • D. Graph Database (ví dụ: Neo4j)

Câu 5: Trong mô hình MapReduce, giai đoạn "Shuffle and Sort" diễn ra giữa giai đoạn Map và Reduce có vai trò chính là gì?

  • A. Thực hiện các phép biến đổi dữ liệu ban đầu.
  • B. Kết hợp kết quả từ các Mapper để tạo ra kết quả cuối cùng.
  • C. Nhóm các giá trị có cùng khóa (key) lại với nhau và sắp xếp chúng để chuẩn bị cho Reducer.
  • D. Phân phối dữ liệu đầu vào cho các Mapper khác nhau.

Câu 6: Để xử lý dữ liệu dòng (streaming data) gần thời gian thực trong Big Data, công nghệ nào sau đây thường được sử dụng?

  • A. Hadoop MapReduce
  • B. Apache Spark Streaming
  • C. Hadoop HDFS
  • D. Apache Hive

Câu 7: "Data Lake" và "Data Warehouse" là hai kiến trúc lưu trữ dữ liệu khác nhau. Điểm khác biệt chính giữa Data Lake và Data Warehouse là gì?

  • A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ mọi loại dữ liệu.
  • B. Data Warehouse linh hoạt và dễ dàng mở rộng hơn Data Lake.
  • C. Data Lake tập trung vào xử lý giao dịch (OLTP), còn Data Warehouse tập trung vào phân tích (OLAP).
  • D. Data Lake lưu trữ dữ liệu thô ở dạng gốc, còn Data Warehouse lưu trữ dữ liệu đã được xử lý và có cấu trúc.

Câu 8: Trong ngữ cảnh Big Data, "Data Governance" (Quản trị dữ liệu) bao gồm những hoạt động nào sau đây?

  • A. Chỉ bao gồm việc đảm bảo chất lượng dữ liệu.
  • B. Chỉ liên quan đến việc quản lý quyền truy cập dữ liệu.
  • C. Bao gồm các chính sách, quy trình và tiêu chuẩn để quản lý tính toàn vẹn, bảo mật, chất lượng và khả năng truy cập dữ liệu.
  • D. Chỉ giới hạn ở việc sao lưu và phục hồi dữ liệu.

Câu 9: Giả sử bạn muốn thực hiện phân tích khám phá dữ liệu (exploratory data analysis) trên một tập dữ liệu lớn lưu trữ trong HDFS. Công cụ nào sau đây trong hệ sinh thái Hadoop sẽ phù hợp nhất?

  • A. Apache Hive
  • B. Apache Spark
  • C. Hadoop MapReduce
  • D. Apache HBase

Câu 10: "CAP Theorem" trong hệ thống phân tán khẳng định rằng một hệ thống chỉ có thể đảm bảo tối đa 2 trong 3 thuộc tính: Consistency, Availability, Partition Tolerance. Trong bối cảnh Big Data, Partition Tolerance thường được ưu tiên hơn Consistency. Tại sao?

  • A. Vì hệ thống Big Data thường được thiết kế để hoạt động trên nhiều node và phải chịu được lỗi node (partition), trong khi chấp nhận sự không nhất quán dữ liệu tạm thời.
  • B. Vì Consistency không quan trọng bằng Availability trong các ứng dụng Big Data.
  • C. Vì Partition Tolerance có thể đảm bảo Consistency và Availability cùng một lúc.
  • D. Vì các hệ thống Big Data luôn yêu cầu Consistency mạnh mẽ và không cần Partition Tolerance.

Câu 11: Trong HDFS, dữ liệu được chia thành các khối (blocks) và nhân bản (replicated) trên nhiều DataNode. Mục đích chính của việc nhân bản dữ liệu trong HDFS là gì?

  • A. Tăng tốc độ truy cập dữ liệu bằng cách đọc từ nhiều bản sao đồng thời.
  • B. Đảm bảo tính sẵn sàng và chịu lỗi của dữ liệu, ngay cả khi một số DataNode gặp sự cố.
  • C. Giảm dung lượng lưu trữ cần thiết bằng cách nén dữ liệu nhân bản.
  • D. Phân phối tải (load balancing) giữa các DataNode.

Câu 12: "Schema-on-Read" và "Schema-on-Write" là hai cách tiếp cận khác nhau trong việc xử lý schema dữ liệu. Cách tiếp cận nào thường được sử dụng trong Data Lake và tại sao?

  • A. Schema-on-Write, vì nó đảm bảo chất lượng dữ liệu ngay khi ghi vào Data Lake.
  • B. Schema-on-Write, vì nó giúp tăng tốc độ truy vấn dữ liệu trong Data Lake.
  • C. Schema-on-Read, vì nó cho phép Data Lake lưu trữ dữ liệu ở nhiều định dạng khác nhau và áp dụng schema khi đọc dữ liệu để phân tích.
  • D. Cả hai cách tiếp cận đều được sử dụng phổ biến như nhau trong Data Lake.

Câu 13: Trong kiến trúc YARN, "ApplicationMaster" (AM) có vai trò gì?

  • A. Quản lý tài nguyên toàn bộ cluster.
  • B. Lưu trữ metadata về hệ thống file HDFS.
  • C. Thực hiện các tác vụ Map và Reduce.
  • D. Quản lý vòng đời của một ứng dụng cụ thể, bao gồm yêu cầu tài nguyên, lập lịch tác vụ và giám sát tiến trình.

Câu 14: Công nghệ nào sau đây thường được sử dụng để xây dựng các pipeline ETL (Extract, Transform, Load) mạnh mẽ và có khả năng mở rộng trong Big Data?

  • A. Hadoop HDFS
  • B. Apache Spark
  • C. Apache Hive
  • D. Apache HBase

Câu 15: Để truy vấn dữ liệu có cấu trúc lưu trữ trong HDFS một cách tương tự như SQL, công cụ nào sau đây trong hệ sinh thái Hadoop thường được sử dụng?

  • A. Apache Hive
  • B. Apache Spark Streaming
  • C. Hadoop MapReduce
  • D. Apache HBase

Câu 16: "Data Mining" và "Machine Learning" thường được áp dụng trong Big Data để khai thác giá trị từ dữ liệu lớn. Phân biệt chính giữa Data Mining và Machine Learning là gì?

  • A. Data Mining tập trung vào xây dựng mô hình dự đoán, còn Machine Learning tập trung vào khám phá mẫu.
  • B. Machine Learning chỉ làm việc với dữ liệu có cấu trúc, còn Data Mining có thể làm việc với mọi loại dữ liệu.
  • C. Data Mining là một tập con của Machine Learning.
  • D. Data Mining tập trung vào khám phá các mẫu và tri thức ẩn từ dữ liệu, trong khi Machine Learning tập trung vào việc xây dựng các mô hình để dự đoán hoặc ra quyết định dựa trên dữ liệu.

Câu 17: Trong ngữ cảnh bảo mật Big Data, biện pháp nào sau đây giúp bảo vệ dữ liệu "khi đang truyền" (data in transit)?

  • A. Mã hóa dữ liệu "khi lưu trữ" (data at rest).
  • B. Kiểm soát truy cập dựa trên vai trò (Role-Based Access Control - RBAC).
  • C. Sử dụng giao thức mã hóa (ví dụ: SSL/TLS) cho giao tiếp mạng.
  • D. Che dấu dữ liệu (data masking).

Câu 18: Giả sử bạn muốn xây dựng một ứng dụng Big Data yêu cầu độ trễ thấp (low latency) cho việc truy cập dữ liệu ngẫu nhiên. Công nghệ NoSQL nào sau đây sẽ phù hợp nhất?

  • A. Document Database (ví dụ: MongoDB)
  • B. Key-Value Store (ví dụ: Redis)
  • C. Graph Database (ví dụ: Neo4j)
  • D. Cả Document Database và Graph Database.

Câu 19: "Edge Computing" đang trở thành một xu hướng quan trọng trong Big Data. Lợi ích chính của Edge Computing trong xử lý dữ liệu lớn là gì?

  • A. Giảm độ trễ và băng thông mạng bằng cách xử lý dữ liệu gần nguồn phát sinh.
  • B. Tăng cường khả năng chịu lỗi của hệ thống Big Data.
  • C. Đơn giản hóa việc quản lý hạ tầng Big Data.
  • D. Cho phép lưu trữ dữ liệu lớn hơn.

Câu 20: Trong MapReduce, "Combiner" là một chức năng tùy chọn có thể được sử dụng. Mục đích chính của Combiner là gì?

  • A. Thay thế hoàn toàn chức năng Reducer.
  • B. Tăng số lượng Mapper trong job MapReduce.
  • C. Giảm lượng dữ liệu truyền qua mạng bằng cách tổng hợp dữ liệu cục bộ tại Mapper trước khi gửi đến Reducer.
  • D. Đảm bảo dữ liệu đầu vào cho Reducer được sắp xếp.

Câu 21: "Data Virtualization" là một kỹ thuật cho phép truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu. Lợi ích chính của Data Virtualization trong Big Data là gì?

  • A. Tăng tốc độ xử lý dữ liệu.
  • B. Giảm chi phí và độ phức tạp liên quan đến việc di chuyển và sao chép dữ liệu.
  • C. Cải thiện chất lượng dữ liệu.
  • D. Tăng cường bảo mật dữ liệu.

Câu 22: Trong mô hình Lambda Architecture cho xử lý dữ liệu lớn, lớp "Batch Layer" và "Speed Layer" phục vụ cho mục đích gì?

  • A. Batch Layer xử lý dữ liệu real-time, Speed Layer xử lý dữ liệu lịch sử.
  • B. Cả hai lớp đều xử lý dữ liệu real-time nhưng với công nghệ khác nhau.
  • C. Batch Layer đảm bảo tính nhất quán dữ liệu, Speed Layer đảm bảo tính sẵn sàng.
  • D. Batch Layer xử lý dữ liệu lịch sử với độ chính xác cao, Speed Layer xử lý dữ liệu real-time với độ trễ thấp.

Câu 23: "Containerization" (ví dụ: Docker, Kubernetes) ngày càng phổ biến trong triển khai ứng dụng Big Data. Lợi ích chính của việc sử dụng container trong Big Data là gì?

  • A. Tăng cường bảo mật dữ liệu.
  • B. Giảm chi phí lưu trữ dữ liệu.
  • C. Đóng gói ứng dụng và môi trường phụ thuộc, giúp triển khai và quản lý ứng dụng Big Data nhất quán và linh hoạt hơn trên các môi trường khác nhau.
  • D. Tăng tốc độ truy vấn dữ liệu.

Câu 24: "Data Wrangling" (hoặc Data Munging) là một bước quan trọng trong quy trình phân tích dữ liệu Big Data. Hoạt động chính của Data Wrangling là gì?

  • A. Xây dựng mô hình Machine Learning từ dữ liệu.
  • B. Làm sạch, biến đổi và chuẩn bị dữ liệu thô để phân tích và sử dụng.
  • C. Trực quan hóa dữ liệu để khám phá mẫu.
  • D. Lưu trữ dữ liệu vào Data Lake.

Câu 25: Trong Hadoop, "NameNode" và "DataNode" là hai thành phần chính. Chức năng chính của NameNode là gì?

  • A. Lưu trữ dữ liệu thực tế (data blocks).
  • B. Thực hiện tính toán MapReduce.
  • C. Quản lý tài nguyên cluster.
  • D. Quản lý metadata của hệ thống file, bao gồm thông tin về blocks, vị trí lưu trữ và namespace.

Câu 26: "Data Skew" (lệch dữ liệu) có thể gây ra vấn đề hiệu suất trong các job MapReduce. Data Skew là gì và nó ảnh hưởng đến hiệu suất như thế nào?

  • A. Sự phân bố dữ liệu không đều giữa các Reducer, dẫn đến một số Reducer phải xử lý lượng dữ liệu lớn hơn nhiều và trở thành bottleneck.
  • B. Dữ liệu bị lỗi hoặc không chính xác.
  • C. Kích thước dữ liệu quá lớn so với khả năng xử lý của cluster.
  • D. Sự chậm trễ trong quá trình truyền dữ liệu qua mạng.

Câu 27: "Online Analytical Processing" (OLAP) và "Online Transaction Processing" (OLTP) là hai loại hình xử lý dữ liệu khác nhau. Loại hình nào thường được sử dụng trong Data Warehouse?

  • A. OLTP (Online Transaction Processing)
  • B. OLAP (Online Analytical Processing)
  • C. Cả OLAP và OLTP đều được sử dụng như nhau.
  • D. Không loại hình nào phù hợp.

Câu 28: Để giám sát và quản lý cluster Hadoop, công cụ nào sau đây thường được sử dụng?

  • A. Apache Hive
  • B. Apache Spark
  • C. Apache Ambari
  • D. Hadoop HDFS

Câu 29: "Serverless Big Data" là một xu hướng mới nổi. Đặc điểm chính của Serverless Big Data là gì?

  • A. Yêu cầu người dùng tự quản lý toàn bộ hạ tầng server.
  • B. Chỉ hỗ trợ xử lý dữ liệu batch.
  • C. Giảm độ trễ truy cập dữ liệu.
  • D. Người dùng không cần quản lý server, nhà cung cấp cloud tự động quản lý và scale tài nguyên, người dùng chỉ trả tiền cho lượng tài nguyên sử dụng.

Câu 30: Giả sử bạn có một ứng dụng phân tích mạng xã hội và muốn phân tích mối quan hệ giữa người dùng. Loại NoSQL database nào sau đây sẽ phù hợp nhất?

  • A. Document Database (ví dụ: MongoDB)
  • B. Key-Value Store (ví dụ: Redis)
  • C. Graph Database (ví dụ: Neo4j)
  • D. Column-Family Database (ví dụ: Cassandra)

1 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 1: Khái niệm 'Big Data' thường được mô tả bằng 4Vs (Volume, Velocity, Variety, Veracity). Hãy chọn phát biểu *không* phản ánh đúng ý nghĩa của 'Velocity' trong bối cảnh Big Data.

2 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 2: Trong hệ sinh thái Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch cho các ứng dụng MapReduce?

3 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 3: HDFS (Hadoop Distributed File System) được thiết kế để lưu trữ dữ liệu lớn. Điều nào sau đây *không phải* là một đặc điểm thiết kế chính của HDFS?

4 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 4: Giả sử bạn có một tập dữ liệu chứa thông tin nhật ký web (web logs) với dung lượng rất lớn và cấu trúc phi cấu trúc. Công nghệ NoSQL nào sau đây sẽ phù hợp nhất để lưu trữ và truy vấn hiệu quả loại dữ liệu này?

5 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 5: Trong mô hình MapReduce, giai đoạn 'Shuffle and Sort' diễn ra giữa giai đoạn Map và Reduce có vai trò chính là gì?

6 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 6: Để xử lý dữ liệu dòng (streaming data) gần thời gian thực trong Big Data, công nghệ nào sau đây thường được sử dụng?

7 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 7: 'Data Lake' và 'Data Warehouse' là hai kiến trúc lưu trữ dữ liệu khác nhau. Điểm khác biệt chính giữa Data Lake và Data Warehouse là gì?

8 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 8: Trong ngữ cảnh Big Data, 'Data Governance' (Quản trị dữ liệu) bao gồm những hoạt động nào sau đây?

9 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 9: Giả sử bạn muốn thực hiện phân tích khám phá dữ liệu (exploratory data analysis) trên một tập dữ liệu lớn lưu trữ trong HDFS. Công cụ nào sau đây trong hệ sinh thái Hadoop sẽ phù hợp nhất?

10 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 10: 'CAP Theorem' trong hệ thống phân tán khẳng định rằng một hệ thống chỉ có thể đảm bảo tối đa 2 trong 3 thuộc tính: Consistency, Availability, Partition Tolerance. Trong bối cảnh Big Data, Partition Tolerance thường được ưu tiên hơn Consistency. Tại sao?

11 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 11: Trong HDFS, dữ liệu được chia thành các khối (blocks) và nhân bản (replicated) trên nhiều DataNode. Mục đích chính của việc nhân bản dữ liệu trong HDFS là gì?

12 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 12: 'Schema-on-Read' và 'Schema-on-Write' là hai cách tiếp cận khác nhau trong việc xử lý schema dữ liệu. Cách tiếp cận nào thường được sử dụng trong Data Lake và tại sao?

13 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 13: Trong kiến trúc YARN, 'ApplicationMaster' (AM) có vai trò gì?

14 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 14: Công nghệ nào sau đây thường được sử dụng để xây dựng các pipeline ETL (Extract, Transform, Load) mạnh mẽ và có khả năng mở rộng trong Big Data?

15 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 15: Để truy vấn dữ liệu có cấu trúc lưu trữ trong HDFS một cách tương tự như SQL, công cụ nào sau đây trong hệ sinh thái Hadoop thường được sử dụng?

16 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 16: 'Data Mining' và 'Machine Learning' thường được áp dụng trong Big Data để khai thác giá trị từ dữ liệu lớn. Phân biệt chính giữa Data Mining và Machine Learning là gì?

17 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 17: Trong ngữ cảnh bảo mật Big Data, biện pháp nào sau đây giúp bảo vệ dữ liệu 'khi đang truyền' (data in transit)?

18 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 18: Giả sử bạn muốn xây dựng một ứng dụng Big Data yêu cầu độ trễ thấp (low latency) cho việc truy cập dữ liệu ngẫu nhiên. Công nghệ NoSQL nào sau đây sẽ phù hợp nhất?

19 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 19: 'Edge Computing' đang trở thành một xu hướng quan trọng trong Big Data. Lợi ích chính của Edge Computing trong xử lý dữ liệu lớn là gì?

20 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 20: Trong MapReduce, 'Combiner' là một chức năng tùy chọn có thể được sử dụng. Mục đích chính của Combiner là gì?

21 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 21: 'Data Virtualization' là một kỹ thuật cho phép truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu. Lợi ích chính của Data Virtualization trong Big Data là gì?

22 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 22: Trong mô hình Lambda Architecture cho xử lý dữ liệu lớn, lớp 'Batch Layer' và 'Speed Layer' phục vụ cho mục đích gì?

23 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 23: 'Containerization' (ví dụ: Docker, Kubernetes) ngày càng phổ biến trong triển khai ứng dụng Big Data. Lợi ích chính của việc sử dụng container trong Big Data là gì?

24 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 24: 'Data Wrangling' (hoặc Data Munging) là một bước quan trọng trong quy trình phân tích dữ liệu Big Data. Hoạt động chính của Data Wrangling là gì?

25 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 25: Trong Hadoop, 'NameNode' và 'DataNode' là hai thành phần chính. Chức năng chính của NameNode là gì?

26 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 26: 'Data Skew' (lệch dữ liệu) có thể gây ra vấn đề hiệu suất trong các job MapReduce. Data Skew là gì và nó ảnh hưởng đến hiệu suất như thế nào?

27 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 27: 'Online Analytical Processing' (OLAP) và 'Online Transaction Processing' (OLTP) là hai loại hình xử lý dữ liệu khác nhau. Loại hình nào thường được sử dụng trong Data Warehouse?

28 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 28: Để giám sát và quản lý cluster Hadoop, công cụ nào sau đây thường được sử dụng?

29 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 29: 'Serverless Big Data' là một xu hướng mới nổi. Đặc điểm chính của Serverless Big Data là gì?

30 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 10

Câu 30: Giả sử bạn có một ứng dụng phân tích mạng xã hội và muốn phân tích mối quan hệ giữa người dùng. Loại NoSQL database nào sau đây sẽ phù hợp nhất?

Xem kết quả