Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 02 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Một công ty thương mại điện tử muốn phân tích hành vi duyệt web của khách hàng trên trang web của họ để cá nhân hóa đề xuất sản phẩm. Dữ liệu này bao gồm nhật ký click chuột, lịch sử tìm kiếm, thời gian dừng lại trên trang, và thông tin nhân khẩu học. Loại dữ liệu này chủ yếu thuộc về đặc điểm nào của Big Data?
- A. Volume (Khối lượng)
- B. Variety (Đa dạng)
- C. Velocity (Tốc độ)
- D. Veracity (Độ tin cậy)
Câu 2: Một hệ thống giám sát giao thông thu thập dữ liệu từ hàng ngàn cảm biến trên đường cao tốc, camera giao thông và thiết bị GPS của xe cộ, tạo ra hàng terabyte dữ liệu mỗi ngày. Yêu cầu xử lý dữ liệu này gần như theo thời gian thực để phát hiện tắc nghẽn và điều chỉnh đèn giao thông. Đặc điểm nào của Big Data được nhấn mạnh ở đây?
- A. Volume (Khối lượng)
- B. Variety (Đa dạng)
- C. Velocity (Tốc độ)
- D. Value (Giá trị)
Câu 3: Trong kiến trúc Hadoop HDFS, thành phần nào chịu trách nhiệm quản lý siêu dữ liệu (metadata) của hệ thống tệp, bao gồm thông tin về vị trí các khối dữ liệu và quyền truy cập?
- A. NameNode
- B. DataNode
- C. Secondary NameNode
- D. ResourceManager
Câu 4: DataNode trong HDFS thực hiện chức năng chính nào sau đây?
- A. Quản lý metadata của hệ thống tệp
- B. Lưu trữ các khối dữ liệu và phục vụ yêu cầu đọc/ghi
- C. Thực hiện tính toán và xử lý dữ liệu
- D. Điều phối tài nguyên cụm và lập lịch công việc
Câu 5: Secondary NameNode trong Hadoop không phải là nút dự phòng nóng (hot standby) cho NameNode. Vậy chức năng chính của Secondary NameNode là gì?
- A. Thay thế NameNode khi NameNode chính bị lỗi
- B. Tăng tốc độ truy cập dữ liệu bằng cách cache metadata
- C. Tạo điểm kiểm tra (checkpoint) định kỳ cho metadata của NameNode
- D. Cân bằng tải cho NameNode bằng cách xử lý một phần yêu cầu metadata
Câu 6: YARN (Yet Another Resource Negotiator) đóng vai trò gì trong hệ sinh thái Hadoop?
- A. Hệ thống tệp phân tán chịu trách nhiệm lưu trữ dữ liệu
- B. Công cụ truy vấn SQL trên dữ liệu Hadoop
- C. Mô hình lập trình để xử lý song song dữ liệu lớn
- D. Nền tảng quản lý tài nguyên cụm và lập lịch công việc
Câu 7: Trong mô hình lập trình MapReduce, giai đoạn "Map" có chức năng chính là gì?
- A. Tổng hợp và giảm dữ liệu trung gian để tạo ra kết quả cuối cùng
- B. Chuyển đổi dữ liệu đầu vào thành các cặp key-value trung gian
- C. Phân phối công việc đến các node khác nhau trong cụm
- D. Đảm bảo tính toàn vẹn và độ tin cậy của dữ liệu
Câu 8: Giai đoạn "Reduce" trong MapReduce thực hiện chức năng gì sau giai đoạn "Map"?
- A. Tổng hợp và xử lý các cặp key-value trung gian từ giai đoạn Map
- B. Phân chia dữ liệu đầu vào thành các khối nhỏ hơn để xử lý song song
- C. Lưu trữ dữ liệu đầu ra vào hệ thống tệp phân tán
- D. Giám sát tiến độ và quản lý lỗi của các tác vụ Map và Reduce
Câu 9: Spark là một framework xử lý dữ liệu lớn khác phổ biến. Ưu điểm chính của Spark so với MapReduce truyền thống là gì?
- A. Khả năng xử lý dữ liệu phi cấu trúc tốt hơn
- B. Tính năng bảo mật mạnh mẽ hơn
- C. Tốc độ xử lý nhanh hơn nhờ khả năng xử lý trong bộ nhớ
- D. Dễ dàng mở rộng quy mô hơn
Câu 10: Trong Spark, RDD (Resilient Distributed Dataset) là gì?
- A. Ngôn ngữ lập trình chính của Spark
- B. Công cụ quản lý tài nguyên của Spark
- C. Hệ thống tệp phân tán của Spark
- D. Trừu tượng dữ liệu phân tán và bất biến trong Spark
Câu 11: Giả sử bạn có một tập dữ liệu lớn chứa thông tin giao dịch mua hàng của khách hàng. Bạn muốn phân tích tập dữ liệu này để tìm ra các nhóm khách hàng có hành vi mua sắm tương đồng. Kỹ thuật phân tích dữ liệu nào sau đây phù hợp nhất?
- A. Hồi quy tuyến tính (Linear Regression)
- B. Phân cụm (Clustering)
- C. Phân loại (Classification)
- D. Khai thác luật kết hợp (Association Rule Mining)
Câu 12: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời bỏ dịch vụ (churn prediction). Họ có dữ liệu về thông tin cá nhân, lịch sử sử dụng dịch vụ, và tương tác với trung tâm hỗ trợ khách hàng. Phương pháp học máy nào thích hợp nhất để giải quyết bài toán này?
- A. Phân tích thành phần chính (Principal Component Analysis)
- B. Hồi quy (Regression)
- C. Phân loại (Classification)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 13: Trong lĩnh vực Big Data, thuật ngữ "Data Lake" (Hồ dữ liệu) dùng để chỉ điều gì?
- A. Kho lưu trữ trung tâm cho dữ liệu thô ở nhiều định dạng khác nhau
- B. Hệ thống quản lý cơ sở dữ liệu quan hệ quy mô lớn
- C. Công cụ trực quan hóa dữ liệu thời gian thực
- D. Nền tảng phát triển ứng dụng phân tán
Câu 14: Sự khác biệt chính giữa Data Warehouse (Kho dữ liệu) và Data Lake (Hồ dữ liệu) là gì?
- A. Data Warehouse lưu trữ dữ liệu lịch sử, còn Data Lake lưu trữ dữ liệu hiện tại
- B. Data Warehouse lưu trữ dữ liệu đã qua xử lý và có cấu trúc, còn Data Lake lưu trữ dữ liệu thô và đa dạng
- C. Data Warehouse chỉ dành cho dữ liệu giao dịch, còn Data Lake cho dữ liệu phi giao dịch
- D. Data Warehouse sử dụng công nghệ NoSQL, còn Data Lake sử dụng SQL
Câu 15: NoSQL databases (Cơ sở dữ liệu NoSQL) thường được sử dụng trong Big Data vì lý do chính nào?
- A. Tính năng ACID transactions mạnh mẽ hơn
- B. Khả năng truy vấn SQL phức tạp hơn
- C. Khả năng mở rộng linh hoạt và xử lý dữ liệu phi cấu trúc
- D. Chi phí triển khai thấp hơn
Câu 16: Chọn phát biểu đúng về tính năng "fault tolerance" (khả năng chịu lỗi) trong hệ thống Big Data phân tán như Hadoop HDFS.
- A. Khi một node bị lỗi, dữ liệu trên node đó sẽ bị mất vĩnh viễn.
- B. Hệ thống sẽ ngừng hoạt động khi có bất kỳ node nào bị lỗi.
- C. Tính năng fault tolerance không quan trọng trong Big Data.
- D. Hệ thống tiếp tục hoạt động bình thường ngay cả khi một số node bị lỗi nhờ cơ chế sao chép dữ liệu.
Câu 17: Để đảm bảo an ninh dữ liệu trong môi trường Big Data, biện pháp nào sau đây là quan trọng nhất?
- A. Giới hạn số lượng người dùng truy cập hệ thống
- B. Mã hóa dữ liệu khi lưu trữ và truyền tải
- C. Sao lưu dữ liệu thường xuyên
- D. Sử dụng tường lửa mạnh mẽ
Câu 18: Trong quá trình thu thập dữ liệu lớn từ nhiều nguồn khác nhau, thách thức "Data Wrangling" (chuẩn bị và làm sạch dữ liệu) đề cập đến vấn đề gì?
- A. Lưu trữ dữ liệu hiệu quả trên hệ thống phân tán
- B. Truy xuất dữ liệu nhanh chóng từ kho lưu trữ lớn
- C. Làm sạch, biến đổi và chuẩn hóa dữ liệu không nhất quán và không đầy đủ
- D. Trực quan hóa dữ liệu để khám phá thông tin
Câu 19: Một công ty muốn xây dựng một hệ thống Big Data để phân tích nhật ký web và dữ liệu mạng xã hội. Họ cần lựa chọn một nền tảng điện toán đám mây. Nền tảng đám mây nào sau đây cung cấp các dịch vụ Big Data phổ biến như Hadoop, Spark, và Data Lake?
- A. Amazon Web Services (AWS)
- B. Microsoft Office 365
- C. Adobe Creative Cloud
- D. Salesforce
Câu 20: "Scalability" (khả năng mở rộng) là một yêu cầu quan trọng của hệ thống Big Data. Scalability ngang (horizontal scalability) đề cập đến phương pháp mở rộng nào?
- A. Nâng cấp phần cứng của máy chủ hiện tại (ví dụ: CPU, RAM)
- B. Thêm nhiều máy chủ (nodes) vào hệ thống phân tán
- C. Tối ưu hóa mã nguồn và thuật toán
- D. Sử dụng bộ nhớ cache hiệu quả hơn
Câu 21: Trong lĩnh vực Big Data, "real-time processing" (xử lý thời gian thực) khác biệt so với "batch processing" (xử lý theo lô) như thế nào?
- A. Xử lý thời gian thực chỉ áp dụng cho dữ liệu có cấu trúc, còn xử lý theo lô cho dữ liệu phi cấu trúc.
- B. Xử lý thời gian thực sử dụng ít tài nguyên tính toán hơn xử lý theo lô.
- C. Xử lý thời gian thực xử lý dữ liệu ngay khi nó được tạo ra, còn xử lý theo lô xử lý dữ liệu định kỳ theo lô lớn.
- D. Xử lý thời gian thực luôn cho kết quả chính xác hơn xử lý theo lô.
Câu 22: "Data Governance" (Quản trị dữ liệu) trong Big Data bao gồm những hoạt động nào?
- A. Chỉ bao gồm việc đảm bảo chất lượng dữ liệu
- B. Chỉ liên quan đến bảo mật dữ liệu
- C. Chỉ tập trung vào việc lưu trữ dữ liệu hiệu quả
- D. Bao gồm các chính sách, quy trình và tiêu chuẩn để quản lý dữ liệu, bao gồm chất lượng, bảo mật, và tuân thủ quy định.
Câu 23: Các công cụ trực quan hóa dữ liệu (data visualization) đóng vai trò gì trong phân tích Big Data?
- A. Thay thế hoàn toàn các phương pháp phân tích dữ liệu truyền thống.
- B. Giúp khám phá mẫu, hiểu rõ hơn về dữ liệu, và truyền đạt insight một cách hiệu quả.
- C. Chỉ dùng để tạo báo cáo đẹp mắt.
- D. Không cần thiết trong phân tích Big Data vì dữ liệu quá lớn.
Câu 24: "Edge computing" (Điện toán biên) có liên quan đến Big Data như thế nào?
- A. Điện toán biên là một framework thay thế Hadoop.
- B. Điện toán biên chỉ áp dụng cho dữ liệu có cấu trúc.
- C. Điện toán biên cho phép xử lý một phần dữ liệu Big Data ngay tại nguồn phát sinh, gần thiết bị hoặc cảm biến.
- D. Điện toán biên chỉ tập trung vào lưu trữ dữ liệu.
Câu 25: "Data mining" (Khai thác dữ liệu) là gì trong bối cảnh Big Data?
- A. Quá trình khám phá các mẫu, tri thức và thông tin hữu ích từ lượng lớn dữ liệu.
- B. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
- C. Quá trình làm sạch và chuẩn hóa dữ liệu.
- D. Quá trình bảo mật dữ liệu lớn.
Câu 26: Giả sử bạn có một cụm Hadoop và nhận thấy hiệu suất truy vấn giảm sút. Một trong những nguyên nhân có thể là do "data skew" (dữ liệu bị lệch). Data skew là gì?
- A. Dữ liệu bị lỗi hoặc không chính xác.
- B. Dữ liệu không được sắp xếp theo thứ tự.
- C. Dữ liệu được lưu trữ ở định dạng không tối ưu.
- D. Dữ liệu phân phối không đều giữa các nodes trong cụm, dẫn đến một số node phải xử lý nhiều dữ liệu hơn các node khác.
Câu 27: "Kappa architecture" và "Lambda architecture" là hai kiến trúc phổ biến trong xử lý Big Data. Điểm khác biệt chính giữa chúng là gì?
- A. Lambda architecture chỉ hỗ trợ xử lý theo lô, còn Kappa architecture chỉ hỗ trợ xử lý thời gian thực.
- B. Kappa architecture phức tạp hơn Lambda architecture.
- C. Lambda architecture có hai lớp xử lý (batch và stream), còn Kappa architecture cố gắng đơn giản hóa thành một lớp xử lý stream duy nhất.
- D. Kappa architecture bảo mật hơn Lambda architecture.
Câu 28: Trong ngữ cảnh Big Data và machine learning, "feature engineering" (kỹ thuật đặc trưng) là gì?
- A. Quá trình chọn mô hình học máy phù hợp nhất.
- B. Quá trình chọn lọc, biến đổi và tạo ra các đặc trưng (features) phù hợp từ dữ liệu thô để cải thiện hiệu suất mô hình học máy.
- C. Quá trình đánh giá và tinh chỉnh mô hình học máy.
- D. Quá trình triển khai mô hình học máy vào thực tế.
Câu 29: Một tổ chức y tế sử dụng Big Data để phân tích dữ liệu bệnh án điện tử nhằm cải thiện chất lượng chăm sóc và dự đoán nguy cơ bệnh tật. Vấn đề đạo đức nào cần được đặc biệt quan tâm trong trường hợp này?
- A. Chi phí đầu tư vào công nghệ Big Data.
- B. Độ phức tạp của việc phân tích dữ liệu y tế.
- C. Khả năng giải thích kết quả phân tích cho bệnh nhân.
- D. Bảo vệ quyền riêng tư và bảo mật thông tin bệnh nhân.
Câu 30: "Data lineage" (Dòng dõi dữ liệu) là một khái niệm quan trọng trong quản lý Big Data. Nó dùng để chỉ điều gì?
- A. Kích thước của tập dữ liệu Big Data.
- B. Tốc độ tạo ra dữ liệu Big Data.
- C. Hành trình và nguồn gốc của dữ liệu, bao gồm nơi dữ liệu đến từ đâu, nó đã trải qua những biến đổi nào, và nó được sử dụng ở đâu.
- D. Độ tin cậy của dữ liệu Big Data.