Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 09 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Đặc điểm nào sau đây KHÔNG phải là một trong "5Vs" thường được dùng để mô tả Dữ liệu Lớn?
- A. Volume (Khối lượng)
- B. Velocity (Tốc độ)
- C. Variety (Đa dạng)
- D. Volatility (Tính biến động)
Câu 2: Trong bối cảnh Dữ liệu Lớn, "Velocity" đề cập đến yếu tố nào?
- A. Độ chính xác của dữ liệu được thu thập
- B. Tốc độ dữ liệu được tạo ra và xử lý
- C. Số lượng nguồn dữ liệu khác nhau
- D. Giá trị kinh doanh thu được từ dữ liệu
Câu 3: Một công ty thương mại điện tử thu thập dữ liệu về lịch sử duyệt web, hành vi mua sắm, và tương tác trên mạng xã hội của khách hàng. Đặc điểm "Variety" của Dữ liệu Lớn được thể hiện rõ nhất qua điều nào?
- A. Khối lượng dữ liệu khổng lồ được tạo ra mỗi ngày
- B. Tốc độ phân tích dữ liệu để đưa ra quyết định thời gian thực
- C. Sự đa dạng về loại dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc)
- D. Độ tin cậy của dữ liệu thu thập từ nhiều nguồn khác nhau
Câu 4: Chọn phát biểu đúng nhất về Hadoop Distributed File System (HDFS).
- A. HDFS là một hệ thống tệp phân tán, chịu lỗi, được thiết kế cho việc lưu trữ và xử lý dữ liệu lớn.
- B. HDFS là một hệ quản trị cơ sở dữ liệu NoSQL.
- C. HDFS chỉ phù hợp cho dữ liệu có cấu trúc.
- D. HDFS chủ yếu được sử dụng cho xử lý dữ liệu thời gian thực.
Câu 5: Thành phần nào của Hadoop chịu trách nhiệm quản lý tài nguyên cluster và lập lịch công việc (job scheduling)?
- A. HDFS (Hadoop Distributed File System)
- B. YARN (Yet Another Resource Negotiator)
- C. MapReduce
- D. HBase
Câu 6: Mô hình lập trình MapReduce trong Hadoop hoạt động theo nguyên tắc nào?
- A. Chia để trị và hợp nhất (Divide and Conquer & Merge)
- B. Xử lý tuần tự theo lô (Sequential Batch Processing)
- C. Ánh xạ và Giảm (Map and Reduce)
- D. Truy vấn và Phân tích (Query and Analyze)
Câu 7: Spark khác biệt với Hadoop MapReduce chủ yếu ở điểm nào trong xử lý dữ liệu?
- A. Spark chỉ có thể xử lý dữ liệu có cấu trúc, trong khi MapReduce xử lý mọi loại dữ liệu.
- B. Spark sử dụng mô hình xử lý theo lô, còn MapReduce xử lý theo thời gian thực.
- C. Spark lưu trữ dữ liệu trên HDFS, còn MapReduce sử dụng hệ thống tệp riêng.
- D. Spark có thể thực hiện xử lý dữ liệu trong bộ nhớ (in-memory), giúp tăng tốc độ so với MapReduce.
Câu 8: Kafka thường được sử dụng cho mục đích chính nào trong kiến trúc Dữ liệu Lớn?
- A. Lưu trữ dữ liệu lịch sử với dung lượng lớn
- B. Xây dựng pipeline dữ liệu streaming và xử lý dữ liệu thời gian thực
- C. Phân tích dữ liệu theo lô và tạo báo cáo tổng hợp
- D. Thực hiện các truy vấn phức tạp trên dữ liệu có cấu trúc
Câu 9: NoSQL database (Cơ sở dữ liệu NoSQL) được thiết kế để giải quyết thách thức nào mà cơ sở dữ liệu quan hệ truyền thống gặp phải khi xử lý Dữ liệu Lớn?
- A. Đảm bảo tính toàn vẹn ACID (Atomicity, Consistency, Isolation, Durability) tuyệt đối cho dữ liệu.
- B. Tối ưu hóa cho các truy vấn phức tạp và quan hệ giữa các bảng dữ liệu.
- C. Xử lý dữ liệu phi cấu trúc hoặc bán cấu trúc và khả năng mở rộng linh hoạt theo chiều ngang (horizontal scaling).
- D. Giảm chi phí lưu trữ dữ liệu so với cơ sở dữ liệu quan hệ.
Câu 10: Data Warehouse (Kho dữ liệu) chủ yếu được sử dụng cho mục đích nào?
- A. Phân tích dữ liệu lịch sử và hỗ trợ ra quyết định kinh doanh.
- B. Xử lý giao dịch trực tuyến (OLTP) với tốc độ cao.
- C. Lưu trữ dữ liệu hoạt động (operational data) thời gian thực.
- D. Quản lý dữ liệu phi cấu trúc từ mạng xã hội.
Câu 11: ETL (Extract, Transform, Load) là quy trình quan trọng trong Data Warehouse. Giai đoạn "Transform" (Biến đổi) bao gồm hoạt động nào?
- A. Thu thập dữ liệu từ các nguồn khác nhau.
- B. Làm sạch, chuẩn hóa, và tích hợp dữ liệu để đảm bảo chất lượng.
- C. Tải dữ liệu đã biến đổi vào kho dữ liệu.
- D. Xác định nguồn gốc và dòng chảy dữ liệu.
Câu 12: Data Lake (Hồ dữ liệu) khác biệt với Data Warehouse chủ yếu ở điểm nào?
- A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ mọi loại dữ liệu.
- B. Data Lake tập trung vào phân tích dữ liệu lịch sử, còn Data Warehouse cho dữ liệu thời gian thực.
- C. Data Lake lưu trữ dữ liệu thô ở định dạng gốc, còn Data Warehouse lưu trữ dữ liệu đã được xử lý và có cấu trúc.
- D. Data Lake yêu cầu quy trình ETL nghiêm ngặt hơn Data Warehouse.
Câu 13: Thuật ngữ "Schema-on-Read" thường được liên kết với loại hệ thống lưu trữ dữ liệu nào?
- A. Cơ sở dữ liệu quan hệ truyền thống
- B. Data Warehouse
- C. Hệ thống xử lý giao dịch trực tuyến (OLTP)
- D. Data Lake
Câu 14: Trong lĩnh vực Dữ liệu Lớn, "Data Mining" (Khai phá dữ liệu) được sử dụng để làm gì?
- A. Lưu trữ và quản lý dữ liệu với khối lượng cực lớn.
- B. Phát hiện các mẫu, xu hướng, và tri thức ẩn sâu trong dữ liệu lớn.
- C. Tối ưu hóa hiệu suất hệ thống cơ sở dữ liệu.
- D. Đảm bảo tính bảo mật và toàn vẹn dữ liệu.
Câu 15: Kỹ thuật phân tích dữ liệu nào thường được sử dụng để dự đoán hành vi khách hàng dựa trên dữ liệu mua sắm trước đây?
- A. Thống kê mô tả (Descriptive Statistics)
- B. Truy vấn SQL nâng cao
- C. Machine Learning (Học máy)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 16: Trong Machine Learning, thuật toán "phân cụm" (clustering) thường được sử dụng cho mục đích nào?
- A. Nhóm các điểm dữ liệu tương tự lại với nhau dựa trên đặc điểm chung.
- B. Dự đoán một giá trị số liên tục dựa trên dữ liệu đầu vào.
- C. Phân loại dữ liệu vào các danh mục được xác định trước.
- D. Giảm số chiều dữ liệu để đơn giản hóa phân tích.
Câu 17: Chọn công cụ trực quan hóa dữ liệu (data visualization) phổ biến thường được sử dụng để khám phá và trình bày thông tin từ Dữ liệu Lớn.
- A. Hadoop
- B. Tableau
- C. Kafka
- D. MongoDB
Câu 18: Ứng dụng Dữ liệu Lớn trong lĩnh vực y tế có thể mang lại lợi ích nào sau đây?
- A. Giảm chi phí lưu trữ hồ sơ bệnh án điện tử.
- B. Tăng cường bảo mật thông tin cá nhân của bệnh nhân.
- C. Cải thiện chẩn đoán bệnh, phát triển phương pháp điều trị cá nhân hóa, và dự đoán dịch bệnh.
- D. Tự động hóa hoàn toàn quy trình chăm sóc bệnh nhân.
Câu 19: Trong ngành tài chính, Dữ liệu Lớn thường được sử dụng để phát hiện gian lận (fraud detection) bằng cách nào?
- A. Tăng tốc độ giao dịch tài chính trực tuyến.
- B. Cá nhân hóa dịch vụ ngân hàng cho từng khách hàng.
- C. Dự đoán biến động thị trường chứng khoán.
- D. Phân tích lịch sử giao dịch và hành vi khách hàng để phát hiện các mẫu giao dịch bất thường, nghi ngờ gian lận.
Câu 20: Ứng dụng Dữ liệu Lớn trong marketing giúp các doanh nghiệp thực hiện điều gì hiệu quả hơn?
- A. Giảm chi phí quảng cáo trên truyền hình.
- B. Cá nhân hóa trải nghiệm khách hàng, nhắm mục tiêu quảng cáo chính xác hơn, và tối ưu hóa chiến dịch marketing.
- C. Tăng cường bảo mật dữ liệu khách hàng.
- D. Tự động hóa quy trình chăm sóc khách hàng.
Câu 21: Vấn đề đạo đức nào cần được đặc biệt quan tâm khi thu thập và phân tích Dữ liệu Lớn liên quan đến thông tin cá nhân?
- A. Chi phí lưu trữ dữ liệu quá lớn.
- B. Sự phức tạp trong việc phân tích dữ liệu đa dạng.
- C. Quyền riêng tư và bảo mật thông tin cá nhân, nguy cơ phân biệt đối xử và lạm dụng dữ liệu.
- D. Thiếu hụt nhân lực có kỹ năng phân tích Dữ liệu Lớn.
Câu 22: "Data Governance" (Quản trị dữ liệu) trong bối cảnh Dữ liệu Lớn bao gồm hoạt động nào?
- A. Thiết lập các chính sách, quy trình, và tiêu chuẩn để đảm bảo chất lượng, bảo mật, và tuân thủ quy định về dữ liệu.
- B. Phát triển các thuật toán Machine Learning tiên tiến.
- C. Xây dựng hệ thống lưu trữ dữ liệu phân tán.
- D. Trực quan hóa dữ liệu để dễ dàng phân tích.
Câu 23: Biện pháp nào sau đây quan trọng để đảm bảo an ninh dữ liệu (data security) trong môi trường Dữ liệu Lớn?
- A. Sử dụng mật khẩu đơn giản và dễ nhớ.
- B. Mã hóa dữ liệu nhạy cảm cả khi lưu trữ và truyền tải.
- C. Chia sẻ quyền truy cập dữ liệu cho tất cả nhân viên.
- D. Sao lưu dữ liệu hàng ngày vào một ổ đĩa duy nhất.
Câu 24: Xu hướng nào sau đây được dự đoán sẽ định hình tương lai của Dữ liệu Lớn?
- A. Sự suy giảm về khối lượng dữ liệu được tạo ra.
- B. Giảm sự quan trọng của dữ liệu phi cấu trúc.
- C. Sự tích hợp sâu rộng hơn của Trí tuệ Nhân tạo (AI) và Học máy (Machine Learning) vào quy trình xử lý và phân tích dữ liệu.
- D. Sự phụ thuộc hoàn toàn vào cơ sở dữ liệu quan hệ truyền thống.
Câu 25: Trong HDFS, NameNode đóng vai trò gì?
- A. Quản lý metadata (siêu dữ liệu) và namespace của hệ thống tệp HDFS.
- B. Lưu trữ dữ liệu thực tế (data blocks) của các tệp.
- C. Thực hiện tính toán và xử lý dữ liệu.
- D. Sao lưu dữ liệu từ DataNodes.
Câu 26: DataNode trong HDFS chịu trách nhiệm chính cho việc gì?
- A. Quản lý metadata của hệ thống tệp.
- B. Lưu trữ các khối dữ liệu thực tế (data blocks) của các tệp và phục vụ yêu cầu đọc/ghi dữ liệu.
- C. Điều phối các công việc MapReduce.
- D. Sao lưu metadata từ NameNode.
Câu 27: Cơ chế "replication" (sao chép) trong HDFS nhằm mục đích chính nào?
- A. Tăng tốc độ truy cập dữ liệu.
- B. Giảm dung lượng lưu trữ cần thiết.
- C. Tăng cường độ tin cậy và khả năng chịu lỗi của hệ thống bằng cách sao chép dữ liệu trên nhiều DataNodes.
- D. Đơn giản hóa quản lý metadata.
Câu 28: Kích thước khối (block size) mặc định trong HDFS thường là bao nhiêu?
- A. 4KB
- B. 1MB
- C. 16MB
- D. 128MB
Câu 29: Lệnh `hadoop fs -ls /` dùng để làm gì?
- A. Liệt kê nội dung của thư mục gốc trong HDFS.
- B. Tạo một thư mục mới có tên "ls" trong HDFS.
- C. Xóa thư mục gốc trong HDFS.
- D. Tải một tệp lên thư mục gốc trong HDFS.
Câu 30: Để phân tích nhật ký web server (web server logs) có dung lượng lớn, công nghệ Dữ liệu Lớn nào sau đây sẽ phù hợp nhất?
- A. Cơ sở dữ liệu quan hệ (Relational Database)
- B. Hadoop hoặc Spark
- C. Microsoft Excel
- D. Một máy tính cá nhân thông thường