Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong bối cảnh Dữ liệu lớn, thuật ngữ "Tính đa dạng" (Variety) đề cập đến đặc điểm nào?
- A. Lượng dữ liệu được tạo ra và lưu trữ.
- B. Các loại và định dạng dữ liệu khác nhau (có cấu trúc, bán cấu trúc, phi cấu trúc).
- C. Tốc độ tạo ra và xử lý dữ liệu.
- D. Độ tin cậy và tính chính xác của dữ liệu.
Câu 2: Công nghệ nào sau đây thường được sử dụng để lưu trữ và xử lý lượng dữ liệu lớn, phi cấu trúc, phân tán trên nhiều máy tính?
- A. Cơ sở dữ liệu quan hệ (RDBMS)
- B. Kho dữ liệu (Data Warehouse)
- C. Hệ thống tệp phân tán Hadoop (HDFS)
- D. Bộ nhớ cache phân tán (Distributed Cache)
Câu 3: Thành phần nào trong Hadoop chịu trách nhiệm quản lý tài nguyên cụm và lập lịch công việc (job scheduling)?
- A. HDFS NameNode
- B. HDFS DataNode
- C. MapReduce JobTracker
- D. YARN ResourceManager
Câu 4: Mô hình lập trình MapReduce trong Hadoop hoạt động dựa trên nguyên tắc nào?
- A. Chia nhỏ dữ liệu và xử lý song song (Divide and Conquer, Parallel Processing)
- B. Xử lý tuần tự dữ liệu theo lô (Sequential Batch Processing)
- C. Truy vấn dữ liệu theo thời gian thực (Real-time Querying)
- D. Lưu trữ dữ liệu tập trung và truy cập ngẫu nhiên (Centralized Storage, Random Access)
Câu 5: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ dữ liệu dạng cặp khóa-giá trị (key-value pairs) với khả năng truy cập tốc độ cao?
- A. Cơ sở dữ liệu dạng cột (Column-family database)
- B. Cơ sở dữ liệu cặp khóa-giá trị (Key-value store)
- C. Cơ sở dữ liệu đồ thị (Graph database)
- D. Cơ sở dữ liệu dạng tài liệu (Document database)
Câu 6: Trong kiến trúc HDFS, NameNode đóng vai trò gì?
- A. Lưu trữ các khối dữ liệu thực tế.
- B. Thực hiện các phép tính MapReduce.
- C. Quản lý metadata (siêu dữ liệu) và không gian tên của hệ thống tệp.
- D. Điều phối giao tiếp giữa các DataNode.
Câu 7: Ưu điểm chính của việc sử dụng Data Lake so với Data Warehouse trong quản lý dữ liệu lớn là gì?
- A. Data Warehouse có khả năng xử lý dữ liệu thời gian thực tốt hơn.
- B. Data Warehouse dễ dàng tích hợp với các công cụ báo cáo và phân tích truyền thống hơn.
- C. Data Warehouse có chi phí lưu trữ thấp hơn Data Lake.
- D. Data Lake cho phép lưu trữ dữ liệu thô ở nhiều định dạng khác nhau, linh hoạt hơn cho các mục đích sử dụng khác nhau.
Câu 8: Công cụ nào sau đây trong hệ sinh thái Hadoop thường được sử dụng để truy vấn và phân tích dữ liệu tương tự SQL trên dữ liệu lớn?
- A. Apache Hive
- B. Apache Pig
- C. Apache Spark
- D. Apache Kafka
Câu 9: Kỹ thuật "phân vùng dữ liệu" (data partitioning) trong Big Data nhằm mục đích chính là gì?
- A. Tăng cường bảo mật dữ liệu.
- B. Cải thiện hiệu suất truy vấn và xử lý dữ liệu.
- C. Giảm chi phí lưu trữ dữ liệu.
- D. Đảm bảo tính toàn vẹn dữ liệu.
Câu 10: Trong ngữ cảnh xử lý dữ liệu thời gian thực (real-time data processing), công nghệ nào sau đây thường được sử dụng để thu thập và truyền tải luồng dữ liệu liên tục?
- A. Hadoop MapReduce
- B. Apache Hive
- C. Apache Kafka
- D. Apache HBase
Câu 11: Hãy xem xét tình huống một công ty thương mại điện tử muốn phân tích hành vi duyệt web của khách hàng để cá nhân hóa trải nghiệm mua sắm. Loại hình phân tích dữ liệu lớn nào phù hợp nhất?
- A. Phân tích nhật ký máy chủ (Server log analysis) để tối ưu hóa hiệu suất website.
- B. Phân tích cảm xúc (Sentiment analysis) từ đánh giá sản phẩm để cải thiện chất lượng.
- C. Phân tích dự báo chuỗi thời gian (Time series forecasting) để quản lý hàng tồn kho.
- D. Phân tích hành vi duyệt web (Web browsing behavior analysis) để cá nhân hóa đề xuất sản phẩm.
Câu 12: Trong quá trình xử lý dữ liệu lớn, "ETL" là viết tắt của quy trình nào?
- A. Estimate, Transform, Learn
- B. Extract, Transform, Load
- C. Evaluate, Test, Launch
- D. Encrypt, Transfer, Log
Câu 13: Công nghệ nào sau đây cung cấp khả năng xử lý dữ liệu trong bộ nhớ (in-memory data processing) nhanh hơn so với MapReduce truyền thống?
- A. Apache Hive
- B. Apache Pig
- C. Apache Spark
- D. Apache HBase
Câu 14: "Data Governance" trong Big Data bao gồm những hoạt động chính nào?
- A. Chỉ tập trung vào bảo mật dữ liệu.
- B. Chỉ tập trung vào cải thiện chất lượng dữ liệu.
- C. Chỉ tập trung vào tối ưu hóa hiệu suất truy vấn.
- D. Quản lý chất lượng, bảo mật, tuân thủ quy định và vòng đời dữ liệu.
Câu 15: Trong bối cảnh bảo mật dữ liệu lớn, kỹ thuật "che giấu dữ liệu" (data masking) được sử dụng để làm gì?
- A. Thay thế hoặc xáo trộn dữ liệu nhạy cảm để bảo vệ thông tin cá nhân.
- B. Mã hóa toàn bộ cơ sở dữ liệu để ngăn chặn truy cập trái phép.
- C. Sao lưu dữ liệu thường xuyên để phục hồi khi có sự cố.
- D. Giám sát hoạt động truy cập dữ liệu để phát hiện xâm nhập.
Câu 16: Giả sử bạn có một tập dữ liệu khổng lồ chứa thông tin nhật ký web (web logs) và muốn tìm ra các mẫu hành vi người dùng phổ biến. Phương pháp phân tích dữ liệu lớn nào phù hợp nhất?
- A. Phân tích hồi quy (Regression analysis)
- B. Phân tích khám phá và khai phá dữ liệu (Exploratory Data Analysis and Data Mining)
- C. Thống kê mô tả (Descriptive statistics)
- D. Kiểm định giả thuyết (Hypothesis testing)
Câu 17: "Tính chịu lỗi" (Fault Tolerance) là một đặc tính quan trọng của hệ thống Big Data. Trong HDFS, tính năng nào đảm bảo tính chịu lỗi?
- A. Phân vùng dữ liệu (Data partitioning)
- B. Nén dữ liệu (Data compression)
- C. Sao chép dữ liệu (Data replication)
- D. Mã hóa dữ liệu (Data encryption)
Câu 18: Để xử lý luồng dữ liệu liên tục và thực hiện phân tích thời gian thực, framework nào sau đây thường được sử dụng?
- A. Hadoop MapReduce
- B. Apache Hive
- C. Apache Spark Batch Processing
- D. Apache Flink hoặc Apache Storm
Câu 19: Trong mô hình Lambda Architecture cho Big Data, lớp "batch layer" và "speed layer" phục vụ mục đích gì?
- A. Batch layer cho phân tích tương tác, speed layer cho phân tích báo cáo.
- B. Batch layer cho xử lý dữ liệu lịch sử, speed layer cho xử lý dữ liệu thời gian thực.
- C. Batch layer cho lưu trữ dữ liệu nóng, speed layer cho lưu trữ dữ liệu lạnh.
- D. Batch layer cho quản lý metadata, speed layer cho quản lý dữ liệu thực tế.
Câu 20: "Data wrangling" (hoặc data munging) là một bước quan trọng trong quá trình phân tích dữ liệu lớn. Nó bao gồm những hoạt động nào?
- A. Chỉ thu thập dữ liệu từ nhiều nguồn khác nhau.
- B. Chỉ trực quan hóa dữ liệu để khám phá thông tin.
- C. Làm sạch, chuyển đổi và cấu trúc lại dữ liệu thô để chuẩn bị cho phân tích.
- D. Chỉ xây dựng mô hình máy học từ dữ liệu.
Câu 21: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời mạng (churn) dựa trên lịch sử cuộc gọi, thông tin thuê bao và tương tác dịch vụ. Ứng dụng này thuộc lĩnh vực nào của Big Data?
- A. Phân tích dự đoán và dự báo (Predictive analytics and forecasting)
- B. Phân tích nhật ký và giám sát hệ thống (Log analysis and system monitoring)
- C. Phân tích mạng xã hội (Social network analysis)
- D. Phân tích cảm xúc khách hàng (Customer sentiment analysis)
Câu 22: "Độ trễ thấp" (low latency) là một yêu cầu quan trọng trong ứng dụng Big Data nào sau đây?
- A. Phân tích dữ liệu bán hàng hàng tháng để lập kế hoạch kinh doanh.
- B. Phát hiện gian lận giao dịch thẻ tín dụng trong thời gian thực.
- C. Tổng hợp dữ liệu nhật ký web để báo cáo xu hướng truy cập hàng ngày.
- D. Phân tích đánh giá sản phẩm của khách hàng để cải thiện chất lượng dịch vụ.
Câu 23: Trong kiến trúc Kappa Architecture, điều gì khác biệt chính so với Lambda Architecture?
- A. Kappa Architecture sử dụng cả batch và stream processing, Lambda chỉ dùng stream.
- B. Kappa Architecture tập trung vào xử lý dữ liệu lịch sử, Lambda tập trung vào thời gian thực.
- C. Kappa Architecture đơn giản hóa bằng cách loại bỏ batch layer, chỉ sử dụng stream processing.
- D. Kappa Architecture bảo mật hơn Lambda Architecture.
Câu 24: "Data virtualization" trong Big Data mang lại lợi ích gì?
- A. Tăng tốc độ di chuyển dữ liệu giữa các hệ thống.
- B. Giảm chi phí lưu trữ dữ liệu bằng cách nén dữ liệu.
- C. Cải thiện chất lượng dữ liệu bằng cách chuẩn hóa định dạng.
- D. Truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép dữ liệu.
Câu 25: Công cụ nào sau đây thường được sử dụng để xây dựng quy trình ETL (Extract, Transform, Load) trong môi trường Big Data?
- A. Apache Hive
- B. Apache NiFi
- C. Apache HBase
- D. Apache Zeppelin
Câu 26: Trong lĩnh vực y tế, ứng dụng Big Data nào có tiềm năng cải thiện chăm sóc bệnh nhân và giảm chi phí?
- A. Quản lý lịch hẹn khám bệnh trực tuyến.
- B. Số hóa hồ sơ bệnh án giấy.
- C. Phân tích dữ liệu bệnh án điện tử (EHR) để đưa ra quyết định điều trị cá nhân hóa.
- D. Gửi tin nhắn nhắc nhở uống thuốc cho bệnh nhân.
Câu 27: "Data lineage" (dòng dõi dữ liệu) trong Big Data giúp ích gì trong quản lý dữ liệu?
- A. Tăng tốc độ truy vấn dữ liệu.
- B. Mã hóa dữ liệu để bảo mật.
- C. Tự động phân loại dữ liệu theo loại.
- D. Theo dõi nguồn gốc và quá trình biến đổi của dữ liệu từ nguồn đến đích.
Câu 28: Khi lựa chọn kiến trúc Big Data, yếu tố "khả năng mở rộng" (scalability) đề cập đến khả năng gì của hệ thống?
- A. Khả năng hoạt động liên tục 24/7 không ngừng.
- B. Khả năng xử lý hiệu quả khi lượng dữ liệu và tải công việc tăng lên.
- C. Khả năng bảo vệ dữ liệu khỏi các cuộc tấn công mạng.
- D. Khả năng tương thích với nhiều loại cơ sở dữ liệu khác nhau.
Câu 29: Trong ngữ cảnh máy học với dữ liệu lớn, "feature engineering" (kỹ thuật đặc trưng) đóng vai trò gì?
- A. Chọn thuật toán máy học phù hợp nhất.
- B. Tối ưu hóa tham số của mô hình máy học.
- C. Chọn lọc và biến đổi dữ liệu thô để tạo ra các đặc trưng phù hợp cho mô hình máy học.
- D. Đánh giá hiệu suất của mô hình máy học.
Câu 30: Cho tình huống một ngân hàng muốn phát hiện giao dịch gian lận thẻ tín dụng. Họ có lượng lớn dữ liệu giao dịch thời gian thực. Kiến trúc Big Data nào phù hợp nhất để xử lý và phân tích dòng dữ liệu này với độ trễ thấp?
- A. Kiến trúc Kappa hoặc Lambda (ưu tiên lớp Speed Layer)
- B. Kiến trúc Data Warehouse truyền thống
- C. Kiến trúc Data Lake với xử lý batch hàng ngày
- D. Hệ thống cơ sở dữ liệu quan hệ (RDBMS) đơn lẻ