Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Môn Dữ Liệu Lớn (Bigdata)

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 07

Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata) - Đề 06 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.

Câu 1: Đặc điểm "Variety" (Đa dạng) của Dữ liệu lớn (Big Data) đề cập đến yếu tố nào?

A. Số lượng dữ liệu được tạo ra và lưu trữ ngày càng tăng.
B. Sự khác biệt về loại dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc) và nguồn gốc dữ liệu.
C. Tốc độ dữ liệu được tạo ra và cần xử lý.
D. Độ tin cậy và chất lượng của dữ liệu.

Câu 2: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch công việc?

A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. YARN (Yet Another Resource Negotiator)
D. NameNode

Câu 3: Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn theo thời gian thực (real-time data processing)?

A. Hadoop MapReduce
B. HDFS
C. Hive
D. Apache Kafka

Câu 4: Cơ sở dữ liệu NoSQL nào phù hợp nhất cho việc lưu trữ và truy vấn dữ liệu dạng đồ thị (graph data), ví dụ như mạng xã hội?

A. MongoDB (Document Database)
B. Neo4j (Graph Database)
C. Cassandra (Wide-Column Store)
D. Redis (Key-Value Store)

Câu 5: Phương pháp phân tích dữ liệu lớn nào tập trung vào việc khám phá các mẫu ẩn, xu hướng, và thông tin hữu ích từ lượng lớn dữ liệu?

A. Khai thác dữ liệu (Data Mining)
B. Thống kê mô tả (Descriptive Statistics)
C. Báo cáo kinh doanh (Business Reporting)
D. Truy vấn SQL (SQL Querying)

Câu 6: Trong mô hình lập trình MapReduce, giai đoạn "Reduce" (Giảm) có chức năng chính là gì?

A. Chia dữ liệu đầu vào thành các phần nhỏ hơn.
B. Ánh xạ dữ liệu đầu vào thành các cặp key-value.
C. Tổng hợp, kết hợp, và xử lý các kết quả trung gian từ giai đoạn Map để tạo ra kết quả cuối cùng.
D. Lưu trữ dữ liệu phân tán trên cluster.

Câu 7: Để xử lý và phân tích dữ liệu lớn trên đám mây (cloud), nền tảng nào sau đây thường được sử dụng?

A. Microsoft Office 365
B. Adobe Creative Cloud
C. Salesforce
D. Amazon Web Services (AWS)

Câu 8: Thách thức "Veracity" (Độ tin cậy) trong Big Data liên quan đến vấn đề nào?

A. Khối lượng dữ liệu quá lớn để xử lý.
B. Sự không chắc chắn, không chính xác, và thiếu tin cậy của dữ liệu.
C. Tốc độ tạo ra dữ liệu quá nhanh.
D. Sự đa dạng của các loại dữ liệu.

Câu 9: Ngôn ngữ lập trình nào phổ biến nhất được sử dụng để phát triển các ứng dụng Spark?

A. Scala
B. C++
C. PHP
D. Swift

Câu 10: Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu lớn và tạo dashboard tương tác?

A. Hadoop
B. Spark
C. Tableau
D. Kafka

Câu 11: Trong HDFS, NameNode đóng vai trò gì?

A. Lưu trữ dữ liệu thực tế.
B. Quản lý metadata (siêu dữ liệu) và namespace của hệ thống tệp.
C. Xử lý các tính toán MapReduce.
D. Điều phối tài nguyên cluster.

Câu 12: Loại hình phân tích dữ liệu lớn nào tập trung vào việc dự đoán các sự kiện hoặc xu hướng trong tương lai?

A. Phân tích mô tả (Descriptive Analytics)
B. Phân tích chẩn đoán (Diagnostic Analytics)
C. Phân tích quy tắc (Prescriptive Analytics)
D. Phân tích dự đoán (Predictive Analytics)

Câu 13: Giả sử bạn có một tập dữ liệu văn bản lớn (ví dụ: log server). Công nghệ nào sau đây phù hợp nhất để lập chỉ mục và tìm kiếm nhanh trên dữ liệu này?

A. Hadoop MapReduce
B. Apache Hive
C. Elasticsearch
D. Apache HBase

Câu 14: Trong bối cảnh Big Data, "Data Lake" (Hồ dữ liệu) là gì?

A. Một hệ thống quản lý cơ sở dữ liệu quan hệ truyền thống.
B. Một kho lưu trữ tập trung cho phép lưu trữ dữ liệu thô ở nhiều định dạng khác nhau cho đến khi cần thiết.
C. Một phương pháp xử lý dữ liệu theo lô (batch processing).
D. Một công cụ trực quan hóa dữ liệu.

Câu 15: Để đảm bảo tính sẵn sàng cao (high availability) cho NameNode trong Hadoop, giải pháp nào thường được sử dụng?

A. Cấu hình NameNode dự phòng (Active/Standby NameNodes)
B. Sử dụng nhiều DataNode hơn.
C. Tăng kích thước bộ nhớ cho NameNode.
D. Sử dụng RAID cho ổ đĩa NameNode.

Câu 16: Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Big Data?

A. Phân tích hành vi khách hàng trong thương mại điện tử.
B. Dự báo thời tiết.
C. Soạn thảo văn bản bằng Microsoft Word.
D. Phát hiện gian lận trong giao dịch tài chính.

Câu 17: Trong Spark, khái niệm "RDD" (Resilient Distributed Dataset) là gì?

A. Ngôn ngữ truy vấn dữ liệu của Spark.
B. Khối xây dựng cơ bản của Spark, đại diện cho một tập hợp các đối tượng phân tán, có khả năng chịu lỗi.
C. Thành phần quản lý tài nguyên trong Spark.
D. Công cụ trực quan hóa dữ liệu của Spark.

Câu 18: Khi nào thì việc sử dụng Big Data trở nên thực sự cần thiết và mang lại lợi ích lớn nhất?

A. Khi dữ liệu có cấu trúc rõ ràng và dễ quản lý.
B. Khi chỉ cần phân tích dữ liệu trong quá khứ.
C. Khi dữ liệu có kích thước nhỏ và tốc độ tạo ra chậm.
D. Khi dữ liệu có khối lượng lớn, tốc độ cao, và đa dạng, vượt quá khả năng xử lý của các hệ thống truyền thống.

Câu 19: Vấn đề bảo mật dữ liệu lớn (Big Data security) tập trung vào việc bảo vệ khía cạnh nào?

A. Bảo vệ dữ liệu khỏi truy cập trái phép, rò rỉ, và đảm bảo tính toàn vẹn, tính khả dụng của dữ liệu.
B. Đảm bảo tốc độ xử lý dữ liệu nhanh chóng.
C. Tối ưu hóa chi phí lưu trữ dữ liệu.
D. Trực quan hóa dữ liệu một cách hiệu quả.

Câu 20: Trong kiến trúc Lambda, lớp "Batch Layer" (Lớp xử lý lô) có vai trò gì?

A. Xử lý dữ liệu thời gian thực.
B. Phục vụ các truy vấn thời gian thực.
C. Xử lý toàn bộ dữ liệu lịch sử theo lô định kỳ để tính toán các view chính xác.
D. Lưu trữ dữ liệu đến theo thời gian thực.

Câu 21: Công nghệ nào sau đây thường được sử dụng để thu thập (ingest) dữ liệu streaming từ nhiều nguồn khác nhau vào hệ thống Big Data?

A. Hadoop HDFS
B. Apache Flume
C. Apache Hive
D. Apache Spark SQL

Câu 22: Phương pháp nào sau đây giúp giảm thiểu độ trễ (latency) trong việc truy vấn dữ liệu lớn?

A. Tăng hệ số sao chép dữ liệu (replication factor).
B. Sử dụng ổ cứng HDD thay vì SSD.
C. Giảm số lượng DataNode trong cluster.
D. Sử dụng cơ sở dữ liệu in-memory hoặc caching lớp dữ liệu.

Câu 23: Trong ngữ cảnh Big Data, thuật ngữ "Data Governance" (Quản trị dữ liệu) đề cập đến điều gì?

A. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp.
B. Công nghệ lưu trữ dữ liệu phân tán.
C. Tập hợp các quy tắc, chính sách, quy trình và tiêu chuẩn để quản lý dữ liệu của tổ chức.
D. Phương pháp trực quan hóa dữ liệu.

Câu 24: Để thực hiện phân tích SQL trên dữ liệu lớn lưu trữ trong HDFS, công cụ nào sau đây thường được sử dụng?

A. Apache Hive
B. Hadoop MapReduce
C. Apache Kafka
D. Elasticsearch

Câu 25: Giả sử một công ty thương mại điện tử muốn cá nhân hóa trải nghiệm mua sắm cho từng khách hàng dựa trên lịch sử duyệt web và mua hàng. Ứng dụng Big Data nào phù hợp nhất?

A. Hệ thống giám sát an ninh.
B. Hệ thống đề xuất sản phẩm (Recommendation System).
C. Hệ thống quản lý kho.
D. Hệ thống thanh toán trực tuyến.

Câu 26: Trong mô hình CAP theorem, hệ thống phân tán nào sau đây ưu tiên tính nhất quán (Consistency) và khả năng chịu phân vùng (Partition Tolerance) hơn tính sẵn sàng (Availability)?

A. Hệ thống AP (Availability and Partition Tolerance)
B. Hệ thống CA (Consistency and Availability)
C. Hệ thống CP (Consistency and Partition Tolerance)
D. Hệ thống AC (Availability and Consistency)

Câu 27: Để xử lý dữ liệu phức tạp và thực hiện các thuật toán Machine Learning trên Big Data, framework nào sau đây được ưa chuộng?

A. Hadoop MapReduce
B. Apache Hive
C. Apache Kafka Streams
D. Apache Spark MLlib

Câu 28: Trong quá trình ETL (Extract, Transform, Load) cho Big Data, giai đoạn "Transformation" (Biến đổi) bao gồm các hoạt động nào?

A. Thu thập dữ liệu từ các nguồn khác nhau.
B. Làm sạch, chuẩn hóa, chuyển đổi, và tích hợp dữ liệu.
C. Tải dữ liệu đã xử lý vào kho dữ liệu.
D. Trực quan hóa dữ liệu.

Câu 29: Khi thiết kế một hệ thống Big Data, yếu tố "Khả năng mở rộng" (Scalability) quan trọng như thế nào?

A. Rất quan trọng, vì hệ thống cần có khả năng xử lý lượng dữ liệu ngày càng tăng và tải công việc biến đổi.
B. Ít quan trọng, vì dữ liệu thường có kích thước cố định.
C. Chỉ quan trọng đối với một số ứng dụng cụ thể.
D. Không quan trọng bằng hiệu suất xử lý.

Câu 30: Trong Big Data, "Schema on Read" (Lược đồ khi đọc) là phương pháp xử lý dữ liệu như thế nào?

A. Áp dụng lược đồ dữ liệu (schema) trước khi ghi dữ liệu vào hệ thống.
B. Lược đồ dữ liệu được cố định và không thể thay đổi.
C. Lược đồ dữ liệu được áp dụng khi đọc dữ liệu, cho phép sự linh hoạt trong cấu trúc dữ liệu.
D. Không sử dụng lược đồ dữ liệu trong quá trình xử lý.

1 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 1: Đặc điểm 'Volume' (Dung lượng) trong Big Data đề cập đến yếu tố nào sau đây?

Tốc độ tạo ra và xử lý dữ liệu nhanh chóng.

Lượng dữ liệu cực lớn được tạo ra và lưu trữ.

Sự đa dạng của các loại và nguồn dữ liệu.

Độ tin cậy và chính xác của dữ liệu.

2 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 2: Khi nói về 'Velocity' (Tốc độ) trong Big Data, chúng ta chủ yếu quan tâm đến điều gì?

Tốc độ dữ liệu được tạo ra, thu thập và xử lý.

Kích thước vật lý của các thiết bị lưu trữ dữ liệu.

Số lượng người dùng truy cập vào dữ liệu.

Mức độ phức tạp của các thuật toán phân tích dữ liệu.

3 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 3: 'Variety' (Đa dạng) trong Big Data thể hiện điều gì về dữ liệu?

Số lượng trường thông tin trong một tập dữ liệu.

Mức độ biến động của dữ liệu theo thời gian.

Sự phong phú về loại dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc) và nguồn gốc.

Khả năng dữ liệu được xác minh và kiểm chứng.

4 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 4: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cụm và lập lịch công việc?

HDFS (Hadoop Distributed File System)

MapReduce

NameNode

YARN (Yet Another Resource Negotiator)

5 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 5: Hệ thống tệp phân tán HDFS trong Hadoop được thiết kế chủ yếu để giải quyết vấn đề gì?

Xử lý dữ liệu theo thời gian thực.

Truy vấn dữ liệu có cấu trúc với SQL.

Lưu trữ và truy cập dữ liệu lớn một cách tin cậy và hiệu quả trên các cụm máy tính.

Phân tích dữ liệu đồ thị phức tạp.

6 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 6: Trong mô hình MapReduce, giai đoạn 'Map' (ánh xạ) có vai trò chính là gì?

Tổng hợp và giảm dữ liệu từ giai đoạn Map.

Chia nhỏ dữ liệu đầu vào và xử lý song song để tạo ra các cặp key-value.

Quản lý và phân phối công việc cho các node trong cụm.

Lưu trữ kết quả cuối cùng sau khi xử lý.

7 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 7: Giai đoạn 'Reduce' (giảm) trong MapReduce thực hiện công việc gì?

Tổng hợp và xử lý các cặp key-value trung gian từ giai đoạn Map để tạo ra kết quả cuối cùng.

Phân chia dữ liệu đầu vào cho giai đoạn Map.

Đảm bảo tính toàn vẹn dữ liệu trong quá trình xử lý.

Tối ưu hóa hiệu suất của các tác vụ Map.

8 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 8: NoSQL là viết tắt của cụm từ nào và nó khác biệt với cơ sở dữ liệu quan hệ truyền thống như thế nào?

New Structured Query Language; tập trung vào dữ liệu có cấu trúc cứng nhắc.

Non-Operational SQL; chỉ dành cho dữ liệu phi giao dịch.

Not Only SQL; linh hoạt về cấu trúc dữ liệu, không nhất thiết tuân theo mô hình quan hệ.

Networked or Shared Query Language; dành cho truy vấn dữ liệu phân tán.

9 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 9: Kiến trúc Lambda trong Big Data được thiết kế để giải quyết vấn đề chính nào?

Đảm bảo tính bảo mật cao cho dữ liệu lớn.

Xử lý đồng thời cả dữ liệu batch (lô) và dữ liệu stream (luồng) để cung cấp cả độ trễ thấp và độ chính xác cao.

Tối ưu hóa chi phí lưu trữ dữ liệu lớn.

Đơn giản hóa việc quản lý cụm Hadoop.

10 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 10: Data Lake (Hồ dữ liệu) khác biệt cơ bản so với Data Warehouse (Kho dữ liệu) ở điểm nào?

Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ dữ liệu phi cấu trúc.

Data Warehouse linh hoạt hơn Data Lake trong việc xử lý các loại dữ liệu khác nhau.

Data Lake được thiết kế cho truy vấn báo cáo, còn Data Warehouse cho phân tích khám phá.

Data Lake lưu trữ dữ liệu thô ở định dạng gốc, còn Data Warehouse lưu trữ dữ liệu đã được chuyển đổi và có cấu trúc.

11 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 11: Trong ngữ cảnh Big Data, ETL là viết tắt của quy trình nào và vai trò của nó là gì?

Extract, Transform, Load; quy trình tích hợp dữ liệu từ nhiều nguồn vào một hệ thống duy nhất.

Encrypt, Transfer, Log; quy trình bảo mật dữ liệu trong quá trình truyền tải.

Evaluate, Test, Launch; quy trình kiểm thử và triển khai ứng dụng Big Data.

Error, Trace, Locate; quy trình gỡ lỗi trong hệ thống phân tán.

12 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 12: Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu stream (luồng) trong thời gian thực?

Hadoop MapReduce

Hive

Apache Kafka

HBase

13 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 13: Thuật ngữ 'Data Governance' (Quản trị dữ liệu) trong Big Data bao gồm những hoạt động chính nào?

Chỉ tập trung vào việc tối ưu hóa hiệu suất truy vấn dữ liệu.

Chỉ liên quan đến việc sao lưu và phục hồi dữ liệu.

Chủ yếu là về việc lựa chọn công nghệ lưu trữ dữ liệu phù hợp.

Các chính sách, quy trình và tiêu chuẩn để quản lý chất lượng, bảo mật, tuân thủ và khả năng sử dụng dữ liệu trong tổ chức.

14 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 14: 'Schema-on-read' là cách tiếp cận quản lý schema dữ liệu thường được áp dụng trong môi trường nào?

Data Warehouse

Data Lake

Cơ sở dữ liệu quan hệ truyền thống

Hệ thống OLTP (Online Transaction Processing)

15 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 15: 'Microservices' (Vi dịch vụ) có thể được ứng dụng như thế nào trong kiến trúc Big Data?

Thay thế hoàn toàn kiến trúc Hadoop truyền thống.

Chỉ được sử dụng để quản lý metadata của dữ liệu lớn.

Xây dựng các thành phần xử lý dữ liệu độc lập, có khả năng mở rộng và dễ bảo trì trong hệ thống Big Data.

Giảm độ phức tạp của việc truy vấn dữ liệu lớn.

16 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 16: Trong Hadoop, NameNode đóng vai trò gì quan trọng trong HDFS?

Lưu trữ dữ liệu thực tế (data blocks).

Thực hiện các phép tính MapReduce.

Quản lý tài nguyên cụm (CPU, bộ nhớ).

Quản lý metadata của hệ thống tệp, bao gồm cấu trúc thư mục và vị trí các khối dữ liệu.

17 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 17: DataNode trong HDFS chịu trách nhiệm chính cho công việc nào?

Lưu trữ và quản lý các khối dữ liệu thực tế (data blocks).

Quản lý metadata của hệ thống tệp.

Điều phối các tác vụ MapReduce trên cụm.

Lập lịch và phân phối tài nguyên cho các ứng dụng.

18 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 18: Kích thước khối (block size) mặc định trong HDFS thường là bao nhiêu và tại sao kích thước khối lớn lại quan trọng trong Big Data?

4KB; để tối ưu hóa cho các tệp nhỏ.

64MB; để cân bằng giữa tệp nhỏ và lớn.

128MB (hoặc lớn hơn); để giảm metadata và tối ưu hóa hiệu suất I/O cho dữ liệu lớn tuần tự.

512KB; để tương thích với hệ thống tệp truyền thống.

19 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 19: 'Replication factor' (Hệ số sao chép) trong HDFS có ý nghĩa gì và nó giúp đảm bảo điều gì?

Tốc độ truy cập dữ liệu.

Độ tin cậy và khả năng chịu lỗi của hệ thống bằng cách tạo ra nhiều bản sao dữ liệu.

Mức độ nén dữ liệu.

Số lượng DataNode trong cụm.

20 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 20: Hãy xem xét tình huống: Một công ty thương mại điện tử muốn phân tích hành vi duyệt web của khách hàng để cá nhân hóa trải nghiệm mua sắm. Loại hình phân tích Big Data nào phù hợp nhất trong trường hợp này?

Phân tích nhật ký hệ thống (System log analysis).

Phân tích cảm xúc (Sentiment analysis) từ đánh giá sản phẩm.

Phân tích chuỗi cung ứng (Supply chain analysis).

Phân tích hành vi khách hàng và cá nhân hóa trải nghiệm (Customer behavior analysis and personalization).

21 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 21: Trong lĩnh vực y tế, Big Data có thể được ứng dụng để làm gì?

Chỉ để quản lý hồ sơ bệnh án điện tử.

Chủ yếu để giảm chi phí hành chính trong bệnh viện.

Cải thiện chẩn đoán bệnh, phát triển thu???c mới, dự đoán dịch bệnh và cá nhân hóa điều trị.

Tự động hóa hoàn toàn quy trình phẫu thuật.

22 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 22: Một tổ chức tài chính muốn phát hiện các giao dịch gian lận trong thời gian thực. Công nghệ stream processing nào sẽ phù hợp để xây dựng hệ thống phát hiện gian lận?

Hadoop MapReduce

Apache Flink

Apache Hive

HBase

23 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 23: 'Data Mining' (Khai phá dữ liệu) trong Big Data là gì và mục tiêu chính của nó là gì?

Sao lưu và phục hồi dữ liệu lớn.

Tối ưu hóa hiệu suất hệ thống lưu trữ Big Data.

Trực quan hóa dữ liệu lớn để dễ dàng theo dõi.

Quá trình khám phá các mẫu hình, xu hướng và tri thức hữu ích từ lượng lớn dữ liệu.

24 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 24: 'Machine Learning' (Học máy) đóng vai trò như thế nào trong Big Data analytics?

Cung cấp các thuật toán và kỹ thuật để phân tích, dự đoán và rút ra tri thức từ dữ liệu lớn.

Thay thế hoàn toàn các phương pháp thống kê truyền thống trong phân tích dữ liệu.

Chỉ được sử dụng để trực quan hóa dữ liệu.

Đảm bảo tính bảo mật cho dữ liệu lớn trong quá trình phân tích.

25 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 25: 'Data Visualization' (Trực quan hóa dữ liệu) quan trọng như thế nào trong Big Data và tại sao?

Chỉ quan trọng để tạo ra báo cáo đẹp mắt.

Giúp con người dễ dàng hiểu, phân tích và đưa ra quyết định dựa trên dữ liệu lớn bằng cách trình bày thông tin một cách trực quan.

Giảm dung lượng lưu trữ dữ liệu.

Tăng tốc độ xử lý dữ liệu.

26 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 26: Hãy so sánh ưu điểm và nhược điểm của việc sử dụng cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ (RDBMS) trong các ứng dụng Big Data.

NoSQL luôn nhanh hơn và đáng tin cậy hơn RDBMS trong mọi trường hợp.

RDBMS linh hoạt hơn NoSQL trong việc xử lý dữ liệu phi cấu trúc.

NoSQL linh hoạt về schema và khả năng mở rộng tốt, nhưng RDBMS mạnh về tính nhất quán và các giao dịch phức tạp.

Không có sự khác biệt đáng kể giữa NoSQL và RDBMS trong ứng dụng Big Data.

27 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 27: Trong ngữ cảnh bảo mật Big Data, những thách thức chính nào cần được quan tâm?

Chỉ cần tập trung vào mã hóa dữ liệu.

Bảo mật Big Data không khác biệt so với bảo mật dữ liệu truyền thống.

Thách thức bảo mật Big Data đã được giải quyết hoàn toàn bởi các công nghệ hiện tại.

Bảo vệ dữ liệu nhạy cảm, kiểm soát truy cập, tuân thủ quy định về quyền riêng tư, và bảo mật hệ thống phân tán phức tạp.

28 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 28: Để xử lý một lượng lớn dữ liệu nhật ký web (web logs) và tìm ra các mẫu truy cập bất thường, công cụ phân tích Big Data nào sẽ hiệu quả nhất?

Apache Spark

MySQL

Microsoft Excel

Oracle Database

29 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 29: Một công ty viễn thông muốn dự đoán churn rate (tỷ lệ khách hàng rời bỏ dịch vụ) để chủ động giữ chân khách hàng. Ứng dụng Machine Learning nào phù hợp nhất trong trường hợp này?

Clustering (Phân cụm)

Regression (Hồi quy)

Classification (Phân loại)

Dimensionality Reduction (Giảm chiều dữ liệu)

30 / 30

Category: Bài Tập, Đề Thi Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Tags: Bộ đề 7

Câu 30: Trong một dự án Big Data, bước nào sau đây thường được thực hiện đầu tiên trong quy trình?

Xây dựng mô hình Machine Learning.

Triển khai hệ thống Big Data trên cloud.

Thu thập và làm sạch dữ liệu.

Xác định rõ vấn đề kinh doanh và yêu cầu phân tích dữ liệu.