Trắc nghiệm Tin học 12 Kết nối tri thức Bài 26: Làm quen với Khoa học dữ liệu - Đề 10
Trắc nghiệm Tin học 12 Kết nối tri thức Bài 26: Làm quen với Khoa học dữ liệu - Đề 10 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Một công ty thương mại điện tử thu thập dữ liệu về hành vi duyệt web, lịch sử mua hàng và thông tin nhân khẩu học của hàng triệu khách hàng mỗi ngày. Họ muốn sử dụng dữ liệu này để đề xuất sản phẩm phù hợp cho từng khách hàng và dự đoán xu hướng mua sắm. Lĩnh vực nào giúp công ty đạt được mục tiêu này một cách hiệu quả nhất?
- A. Hệ điều hành
- B. Thiết kế đồ họa
- C. Khoa học dữ liệu
- D. Phát triển phần cứng
Câu 2: Khoa học dữ liệu là một lĩnh vực liên ngành. Ba trụ cột kiến thức chính tạo nên nền tảng của Khoa học dữ liệu là gì?
- A. Ngôn ngữ học, Lịch sử, Triết học
- B. Vật lý, Hóa học, Sinh học
- C. Kỹ thuật cơ khí, Kiến trúc, Xây dựng
- D. Khoa học máy tính, Toán học, Thống kê
Câu 3: Mục tiêu cốt lõi và cuối cùng của Khoa học dữ liệu là gì?
- A. Khai thác tri thức và hỗ trợ đưa ra quyết định dựa trên dữ liệu
- B. Chỉ đơn thuần là lưu trữ và bảo quản dữ liệu một cách an toàn
- C. Phát triển các thuật toán nén dữ liệu hiệu quả
- D. Tạo ra các giao diện người dùng thân thiện cho cơ sở dữ liệu
Câu 4: Một tổ chức y tế thu thập một lượng lớn dữ liệu từ các cảm biến theo dõi sức khỏe đeo tay, hồ sơ bệnh án điện tử và kết quả xét nghiệm gen. Đặc điểm nào của dữ liệu này thể hiện rõ nhất tính "Variety" (Đa dạng) trong khái niệm Dữ liệu lớn (Big Data)?
- A. Số lượng bệnh nhân rất lớn
- B. Dữ liệu đến từ nhiều nguồn và định dạng khác nhau (cảm biến, văn bản, số liệu)
- C. Dữ liệu được cập nhật liên tục theo thời gian thực
- D. Dữ liệu chứa đựng thông tin có giá trị cho nghiên cứu y học
Câu 5: Một sàn giao dịch chứng khoán xử lý hàng triệu giao dịch mỗi giây. Dữ liệu từ các giao dịch này cần được phân tích gần như ngay lập tức để phát hiện các hoạt động bất thường hoặc đưa ra quyết định giao dịch tự động. Đặc điểm nào của dữ liệu này thể hiện rõ nhất tính "Velocity" (Vận tốc) trong khái niệm Dữ liệu lớn (Big Data)?
- A. Kích thước của tập dữ liệu ngày càng tăng
- B. Dữ liệu bao gồm nhiều loại thông tin khác nhau (giá, khối lượng, thời gian)
- C. Tốc độ dữ liệu được tạo ra, thu thập và xử lý là cực kỳ nhanh
- D. Dữ liệu có thể chứa sai sót hoặc không chính xác
Câu 6: Một công ty nghiên cứu thị trường thu thập dữ liệu từ các bài đăng trên mạng xã hội, bình luận của khách hàng và các bài báo trực tuyến để phân tích cảm xúc của công chúng về một sản phẩm mới. Họ nhận thấy rằng dữ liệu này thường chứa ngôn ngữ không chuẩn, viết tắt, hoặc thông tin mâu thuẫn. Đặc điểm nào của dữ liệu này thể hiện rõ nhất tính "Veracity" (Tính xác thực) trong khái niệm Dữ liệu lớn (Big Data)?
- A. Độ tin cậy, tính chính xác và tính nhất quán của dữ liệu
- B. Tốc độ xử lý dữ liệu nhanh chóng
- C. Số lượng dữ liệu được thu thập
- D. Khả năng tạo ra lợi ích kinh tế từ dữ liệu
Câu 7: Trong quy trình Khoa học dữ liệu, bước nào thường bao gồm việc xử lý các giá trị thiếu, loại bỏ dữ liệu ngoại lai (outliers), và chuẩn hóa định dạng dữ liệu?
- A. Thu thập dữ liệu
- B. Làm sạch và tiền xử lý dữ liệu
- C. Trực quan hóa dữ liệu
- D. Xây dựng mô hình
Câu 8: Một nhà khoa học dữ liệu tạo ra một biểu đồ cột cho thấy doanh số bán hàng theo từng tháng trong năm và một biểu đồ phân tán biểu diễn mối quan hệ giữa chi phí quảng cáo và doanh thu. Hoạt động này thuộc bước nào trong quy trình Khoa học dữ liệu?
- A. Thu thập dữ liệu
- B. Làm sạch dữ liệu
- C. Trực quan hóa và khám phá dữ liệu
- D. Triển khai mô hình
Câu 9: Bước nào trong quy trình Khoa học dữ liệu tập trung vào việc áp dụng các thuật toán thống kê hoặc học máy để tìm ra các mẫu, mối quan hệ hoặc xây dựng khả năng dự đoán từ dữ liệu đã được làm sạch?
- A. Thu thập dữ liệu
- B. Làm sạch dữ liệu
- C. Trực quan hóa dữ liệu
- D. Xây dựng mô hình và phân tích chuyên sâu
Câu 10: Sau khi xây dựng và đánh giá một mô hình dự đoán, bước tiếp theo trong quy trình Khoa học dữ liệu thường là đưa mô hình đó vào sử dụng trong thực tế, ví dụ như tích hợp nó vào một ứng dụng web hoặc hệ thống kinh doanh. Bước này được gọi là gì?
- A. Triển khai và giám sát
- B. Thu thập thêm dữ liệu
- C. Thay đổi thuật toán
- D. Viết báo cáo tổng kết
Câu 11: Tại sao việc có kiến thức chuyên ngành (domain knowledge) lại quan trọng đối với một nhà Khoa học dữ liệu, đặc biệt khi làm việc với dữ liệu trong một lĩnh vực cụ thể như y tế, tài chính hoặc giáo dục?
- A. Chỉ để hiểu cách sử dụng các phần mềm chuyên dụng
- B. Để hiểu ý nghĩa của dữ liệu, đặt câu hỏi đúng và diễn giải kết quả phân tích một cách chính xác trong ngữ cảnh của lĩnh vực đó
- C. Để có thể tự động thu thập dữ liệu mà không cần sự hỗ trợ
- D. Chỉ cần thiết khi làm việc với dữ liệu cấu trúc
Câu 12: Một trong những thành tựu nổi bật của Khoa học dữ liệu là khả năng phát hiện các giao dịch tài chính đáng ngờ hoặc các hành vi bất thường trong hệ thống. Ứng dụng này thuộc về lĩnh vực nào?
- A. Dự báo thời tiết
- B. Thiết kế kiến trúc
- C. Phát hiện gian lận
- D. Nghiên cứu ngôn ngữ cổ
Câu 13: Việc sử dụng Khoa học dữ liệu để phân tích hành vi của khách hàng trên website, từ đó đưa ra các gợi ý sản phẩm hoặc nội dung phù hợp với sở thích cá nhân của họ, là một ví dụ về ứng dụng nào?
- A. Cải thiện trải nghiệm khách hàng
- B. Tự động hóa quy trình sản xuất
- C. Quản lý chuỗi cung ứng
- D. Phân tích hình ảnh y tế
Câu 14: Học máy (Machine Learning) là một tập con quan trọng của AI, cho phép hệ thống học từ dữ liệu mà không cần được lập trình tường minh. Mối quan hệ giữa Học máy và Khoa học dữ liệu là gì?
- A. Học máy là một lĩnh vực hoàn toàn độc lập với Khoa học dữ liệu
- B. Khoa học dữ liệu chỉ là một ứng dụng nhỏ của Học máy
- C. Học máy đã thay thế hoàn toàn Khoa học dữ liệu
- D. Học máy là một công cụ, kỹ thuật cốt lõi được sử dụng rộng rãi trong Khoa học dữ liệu để xây dựng mô hình và trích xuất tri thức
Câu 15: Trí tuệ nhân tạo (AI), Học máy (ML) và Khoa học dữ liệu (DS) là ba lĩnh vực có mối liên hệ chặt chẽ. Phát biểu nào sau đây mô tả đúng nhất mối quan hệ này?
- A. AI là tập con của ML, ML là tập con của DS
- B. DS sử dụng các kỹ thuật từ ML và AI để đạt được mục tiêu của mình; ML là tập con của AI và là công cụ quan trọng trong DS
- C. DS, ML, AI là ba lĩnh vực hoàn toàn tách biệt và không liên quan
- D. AI và ML chỉ tập trung vào robot, còn DS chỉ tập trung vào số liệu thống kê
Câu 16: Một nhà khoa học dữ liệu đang làm việc với một tập dữ liệu lớn từ các cảm biến IoT trong nhà máy. Anh ấy nhận thấy rằng dữ liệu từ một số cảm biến bị nhiễu nặng và có nhiều giá trị không hợp lệ. Công việc xử lý loại bỏ hoặc sửa chữa những dữ liệu này thuộc về giai đoạn nào trong quy trình Khoa học dữ liệu?
- A. Làm sạch dữ liệu (Data Cleaning)
- B. Trực quan hóa dữ liệu (Data Visualization)
- C. Xây dựng mô hình (Modeling)
- D. Triển khai mô hình (Deployment)
Câu 17: Khi phân tích dữ liệu bán hàng, một nhà khoa học dữ liệu nhận thấy rằng có mối tương quan mạnh mẽ giữa việc khách hàng mua sản phẩm A và sau đó mua sản phẩm B trong vòng một tuần. Việc tìm ra mối quan hệ này thuộc về hoạt động nào trong Khoa học dữ liệu?
- A. Thu thập dữ liệu
- B. Làm sạch dữ liệu
- C. Triển khai mô hình
- D. Phân tích và khám phá dữ liệu
Câu 18: Thử thách lớn nhất khi làm việc với dữ liệu lớn (Big Data) so với dữ liệu truyền thống thường nằm ở đâu?
- A. Chỉ là việc sử dụng các phần mềm văn phòng phức tạp hơn
- B. Yêu cầu các công cụ, hạ tầng và kỹ thuật xử lý đặc thù do kích thước, tốc độ và sự đa dạng vượt trội
- C. Chỉ cần nhiều người nhập dữ liệu hơn
- D. Không có khác biệt đáng kể so với dữ liệu thông thường
Câu 19: Một công ty muốn sử dụng Khoa học dữ liệu để dự đoán nhu cầu sản phẩm trong các tháng tới nhằm tối ưu hóa lượng hàng tồn kho. Ứng dụng này của Khoa học dữ liệu thuộc loại nào?
- A. Phân tích dự đoán (Predictive Analytics)
- B. Phân tích mô tả (Descriptive Analytics)
- C. Trực quan hóa dữ liệu (Data Visualization)
- D. Làm sạch dữ liệu (Data Cleaning)
Câu 20: Để hiểu rõ hơn về phân phối độ tuổi của người dùng ứng dụng di động của mình, một công ty sử dụng Khoa học dữ liệu để tạo biểu đồ tần suất hoặc histogram. Hoạt động này chủ yếu phục vụ mục đích gì trong quy trình Khoa học dữ liệu?
- A. Xây dựng mô hình phức tạp
- B. Triển khai hệ thống sản phẩm
- C. Thu thập dữ liệu mới
- D. Khám phá và hiểu dữ liệu ban đầu
Câu 21: Một trong những thách thức đạo đức quan trọng nhất trong Khoa học dữ liệu là vấn đề thiên vị (bias) trong dữ liệu hoặc trong thuật toán. Điều này có thể dẫn đến hậu quả tiêu cực nào?
- A. Giảm tốc độ xử lý dữ liệu
- B. Đưa ra các quyết định không công bằng hoặc phân biệt đối xử đối với một nhóm người
- C. Làm cho biểu đồ dữ liệu khó hiểu hơn
- D. Tăng chi phí lưu trữ dữ liệu
Câu 22: Một tập dữ liệu bao gồm các bài đăng trên mạng xã hội, hình ảnh từ camera an ninh và bản ghi âm cuộc gọi. Loại dữ liệu này được phân loại chủ yếu là gì trong Khoa học dữ liệu?
- A. Dữ liệu cấu trúc (Structured Data)
- B. Dữ liệu bán cấu trúc (Semi-structured Data)
- C. Dữ liệu phi cấu trúc (Unstructured Data)
- D. Dữ liệu định lượng (Quantitative Data)
Câu 23: Tại sao việc trực quan hóa dữ liệu (Data Visualization) lại là một bước quan trọng trong cả giai đoạn khám phá dữ liệu và truyền đạt kết quả phân tích?
- A. Giúp con người dễ dàng nhận diện xu hướng, mẫu hình và thông tin quan trọng mà khó thấy được từ dữ liệu thô hoặc bảng số
- B. Là cách duy nhất để làm sạch dữ liệu bị lỗi
- C. Chỉ cần thiết khi làm việc với dữ liệu số
- D. Thay thế hoàn toàn nhu cầu xây dựng mô hình thống kê
Câu 24: Một công ty tài chính sử dụng Khoa học dữ liệu để xây dựng một hệ thống chấm điểm tín dụng tự động dựa trên lịch sử giao dịch và thông tin cá nhân của khách hàng. Hệ thống này giúp công ty nhanh chóng đưa ra quyết định cho vay. Đây là một ví dụ về thành tựu nào của Khoa học dữ liệu?
- A. Khám phá vũ trụ
- B. Chụp ảnh nghệ thuật
- C. Phát triển vật liệu mới
- D. Tự động hóa và tối ưu hóa quy trình ra quyết định
Câu 25: Trong bối cảnh Dữ liệu lớn (Big Data), "Volume" (Khối lượng) đề cập đến điều gì?
- A. Tốc độ dữ liệu thay đổi
- B. Quy mô và số lượng dữ liệu được tạo ra và lưu trữ
- C. Số lượng loại dữ liệu khác nhau
- D. Mức độ chính xác của dữ liệu
Câu 26: Công ty A muốn hiểu lý do tại sao một số khách hàng lại ngừng sử dụng dịch vụ của họ (churn). Họ thu thập dữ liệu về tương tác của khách hàng, thông tin tài khoản và phản hồi từ các cuộc khảo sát. Bằng cách phân tích dữ liệu này, họ hy vọng tìm ra các yếu tố dự báo khách hàng có khả năng rời đi. Đây là một bài toán điển hình trong Khoa học dữ liệu, thuộc loại nào?
- A. Phân tích hình ảnh
- B. Xử lý ngôn ngữ tự nhiên đơn giản
- C. Phân tích dự đoán (ví dụ: dự đoán churn)
- D. Trực quan hóa dữ liệu tĩnh
Câu 27: Giả sử bạn có một tập dữ liệu về các ngôi nhà bao gồm diện tích, số phòng ngủ, vị trí và giá bán. Bạn muốn xây dựng một mô hình để dự đoán giá bán của một ngôi nhà mới dựa trên các đặc điểm của nó. Bài toán này trong Khoa học dữ liệu thường được giải quyết bằng kỹ thuật nào?
- A. Hồi quy (Regression)
- B. Phân loại (Classification)
- C. Phân cụm (Clustering)
- D. Phát hiện luật kết hợp (Association Rule Mining)
Câu 28: Một nhà khoa học dữ liệu được yêu cầu phân nhóm các khách hàng của một siêu thị thành các phân khúc dựa trên hành vi mua sắm của họ mà không có nhãn (label) định trước về các nhóm này. Kỹ thuật học máy nào thường được sử dụng cho loại bài toán này?
- A. Hồi quy tuyến tính (Linear Regression)
- B. Cây quyết định (Decision Tree - Classification)
- C. Mạng nơ-ron tích chập (Convolutional Neural Network)
- D. Phân cụm (Clustering)
Câu 29: Khi làm việc với dữ liệu từ các cuộc khảo sát, bạn nhận thấy rằng một số người trả lời bỏ qua câu hỏi về thu nhập. Việc xử lý các "giá trị thiếu" (missing values) này đòi hỏi kỹ năng và kiến thức từ lĩnh vực nào trong nền tảng của Khoa học dữ liệu?
- A. Thiết kế giao diện người dùng
- B. Thống kê và tiền xử lý dữ liệu
- C. Lập trình nhúng
- D. Quản trị mạng
Câu 30: Công ty X muốn xây dựng một hệ thống đề xuất phim cho người dùng dựa trên lịch sử xem của họ và của những người dùng tương tự. Hệ thống này là một ứng dụng cụ thể của:
- A. Khoa học dữ liệu và Học máy (Machine Learning)
- B. Thiết kế cơ sở dữ liệu quan hệ
- C. Phát triển ứng dụng di động
- D. Bảo trì phần cứng máy tính