Trắc nghiệm Tin học 12 Cánh diều Bài 2: Giới thiệu về khoa học dữ liệu - Đề 10 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Một công ty thương mại điện tử muốn dự đoán những khách hàng nào có khả năng rời bỏ (churn) trong 3 tháng tới để có chiến lược giữ chân phù hợp. Đây là một ví dụ điển hình về ứng dụng nào của khoa học dữ liệu?
- A. Phát hiện tri thức từ dữ liệu
- B. Trực quan hóa dữ liệu
- C. Xây dựng mô hình dự đoán
- D. Tối ưu hóa quyết định
Câu 2: Trong quy trình dự án khoa học dữ liệu, sau khi đã xác định rõ vấn đề cần giải quyết, bước tiếp theo logic và quan trọng nhất là gì?
- A. Thu thập dữ liệu liên quan đến vấn đề
- B. Xây dựng mô hình học máy phức tạp
- C. Trực quan hóa kết quả ban đầu
- D. Đưa ra quyết định cuối cùng
Câu 3: Một nhà khoa học dữ liệu đang làm việc với một tập dữ liệu khách hàng lớn, bao gồm thông tin cá nhân, lịch sử mua hàng và hành vi duyệt web. Trước khi có thể sử dụng dữ liệu này để xây dựng mô hình, người đó cần thực hiện các bước xử lý như làm sạch dữ liệu bị thiếu, loại bỏ dữ liệu trùng lặp và chuẩn hóa định dạng. Giai đoạn này thuộc phần nào của quy trình khoa học dữ liệu?
- A. Phân tích và khai phá dữ liệu
- B. Chuẩn bị dữ liệu (Data Preparation)
- C. Thu thập dữ liệu (Data Collection)
- D. Đánh giá và giải thích mô hình
Câu 4: Tại sao khoa học dữ liệu được coi là một lĩnh vực liên ngành (interdisciplinary)?
- A. Vì nó chỉ sử dụng dữ liệu từ nhiều ngành khác nhau.
- B. Vì nó chỉ được áp dụng trong lĩnh vực công nghệ thông tin.
- C. Vì nó chỉ liên quan đến việc thu thập và lưu trữ dữ liệu.
- D. Vì nó kết hợp kiến thức, kỹ năng từ nhiều lĩnh vực như toán học, thống kê, khoa học máy tính và kiến thức chuyên ngành.
Câu 5: Việc sử dụng các biểu đồ, đồ thị, bản đồ nhiệt,... để biểu diễn thông tin và mẫu hình ẩn trong dữ liệu một cách trực quan, dễ hiểu thuộc mục tiêu nào của khoa học dữ liệu?
- A. Xây dựng mô hình dự đoán
- B. Trực quan hóa dữ liệu (Data Visualization)
- C. Thu thập dữ liệu
- D. Ra quyết định
Câu 6: Một ngân hàng sử dụng khoa học dữ liệu để phân tích các giao dịch tài chính bất thường nhằm phát hiện và ngăn chặn kịp thời các hành vi lừa đảo. Đây là một ví dụ về ứng dụng nào?
- A. Phát hiện gian lận (Fraud Detection)
- B. Phân tích cảm xúc khách hàng
- C. Tối ưu hóa chuỗi cung ứng
- D. Quản lý nhân sự
Câu 7: Kỹ năng nào sau đây được xem là **quan trọng nhất** đối với một nhà khoa học dữ liệu để có thể chuyển đổi các vấn đề kinh doanh hoặc khoa học thành các bài toán có thể giải quyết bằng dữ liệu và thuật toán?
- A. Kỹ năng thiết kế đồ họa
- B. Kỹ năng bán hàng
- C. Kỹ năng ghi nhớ dữ kiện lịch sử
- D. Kỹ năng tư duy phân tích và giải quyết vấn đề
Câu 8: Dự án Bộ gen người (Human Genome Project) là một ví dụ lịch sử quan trọng về ứng dụng khoa học dữ liệu trong lĩnh vực nào?
- A. Thiên văn học
- B. Tài chính
- C. Y sinh học (Genomics)
- D. Thương mại điện tử
Câu 9: Một nhà bán lẻ muốn phân tích dữ liệu lịch sử mua sắm của khách hàng để tìm ra các nhóm khách hàng có hành vi tương đồng và đưa ra các chương trình khuyến mãi cá nhân hóa. Kỹ thuật phân tích nào trong khoa học dữ liệu thường được sử dụng cho mục đích này?
- A. Phân nhóm (Clustering)
- B. Phân loại (Classification)
- C. Hồi quy (Regression)
- D. Phát hiện bất thường (Anomaly Detection)
Câu 10: Giả sử bạn có một tập dữ liệu về thời tiết trong 10 năm qua và muốn xây dựng một mô hình để dự đoán nhiệt độ ngày mai. Loại bài toán khoa học dữ liệu nào đang được đề cập ở đây?
- A. Phân loại (Classification)
- B. Phân nhóm (Clustering)
- C. Dự báo chuỗi thời gian (Time Series Forecasting)
- D. Phát hiện bất thường
Câu 11: Một công ty truyền thông xã hội muốn phân tích hàng triệu bình luận của người dùng để hiểu cảm xúc chung của họ về một sản phẩm mới ra mắt (tích cực, tiêu cực, trung lập). Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên (NLP) thường được áp dụng cho nhiệm vụ này?
- A. Dịch máy
- B. Phân tích cảm xúc (Sentiment Analysis)
- C. Nhận dạng thực thể có tên (Named Entity Recognition)
- D. Tóm tắt văn bản
Câu 12: Một trong những thách thức lớn khi làm việc với dữ liệu lớn (Big Data) là tốc độ dữ liệu được tạo ra và truyền đi rất nhanh, đòi hỏi hệ thống phải xử lý theo thời gian thực hoặc gần thời gian thực. Thách thức này được gọi là gì trong các đặc trưng của Big Data (3V hoặc 4V)?
- A. Velocity (Tốc độ)
- B. Volume (Khối lượng)
- C. Variety (Đa dạng)
- D. Veracity (Tính xác thực)
Câu 13: Một nhà khoa học dữ liệu đã xây dựng xong một mô hình dự đoán và cần trình bày kết quả, những phát hiện và đề xuất của mình cho các nhà quản lý không chuyên về kỹ thuật. Kỹ năng nào sau đây là **cần thiết nhất** trong tình huống này?
- A. Kỹ năng lập trình C++
- B. Kỹ năng thiết kế cơ sở dữ liệu phức tạp
- C. Kỹ năng thu thập dữ liệu thủ công
- D. Kỹ năng giao tiếp và trình bày (Storytelling with Data)
Câu 14: Giả sử bạn đang phân tích dữ liệu doanh số bán hàng và nhận thấy một số giao dịch có giá trị rất lớn, khác biệt đáng kể so với phần còn lại. Việc xác định và xử lý những điểm dữ liệu bất thường này (outliers) thuộc giai đoạn nào trong quy trình khoa học dữ liệu?
- A. Thu thập dữ liệu
- B. Chuẩn bị dữ liệu (Data Preparation/Cleaning)
- C. Đánh giá và giải thích
- D. Ra quyết định
Câu 15: Một công ty logistics muốn tối ưu hóa tuyến đường vận chuyển hàng hóa để giảm chi phí xăng dầu và thời gian giao hàng. Họ sử dụng dữ liệu về vị trí kho hàng, địa chỉ khách hàng, tình hình giao thông,... Khoa học dữ liệu giúp họ giải quyết bài toán này thông qua mục tiêu nào?
- A. Phát hiện tri thức
- B. Trực quan hóa dữ liệu
- C. Xây dựng mô hình dự đoán
- D. Tối ưu hóa quyết định (Decision Optimization)
Câu 16: Hệ thống gợi ý sản phẩm trên các trang thương mại điện tử (ví dụ: "Những sản phẩm bạn có thể thích") dựa trên lịch sử duyệt web và mua hàng của người dùng là một ứng dụng phổ biến của khoa học dữ liệu thuộc nhóm nào?
- A. Hệ thống gợi ý (Recommendation Systems)
- B. Nhận dạng hình ảnh
- C. Phân tích chuỗi thời gian
- D. Phát hiện bất thường
Câu 17: Khi một nhà khoa học dữ liệu kiểm tra các giả định của mô hình, đánh giá hiệu suất của nó trên tập dữ liệu mới và so sánh với các mô hình khác để chọn ra mô hình tốt nhất, người đó đang thực hiện giai đoạn nào của quy trình khoa học dữ liệu?
- A. Thu thập dữ liệu
- B. Chuẩn bị dữ liệu
- C. Đánh giá và giải thích (Evaluation and Interpretation)
- D. Ra quyết định
Câu 18: Việc hiểu rõ lĩnh vực mà dữ liệu được thu thập (ví dụ: kinh doanh, y tế, giáo dục) là rất quan trọng trong khoa học dữ liệu. Yếu tố này được gọi là gì trong các thành phần cốt lõi của khoa học dữ liệu?
- A. Toán học và Thống kê
- B. Khoa học Máy tính
- C. Trực quan hóa dữ liệu
- D. Kiến thức chuyên ngành (Domain Knowledge)
Câu 19: Một dự án khoa học dữ liệu nhằm mục đích dự đoán kết quả thi tốt nghiệp THPT của học sinh dựa trên điểm các kỳ kiểm tra trước đó, thái độ học tập, thời gian tự học,... Đây là một bài toán thuộc nhóm nào trong học máy?
- A. Học có giám sát (Supervised Learning) - bài toán hồi quy
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Học sâu (Deep Learning) - nếu không rõ loại bài toán cụ thể
Câu 20: Công cụ nào sau đây thường được sử dụng để làm sạch, biến đổi và phân tích dữ liệu có cấu trúc (dữ liệu dạng bảng) trong khoa học dữ liệu?
- A. Phần mềm chỉnh sửa ảnh (ví dụ: Photoshop)
- B. Trình duyệt web
- C. Thư viện lập trình như Pandas (Python) hoặc R
- D. Phần mềm soạn thảo văn bản (ví dụ: Microsoft Word)
Câu 21: Khi phân tích dữ liệu, việc nhận diện các mối tương quan giữa các biến (ví dụ: chi tiêu quảng cáo và doanh số bán hàng) hoặc các mẫu hình ẩn trong dữ liệu (ví dụ: khách hàng mua sản phẩm A thường mua kèm sản phẩm B) thuộc giai đoạn nào của quy trình khoa học dữ liệu?
- A. Phân tích và khai phá dữ liệu (Data Analysis and Exploration)
- B. Thu thập dữ liệu
- C. Triển khai mô hình
- D. Ra quyết định
Câu 22: Một công ty muốn phân tích dữ liệu từ các cảm biến trong nhà máy để phát hiện sớm các dấu hiệu hỏng hóc của thiết bị, giúp thực hiện bảo trì dự đoán. Ứng dụng này thuộc lĩnh vực nào của khoa học dữ liệu?
- A. Phân tích cảm xúc
- B. Bảo trì dự đoán (Predictive Maintenance)
- C. Hệ thống gợi ý
- D. Phân tích ngôn ngữ tự nhiên
Câu 23: Đặc điểm nào của dữ liệu lớn (Big Data) liên quan đến việc dữ liệu có thể đến từ nhiều nguồn khác nhau với các định dạng, cấu trúc và loại hình khác nhau (ví dụ: văn bản, hình ảnh, video, dữ liệu cảm biến, dữ liệu từ cơ sở dữ liệu)?
- A. Volume
- B. Velocity
- C. Variety
- D. Veracity
Câu 24: Sau khi một mô hình khoa học dữ liệu đã được xây dựng, đánh giá và giải thích, bước cuối cùng và quan trọng nhất để dự án mang lại giá trị thực tế là gì?
- A. Thu thập thêm dữ liệu mới
- B. Làm sạch dữ liệu lại từ đầu
- C. Trực quan hóa tất cả dữ liệu thô
- D. Ra quyết định và triển khai kết quả (Decision Making and Deployment)
Câu 25: Một nhà khoa học dữ liệu đang sử dụng thuật toán hồi quy tuyến tính để dự đoán giá nhà dựa trên diện tích, số phòng ngủ và vị trí. Đây là một ví dụ về việc áp dụng kiến thức từ lĩnh vực nào?
- A. Thống kê và Học máy
- B. Thiết kế đồ họa
- C. Quản trị mạng
- D. Lịch sử học
Câu 26: Thách thức nào của dữ liệu lớn liên quan đến việc đảm bảo tính chính xác, độ tin cậy và nguồn gốc của dữ liệu?
- A. Volume
- B. Velocity
- C. Variety
- D. Veracity
Câu 27: Một nhà khoa học dữ liệu đang phân tích dữ liệu bán hàng theo thời gian để xác định xu hướng (trend), tính mùa vụ (seasonality) và các yếu tố chu kỳ (cyclical patterns). Kỹ thuật phân tích nào đang được sử dụng?
- A. Phân loại hình ảnh
- B. Phân tích mạng xã hội
- C. Phân tích chuỗi thời gian (Time Series Analysis)
- D. Phân tích cảm xúc
Câu 28: Việc đảm bảo quyền riêng tư của người dùng khi sử dụng dữ liệu cá nhân trong các dự án khoa học dữ liệu là một vấn đề quan trọng liên quan đến khía cạnh nào?
- A. Đạo đức và pháp lý (Ethics and Legal)
- B. Hiệu suất thuật toán
- C. Chi phí lưu trữ dữ liệu
- D. Tốc độ xử lý dữ liệu
Câu 29: Một nhà khoa học dữ liệu được yêu cầu xây dựng một hệ thống phân loại email thành "spam" hoặc "không spam". Đây là một bài toán thuộc nhóm nào trong học máy?
- A. Học không giám sát (Unsupervised Learning)
- B. Học có giám sát (Supervised Learning) - bài toán phân loại
- C. Học tăng cường (Reinforcement Learning)
- D. Phân tích chuỗi thời gian
Câu 30: Kính thiên văn Kepler, dự án thu thập lượng lớn dữ liệu về độ sáng của các ngôi sao để tìm kiếm các hành tinh ngoại hệ, là một ví dụ về ứng dụng khoa học dữ liệu trong lĩnh vực nào?
- A. Thiên văn học (Astronomy)
- B. Y tế
- C. Tài chính
- D. Giáo dục