Trắc nghiệm Tin học 12 Chân trời sáng tạo Bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu - Đề 02
Trắc nghiệm Tin học 12 Chân trời sáng tạo Bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu - Đề 02 bao gồm nhiều câu hỏi hay, bám sát chương trình. Cùng làm bài tập trắc nghiệm ngay.
Câu 1: Trong quá trình thu thập dữ liệu về mức độ hài lòng của khách hàng đối với dịch vụ trực tuyến, bạn nhận thấy một số phản hồi bị bỏ trống ở trường đánh giá chất lượng (thang điểm 1-5). Phương pháp nào sau đây là phù hợp nhất để xử lý các giá trị thiếu này trong tập dữ liệu?
- A. Xóa bỏ toàn bộ bản ghi chứa giá trị thiếu, bất kể các trường khác có thông tin hay không.
- B. Điền giá trị thiếu bằng giá trị trung bình (mean) hoặc trung vị (median) của các phản hồi còn lại trong cột đánh giá.
- C. Giữ nguyên các giá trị thiếu và tiến hành phân tích dữ liệu như bình thường.
- D. Thay thế giá trị thiếu bằng giá trị tối đa (5 điểm) để đảm bảo tính tích cực của dữ liệu.
Câu 2: Bạn có một bảng dữ liệu chứa thông tin sản phẩm với các cột "Mã sản phẩm", "Tên sản phẩm", "Giá niêm yết", và "Giá khuyến mãi". Để tính cột "Phần trăm giảm giá" cho mỗi sản phẩm, bạn sẽ sử dụng công thức nào trong phần mềm bảng tính?
- A. =(Giá niêm yết - Giá khuyến mãi) / Giá khuyến mãi * 100
- B. =(Giá khuyến mãi / Giá niêm yết) * 100
- C. =(Giá niêm yết - Giá khuyến mãi) / Giá niêm yết * 100
- D. =(Giá niêm yết / Giá khuyến mãi) * 100
Câu 3: Khi phân tích dữ liệu bán hàng theo khu vực địa lý, bạn muốn trực quan hóa doanh thu của từng khu vực trên bản đồ. Loại biểu đồ nào sau đây là phù hợp nhất để thể hiện thông tin này?
- A. Biểu đồ đường (Line chart)
- B. Biểu đồ cột (Column chart)
- C. Biểu đồ tròn (Pie chart)
- D. Bản đồ nhiệt (Heat map) hoặc Bản đồ phân vùng (Choropleth map)
Câu 4: Trong một dự án phân tích dữ liệu về hiệu suất học tập của học sinh, bạn có các cột dữ liệu sau: "Mã học sinh", "Điểm Toán", "Điểm Văn", "Điểm Anh", "Giới tính", "Lớp". Để tìm ra lớp nào có điểm trung bình môn Toán cao nhất, công cụ tổng hợp dữ liệu nào trong bảng tính là hiệu quả nhất?
- A. Bảng tổng hợp PivotTable
- B. Hàm VLOOKUP
- C. Công cụ Conditional Formatting
- D. Bộ lọc (Filter)
Câu 5: Bạn đang làm việc với một tập dữ liệu lớn chứa thông tin giao dịch mua hàng trực tuyến. Để xác định các sản phẩm thường được mua cùng nhau, kỹ thuật phân tích dữ liệu nào sau đây là phù hợp nhất?
- A. Phân tích hồi quy (Regression analysis)
- B. Phân tích phương sai (ANOVA)
- C. Phân tích kết hợp (Association rule mining)
- D. Phân tích thành phần chính (Principal Component Analysis)
Câu 6: Giả sử bạn có một cột dữ liệu "Ngày đặt hàng" chứa cả ngày và giờ (ví dụ: "2024-03-15 14:30:00"). Để đơn giản hóa phân tích, bạn muốn tách cột này thành hai cột riêng biệt: "Ngày" (chỉ chứa ngày tháng năm) và "Giờ" (chỉ chứa giờ phút giây). Công cụ nào trong Power Query của Excel giúp bạn thực hiện điều này?
- A. Nhóm theo (Group By)
- B. Tách cột (Split Column)
- C. Gộp cột (Merge Columns)
- D. Thêm cột có điều kiện (Add Conditional Column)
Câu 7: Bạn muốn tạo một báo cáo trực quan hóa dữ liệu bán hàng hàng tháng trong năm 2023. Biểu đồ nào sau đây thể hiện xu hướng doanh số theo thời gian một cách rõ ràng nhất?
- A. Biểu đồ đường (Line chart)
- B. Biểu đồ cột (Column chart)
- C. Biểu đồ thanh (Bar chart)
- D. Biểu đồ phân tán (Scatter plot)
Câu 8: Trong quá trình làm sạch dữ liệu, bạn phát hiện một số bản ghi bị trùng lặp hoàn toàn. Biện pháp nào sau đây là phù hợp nhất để xử lý tình huống này?
- A. Tăng cường độ đậm của chữ trong các bản ghi trùng lặp để dễ nhận biết.
- B. Đổi màu nền của các bản ghi trùng lặp để phân biệt.
- C. Xóa bỏ các bản ghi trùng lặp, giữ lại duy nhất một bản ghi.
- D. Gộp các bản ghi trùng lặp thành một bản ghi duy nhất bằng cách cộng các giá trị số.
Câu 9: Bạn có một tập dữ liệu về khảo sát mức độ hài lòng của khách hàng với các mức đánh giá từ "Rất không hài lòng", "Không hài lòng", "Bình thường", "Hài lòng", "Rất hài lòng". Để phân tích tỷ lệ phần trăm của từng mức độ hài lòng, loại biểu đồ nào là thích hợp nhất?
- A. Biểu đồ đường (Line chart)
- B. Biểu đồ tròn (Pie chart) hoặc Biểu đồ cột/thanh phần trăm
- C. Biểu đồ phân tán (Scatter plot)
- D. Biểu đồ hộp (Box plot)
Câu 10: Trong quá trình phân tích dữ liệu, bạn nhận thấy một cột "Tuổi" có giá trị ngoại lệ (outlier) là "150". Giá trị này không hợp lý vì vượt quá tuổi thọ trung bình của con người. Phương pháp nào sau đây là phù hợp để xử lý giá trị ngoại lệ này?
- A. Giữ nguyên giá trị "150" vì đó là một giá trị thực tế đo được.
- B. Thay thế giá trị "150" bằng giá trị "0" để loại bỏ ảnh hưởng của nó.
- C. Tính lại giá trị "150" bằng cách lấy trung bình cộng của các giá trị tuổi khác trong cột.
- D. Điều tra nguồn gốc của giá trị "150" để xác định xem đó là lỗi nhập liệu hay giá trị thực, sau đó quyết định xóa, sửa hoặc giữ lại.
Câu 11: Bạn có hai tập dữ liệu: một chứa thông tin khách hàng (Mã khách hàng, Tên, Địa chỉ) và một chứa thông tin đơn hàng (Mã đơn hàng, Mã khách hàng, Ngày đặt hàng, Tổng tiền). Để kết hợp hai tập dữ liệu này dựa trên "Mã khách hàng" để phân tích hành vi mua sắm của khách hàng, bạn sử dụng thao tác nào trong Power Query?
- A. Nhóm theo (Group By)
- B. Thêm cột tùy chỉnh (Add Custom Column)
- C. Gộp truy vấn (Merge Queries)
- D. Nối truy vấn (Append Queries)
Câu 12: Khi trình bày kết quả phân tích dữ liệu cho người không chuyên môn, điều quan trọng nhất cần lưu ý là gì?
- A. Sử dụng ngôn ngữ chuyên môn sâu và các thuật ngữ kỹ thuật để thể hiện sự chuyên nghiệp.
- B. Trình bày tất cả các chi tiết phân tích, bao gồm cả các bước xử lý dữ liệu phức tạp.
- C. Tập trung vào việc thể hiện các con số thống kê một cách chính xác tuyệt đối.
- D. Trình bày kết quả một cách trực quan, dễ hiểu, tập trung vào thông điệp chính và ý nghĩa của dữ liệu.
Câu 13: Bạn có một cột dữ liệu "Địa chỉ" chứa thông tin đường phố, phường/xã, quận/huyện, tỉnh/thành phố. Để phân tích dữ liệu theo đơn vị hành chính cấp quận/huyện, bạn cần làm sạch cột dữ liệu này như thế nào?
- A. Xóa bỏ hoàn toàn cột "Địa chỉ" vì quá phức tạp để phân tích.
- B. Tách thông tin quận/huyện từ cột "Địa chỉ" thành một cột mới "Quận/Huyện".
- C. Sắp xếp dữ liệu theo thứ tự bảng chữ cái của cột "Địa chỉ".
- D. Thay thế tất cả các giá trị trong cột "Địa chỉ" bằng từ "Việt Nam".
Câu 14: Biểu đồ hộp (Box plot) thường được sử dụng để trực quan hóa khía cạnh nào của một tập dữ liệu số?
- A. Xu hướng theo thời gian
- B. Tỷ lệ phần trăm của các danh mục
- C. Phân bố và sự phân tán của dữ liệu
- D. Mối quan hệ giữa hai biến số
Câu 15: Trong một quy trình phân tích dữ liệu, sau khi thu thập và làm sạch dữ liệu, bước tiếp theo quan trọng nhất là gì?
- A. Trình bày kết quả phân tích
- B. Khám phá dữ liệu (Exploratory Data Analysis - EDA)
- C. Xây dựng mô hình dự đoán
- D. Triển khai mô hình vào thực tế
Câu 16: Bạn muốn lọc dữ liệu trong Excel để chỉ hiển thị các đơn hàng có tổng giá trị lớn hơn 1.000.000 VNĐ. Công cụ nào sau đây bạn sẽ sử dụng?
- A. Bộ lọc (Filter)
- B. Sắp xếp (Sort)
- C. Định dạng có điều kiện (Conditional Formatting)
- D. PivotTable
Câu 17: Để tính tổng doanh thu theo từng tháng từ cột "Ngày bán hàng" và cột "Doanh thu", bạn sẽ sử dụng chức năng tổng hợp nào trong PivotTable?
- A. Trung bình (Average)
- B. Tổng (Sum)
- C. Đếm (Count)
- D. Tối đa (Max)
Câu 18: Bạn có một tập dữ liệu văn bản lớn chứa các đánh giá của khách hàng về sản phẩm. Để phân tích cảm xúc (tích cực, tiêu cực, trung lập) trong các đánh giá này, bạn cần sử dụng kỹ thuật nào của khoa học dữ liệu?
- A. Phân tích hồi quy (Regression analysis)
- B. Phân tích cụm (Cluster analysis)
- C. Phân tích chuỗi thời gian (Time series analysis)
- D. Phân tích cảm xúc (Sentiment analysis)
Câu 19: Khi xây dựng một mô hình dự đoán, việc chia tập dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (testing set) có mục đích chính là gì?
- A. Tăng tốc độ huấn luyện mô hình.
- B. Giảm dung lượng bộ nhớ cần thiết để lưu trữ dữ liệu.
- C. Đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới, chưa từng được sử dụng trong quá trình huấn luyện.
- D. Đảm bảo tính công bằng và khách quan trong quá trình phân tích dữ liệu.
Câu 20: Trong quá trình làm việc với Power Query, bạn muốn ghi lại các bước biến đổi dữ liệu đã thực hiện để có thể xem lại và chỉnh sửa sau này. Tính năng nào của Power Query cho phép bạn làm điều này?
- A. Trình chỉnh sửa nâng cao (Advanced Editor)
- B. Các bước đã áp dụng (Applied Steps)
- C. Chế độ xem cột (Column View)
- D. Quản lý tham số (Manage Parameters)
Câu 21: Bạn muốn tạo một biểu đồ cột nhóm (clustered column chart) để so sánh doanh thu của ba dòng sản phẩm khác nhau qua từng quý trong năm. Bạn cần kéo các trường dữ liệu nào vào các vùng "Trục (Categories)", "Chú giải (Series)", và "Giá trị (Values)" của biểu đồ?
- A. Trục (Categories): Quý, Chú giải (Series): Dòng sản phẩm, Giá trị (Values): Doanh thu
- B. Trục (Categories): Dòng sản phẩm, Chú giải (Series): Quý, Giá trị (Values): Doanh thu
- C. Trục (Categories): Doanh thu, Chú giải (Series): Quý, Giá trị (Values): Dòng sản phẩm
- D. Trục (Categories): Doanh thu, Chú giải (Series): Dòng sản phẩm, Giá trị (Values): Quý
Câu 22: Trong quá trình làm sạch dữ liệu, bạn gặp phải tình huống dữ liệu không nhất quán về định dạng ngày tháng (ví dụ: "15/03/2024" và "2024-03-15"). Công cụ nào trong Power Query giúp chuẩn hóa định dạng ngày tháng?
- A. Lọc hàng (Filter Rows)
- B. Sắp xếp (Sort)
- C. Thay đổi kiểu dữ liệu (Change Type)
- D. Thay thế giá trị (Replace Values)
Câu 23: Bạn muốn tạo một chỉ số KPI mới bằng cách kết hợp dữ liệu từ hai cột "Tổng chi phí" và "Tổng doanh thu" (ví dụ: "Lợi nhuận = Tổng doanh thu - Tổng chi phí"). Thao tác nào trong Power Query cho phép bạn tạo cột tính toán này?
- A. Nhóm theo (Group By)
- B. Gộp cột (Merge Columns)
- C. Tách cột (Split Column)
- D. Thêm cột tùy chỉnh (Add Custom Column)
Câu 24: Biểu đồ phân tán (Scatter plot) thường được sử dụng để khám phá mối quan hệ giữa bao nhiêu biến số?
- A. Một biến số
- B. Hai biến số
- C. Ba biến số
- D. Nhiều hơn ba biến số
Câu 25: Để xác định xem có sự khác biệt đáng kể về điểm trung bình môn Toán giữa học sinh nam và học sinh nữ hay không, bạn có thể sử dụng phương pháp phân tích thống kê nào?
- A. Phân tích hồi quy (Regression analysis)
- B. Phân tích tương quan (Correlation analysis)
- C. Kiểm định t-Test
- D. Phân tích phương sai (ANOVA)
Câu 26: Bạn có một tập dữ liệu chứa thông tin về các bài đăng trên mạng xã hội, bao gồm cột "Nội dung bài đăng". Để đếm tần suất xuất hiện của các từ khóa quan trọng (ví dụ: "khuyến mãi", "giảm giá", "ưu đãi") trong các bài đăng, bạn cần thực hiện bước xử lý dữ liệu văn bản nào?
- A. Đếm từ (Word counting)
- B. Phân tích cú pháp (Parsing)
- C. Loại bỏ stop words
- D. Stemming/Lemmatization
Câu 27: Trong quá trình trực quan hóa dữ liệu, việc lựa chọn màu sắc phù hợp cho biểu đồ có vai trò gì?
- A. Chỉ để làm cho biểu đồ đẹp mắt hơn.
- B. Không có vai trò quan trọng, màu sắc nào cũng được.
- C. Chỉ ảnh hưởng đến tốc độ tải của biểu đồ.
- D. Giúp làm nổi bật thông tin quan trọng, cải thiện tính dễ đọc và truyền tải thông điệp hiệu quả hơn.
Câu 28: Bạn muốn tạo một trang tổng quan (dashboard) để theo dõi các chỉ số bán hàng quan trọng (doanh thu, lợi nhuận, số lượng đơn hàng) theo thời gian thực. Công cụ nào sau đây là phù hợp nhất để xây dựng dashboard tương tác?
- A. Microsoft Excel
- B. Power BI, Tableau, Google Data Studio
- C. Microsoft Word
- D. PowerPoint
Câu 29: Khi phân tích dữ liệu đa biến (nhiều biến số), kỹ thuật giảm chiều dữ liệu (dimensionality reduction) có mục đích chính là gì?
- A. Tăng số lượng biến số trong tập dữ liệu.
- B. Tạo ra các biến số mới hoàn toàn ngẫu nhiên.
- C. Giảm số lượng biến số nhưng vẫn giữ lại được thông tin quan trọng nhất của dữ liệu.
- D. Thay đổi đơn vị đo lường của các biến số.
Câu 30: Trong báo cáo phân tích dữ liệu, phần "Kết luận và Khuyến nghị" có vai trò gì?
- A. Liệt kê tất cả các bước xử lý dữ liệu đã thực hiện.
- B. Tóm tắt các phát hiện chính từ phân tích và đề xuất các hành động cụ thể dựa trên kết quả phân tích.
- C. Trình bày chi tiết các công thức và thuật toán đã sử dụng.
- D. Sao chép lại toàn bộ dữ liệu thô đã thu thập.