Câu hỏi trắc nghiệm BigData PDF
Document Details
Uploaded by CheerfulTulsa
Tags
Summary
This document contains a set of multiple-choice questions covering fundamental concepts of Big Data, including MapReduce, Spark, and RDDs. The questions cover important details of different algorithms and techniques used in the processing and analysis of large datasets.
Full Transcript
**1. GraphX API KHÔNG có thuật toán nào sau đây?** A. PageRank B. TriangleCount G. Apriori D. Pregel **2. Đầu ra của quá trình Map trong mô hình MapReduce là gì?** A. Danh sách các khóa mới và tập các giá trị tương ứng từng khóa B. Tập các cặp khóa - giá trị mới C. Một giá trị tổng hợp D. T...
**1. GraphX API KHÔNG có thuật toán nào sau đây?** A. PageRank B. TriangleCount G. Apriori D. Pregel **2. Đầu ra của quá trình Map trong mô hình MapReduce là gì?** A. Danh sách các khóa mới và tập các giá trị tương ứng từng khóa B. Tập các cặp khóa - giá trị mới C. Một giá trị tổng hợp D. Tập khóa và tập các giá trị mới **3. API chính xử lý dữ liệu luồng trực tuyến hiện tại trong Spark là** A. Streams Processor API B. Structured Streaming API C. Spark Streaming API D. Spark Realtime API **4. Hàm partition trong mô hình MapReduce làm nhiệm vụ nào sau đây?** A. Được sử dụng để tối ưu hóa nhờ việc giảm lưu lượng mạng B. Chia khoảng các khóa để song song hóa tác vụ reduce C. Thường là một hàm băm khóa kẻ đơn giản D. Một dạng hàm reduce nhỏ, chạy trong bộ nhớ sau pha map **5. Có những cách nào để tạo ra một RDD?** A. Đọc từ nguồn dữ liệu bên ngoài, Biến đổi từ RDD khác và Song Song hóa một bộ sưu tập tập trung B. Đọc từ HDFS/tập tin và Tạo ngẫu nhiên C. Đọc từ nguồn dữ liệu bên ngoài và Biến đổi từ RDD khác D. Đọc từ nguồn dữ liệu bên ngoài, Biến đổi từ RDD khác, Song Song hóa một bộ sưu tập tập trung và Tạo ngẫu nhiên **6. MLlib KHÔNG hỗ trợ các thuật toán nào?** A. Thống kê B. Mang no-ron C. Hồi quy D. Lọc công tác **7. Lợi ích khi sử dụng thư viện GraphX là gì?** A. Ít sử dụng lại các cấu trúc dữ liệu nội bộ qua các bước xử lý. B. Tận dụng ưu điểm của trình tối ưu Catalyst C. Giảm giao tiếp giữa các hệ thống D. Hợp nhất và tận dụng ưu điểm của các hệ thống xử lý song song và đồ thị **8. Nhận định nào sau đây về RDD là SAI?** A. Không thể tạo ra một RDD mới bằng cách kết hợp các phép biến đổi B. RDD được tạo bằng cách song song một bộ sưu tập hoặc đọc một tập tin C. RDD là đối tượng chỉ đọc D. RDD có khả năng chịu lỗi tốt **9. Các quá trình trung gian giữa Map và Reduce trong mô hình MapReduce là** A. Shuffle và Partition B. Combine, Partition, Shuffle và Sort C. Shuffle và Sort D. Shuffle **10. Dataset xử lý hiệu quả loại dữ liệu A. Có cấu trúc và phi cấu trúc** B. Phi cấu trúc và bản cấu trúc C. Mọi loại dữ liệu D. Có cấu trúc và bản cấu trúc **11. Thông tin nào sau đây là ĐÚNG về spark.ml API?** A. Vẫn còn được hỗ trợ sửa lỗi, không thêm chức năng mới B. Đang được khuyến khích sử dụng C. Trở thành API máy học chính trong Spark từ phiên bản 1.3 D. Là API dựa trên Dataset **12. RDD là viết tắt của cụm từ nào?** A. Random Distributed Dataset B. Resilient Distributed Dataset C. Reliable Data Distribution D. Required Delivery Dataset **13. Trong Spark, nếu tập dữ liệu được chia đến n phân vùng, thì một thao tác sẽ kích hoạt bao nhiêu tác vụ (task)?** A. n tác vụ B. n/2 tác vụ C. 1 tác vụ D. n - 1 tác vụ **14. Trong Spark dữ liệu được lưu trữ chủ yếu ở đâu?** A. Đĩa CD B. Bộ nhớ RAM C. Đĩa cứng D. Ổ đĩa USB **15. Quá trình Reduce trong mô hình MapReduce được lấy ý tưởng từ hàm nào trong lập trình hàm?** A. Ham sum B. Hàm reduce C. Hàm lambda D. Hàm fold **16. Những đặc điểm nào sau đây là đúng về phép Biến đổi hẹp một RDD** A. Tạo mối quan hệ 1-1 giữa các phân mảnh cha -- con B. Đầu vào và đầu ra nằm trên cùng một phân mảnh C. Không cần di chuyển dữ liệu 2\. Tất cả các phương án đã liệt kê **17. Trong mô hình MapReduce, quá trình Shufile và Sort diễn ra khi nào?** A. Giữa quá trình Combine và Partition B. Trước quá trình Map C. Ngay trước quá trình Reduce D. Ngay trước quá trình Partition **18. DataFrame có thể được tạo thành từ nguồn nào sau đây?** A. Tất cả các phương án đã liệt kê B. Bảng trong Hive C. Tập tin dữ liệu có cấu trúc D. Cơ sở dữ liệu bên ngoài **19. Có những loại thao tác nào trên RDD** A. Biến đổi và Tổng hợp B. Hành động và Biến đổi C. Lặp, Lọc và Tổng hợp D. Lập, Lọc và Song song hóa **20. DataFrame chỉ hoạt động trên dữ liệu** A. Có cấu trúc và bán cấu trúc B. Có cấu trúc và phi cấu trúc C. Mọi loại dữ liệu D. Phi cấu trúc và bán cấu trúc **21. Định nghĩa nào sau đây mô tả đơn giản về thuật ngữ Big Data?** A. Là một tập hợp dữ liệu mà các kỹ thuật điện toán thông thường dễ dàng xử lý được B. Là một tập hợp dữ liệu rất lớn mà các kỹ thuật điện toán thông thưởng không thể xử lý được C. Tất cả các lựa chọn khác đều sai D. Là một tập hợp dữ liệu rất lớn mà các kỹ thuật điện toán thông thưởng có thể xử lý được **22. Đầu ra của quá trình Reduce trong mô hình MapReduce là gì?** A. Tập các cặp khóa - giá trị mới B. Tập khóa và tập các giá trị mới C. Danh sách các khóa mới và tập các giá trị tương ứng từng khóa D. Một giá trị tổng hợp **23. Trong Spark, Đơn vị thực thi (Executor) là gì?** A. Một quy trình được khởi tạo cho một ứng dụng trên một nút tỉnh toán B. Một quy trình được khởi tạo cho một vài ứng dụng cụ thể trên các nút tính toán chỉ định C. Một quy trình được khởi tạo cho bất kỳ ứng dụng nào trên toàn bộ các nút tính toán D. Một quy trình được khởi tạo cho bất kỳ ứng dụng nào trên một nút tính toán **24. Ba đặc điểm cơ bản nhất của Dữ liệu lớn là?** A. Volume, Veracity, Variety B. Volume, Variety, Velocity C. Volume, Value, Velocity D. Volume, Value, Virality **25. Nếu người dùng cố gắng truy cập vào một cột dữ liệu không tồn tại trong bảng. DutaFrame API sẽ** A. Báo lỗi cả khi biên dịch và chạy chương trình B. Báo lỗi khi biên dịch C. Không báo lỗi lúc chạy chương trình D. Không báo lỗi khi biên dịch **26. Hạn chế của mô hình ManReduce là không hoạt động tốt với** A. Bài toán thời gian thực (realtime) và Xử lý dữ liệu phi cấu trúc. B. Tất cả các phương án đã liệt kê C. Những mô hình lắp, Bài toán đệ quy và Xử lý dữ liệu luồng (stream) D. Bài toán đệ quy và Xử lý dữ liệu bán cấu trúc **27. Mô hình dữ liệu của Spark SQL là gì?** A. Sử dụng mô hình dữ liệu lồng nhau dựa trên Hive B. Hỗ trợ các kiểu dữ liệu do người dùng định nghĩa C. Có thể lập mô hình dữ liệu từ nhiều nguồn và định dạng khác nhau D. Tất cả các phương án đã liệt kê **28. Mục tiêu của Spark khi mở rộng mô hình MapReduce là để hỗ trợ tốt hơn hai loại ứng dụng phân tích phổ biến nào sau đây?** A. Các thuật toán chứa thao tác lặp và Ứng dụng lập trình tương tác B. Các thuật toán chứa thao tác lặp và thao tác đệ quy C. Các thuật toán chứa thao tác lập và Ứng dụng phân tích dữ liệu đồ thị D. Ứng dụng phân tích dữ liệu đồ thị và dữ liệu luồng **29. Mô hình MapReduce được công bố vào năm nào?** A. 2003 B. 2004 C. 2002 D. 2005 **30. Dữ liệu nào sau đây thuộc loại Bán cấu trúc?** A. Cơ sở dữ liệu quan hệ B. Hình ảnh C. Âm thanh D. Tập tin XML **31. Spark được khởi đầu ở đâu?** A. Phòng nghiên cứu của Google B. AMPLab UC Berkeley C. Yahoo D. Phòng nghiên cứu của IBM **32. Nhận định nào sau đây là ĐÚNG về trình tối ưu hóa Catalyst?** A. Hỗ trợ tối ưu hóa dựa trên quy tắc và dựa trên chi phí B. Dựa trên cấu trúc lập trình hưởng thủ tục C. Dựa trên cấu trúc lập trình hưởng đối tượng D. Chưa cho phép các nhà phát triển bên ngoài mở rộng **33. Nhận định nào sau đây là ĐÚNG về DataFrame?** A. Tương đương với một bảng trong cơ sở dữ liệu quan hệ B. Chỉ có trong ngôn ngữ Scala và Java C. Là một tập dữ liệu được tổ chức thành các hàng được đặt tên D. Ràng buộc chặt chẽ như RDD, Dataset **34. Quy trình xử lý dữ liệu lớn gồm những bước nào?** A. Lưu trữ, Xử lý và Phân tích B. Thu thập, Lưu trữ và Phân tích C. Thu thập, Tiền xử lý, Lưu trữ và Phân tích D. Khảo sát, Thu thập, Lưu trữ và Xử lý **35. Nhận định nào sau đây về Spark SQL API là SAI?** A. Bao gồm trình tối ưu hóa có khả năng mở rộng cao - Catalyst B. Tích hợp chặt chẽ quan hệ và thủ tục trong quá trình xử lý C. Tích hợp xử lý theo mô hình quan hệ với mô hình lập trình hàm D. Tích hợp xử lý dữ liệu dạng bảng và dữ liệu dạng đô thị **36. Mục đích của Spark SQL là gì?** A. Dễ dàng mở rộng với các thuật toán phân tích nâng cao B. Hỗ trợ xử lý theo mô hình quan hệ cả trong chương trình Spark và các nguồn dữ liệu bên ngoài C. Nâng cao hiệu suất bằng cách sử dụng các kỹ thuật DBMS đã thiết lập sẵn D. Tất cả các phương án đã liệt kê **37. Hàm combine trong mô hình MapReduce làm nhiệm vụ nào sau đây**? A. Được sử dụng để tối ưu hóa nhờ việc giảm lưu lượng mạng B. Một dạng hàm reduce nhỏ, chạy trong bộ nhớ sau pha map C. Chia khoảng các khóa để song song hóa tác vụ reduce D. Thường là một hàm băm khóa kẻ đơn giản **38. Các thao tác biến đổi trên RDD tuân theo nguyên tắc nào?** A. Ít nhất được sử dụng gần đây (LRU - Least Recently Used) B. Ít sử dụng nhất (LFU - Least Frequently Used) C. Vào trước ra trước (FIFO - First in first out) D. Trì hoãn tính toán (Lazy evaluation) **39. Những đặc điểm nào sau đây là KHÔNG đúng về phép Biến đổi rộng một RDD** A. Tạo mối quan hệ n-l/n-n giữa các phân mảnh cha -- con B. Yêu cầu đầu vào nằm ở cùng một phân mảnh C. Quy trình tốn nhiều tài nguyên D. Cần xáo trộn dữ liệu trước khi xử lý **40. Cấu trúc dữ liệu đặc biệt trong đồ thị xây dựng bằng GraphX là?** A. Bộ ba (Triplet) B. Tất cả các phương án đã liệt kê C. Đồ thị thuộc tỉnh (Property graph) D. Bảng định tuyến (Routing table) **41. Nhận định nào sau đây về Dataset là SAI?** A. Tập hợp dữ liệu bất biến được lưu trữ phân tán B. Chỉ có trong ngôn ngữ Scala và Java C. Được thêm vào từ phiên bản Spark 1.6 D. Là API ở mức low-level **42. Dataset KHÔNG có đặc điểm nào sau đây?** A. Lập kế hoạch tốt nhất trước khi chạy chương trình B. Hỗ trợ lưu trữ phân tán dữ liệu đồ thị C. Quy định kiểu dữ liệu chặt chẽ D. Có khả năng áp dụng các hàm lambda **43. \"Velocity\" là đặc điểm gì của Dữ liệu lớn?** A. Giá trị B. Khối lượng C. Tính đa dạng D. Tốc độ **44. Nhiệm vụ của trình thực thi Tungsten là gì?** A. Hỗ trợ quản lý bộ nhớ minh bạch B. Giúp thao tác trực tiếp với đối tượng Java đã được tuần tự hóa C. Tu dong tao mã Java bytecode D. Tất cả các phương án đã liệt kê **45. Đô thị trong Spark được lưu trữ dưới dạng gì?** A. DataFrame B. GraphX C. Các RDD D. Tất cả các phương án đã liệt kê đều SAI **46. Ưu điểm của MapReduce là được thiết kế cho các hoạt động** A. Xử lý những bài toán đệ quy B. Xử lý dữ liệu nhanh chóng, đơn giản C. Các ứng dụng khai thác dữ liệu lớn theo mô hình lặp D. Sử dụng lượng dữ liệu lớn và Xử lý hàng loạt (chủ yếu là quét toàn bộ dữ liệu) **47. Dữ liệu nào sau đây KHÔNG thuộc loại Phi cấu trúc** A. Tài liệu, văn bản B. Tập tin JSON C. Video D. Dữ liệu từ cảm biến **48. Apache Spark được viết chủ yếu trên ngôn ngữ lập trình nào?** A. Python B. Scala C. C++ D. Java **49. Khả năng khôi phục của RDD chủ yếu dựa vào thông tin gì?** A. Nhật ký những thay đổi so với RDD trước đó B. Bản sao dự phòng của RDD C. Không có khả năng khôi phục D. Thông tin xuất xứ của RDD **50. Trong GraphX, việc tách biệt giữa thuộc tỉnh và cấu trúc mang lại ưu điểm gì?** A. Có thể tái sử dụng thông tin cấu trúc trên nhiều đồ thị con B. Có khả năng sử dụng bộ nhớ đệm cho các thao tác lặp lại C. Có thể tái sử dụng thông tin thuộc tỉnh và cấu trúc trên nhiều đồ thị con D. Biểu diễn đồ thị một cách tự nhiên **51. Dịch vụ nào sau đây KHÔNG tạo ra dữ liệu lớn?** A. dịch vụ bảo dưỡng bảo hành thiết bị điện gia dụng B. Dịch vụ nghe nhạc/xem phim trực tuyến C. Dịch vụ mua bản trực tuyến D. Mạng xã hội **52. Theo cấu trúc, dữ liệu được phân thành những loại nào?** A. Có cấu trúc, Phi cấu trúc và Bản cấu trúc B. Có cấu trúc, Phi cấu trúc và Cấu trúc hỗn tạp C. Cấu trúc đơn giản, Cấu trúc phức tạp và Cấu trúc lại D. Có cấu trúc và Phi cấu trúc **53. Hai vấn đề nan giải của mô hình MapReduce là gì?** A. Không hỗ trợ xử lý hàng loạt và Chi giải quyết được những bài toán đơn giản B. Mô hình lập trình hạn chế và Không hỗ trợ xử lý hàng loạt C. Mô hình lập trình hạn chế và Hiệu quả kém với ứng dụng chia sẻ dữ liệu qua D. Mô hình lập trình hạn chế và Chỉ giải quyết được những bài toán đơn giản **54. Yếu tố nào KHÔNG phải là thành phần của một RDD?** A. Vùng lưu trữ ưu tiên đối với các phân mảnh B. Nhật ký những thay đổi so với RDD cha C. Danh sách các RDD cha mà nó phụ thuộc D. Tập hợp các phân mảnh dữ liệu **55. Sắp xếp thứ tự các giai đoạn tối ưu hóa bằng trình tối ưu hóa Catalyst** 1\. Lập kế hoạch vật lý 2\. Tối ưu hóa kế hoạch luận lý 3\. Phân tích kế hoạch luận lý để tìm ra các tham chiếu 4\. Biên dịch các phần của truy vấn sang Java bytecode A. 1\>3\>2\>4 B. 1\>2\>3\>4 C. 3\>2\>1\>4 D. 2\>3\>1\>4 **56. Trong Spark, nhận định nào sau đây là SAI về Trình điều khiển (Driver)?** A. Không thực hiện tính toán B. Là một trong những nút thuộc cụm C. Là trình quản lý các tác vụ và tài nguyên toàn hệ thống D. Đóng vai trò quản lý trong cụm máy Spark. **57. Nhận định nào sau đây về RDD là SAI** A. RDD là đối tượng chứa dữ liệu B. RDD có khả năng mở rộng kém C. Tất cả các thành phần xử lý khác nhau trong Spark đều có chung một lớp trừu tượng là RDD D. RDD cho phép ứng dụng giữ dữ liệu đang vận hành trong bộ nhớ để sử dụng lại một cách hiệu quá **58. Các vấn đề của song song hóa phát sinh từ** A. Giao tiếp giữa các nút tính toán và Tranh chấp tài nguyên chung B. Quá trình đồng bộ hóa và giao tiếp giữa các nút tính toán C. Sự cố về phần cứng, đường truyền D. Tranh chấp tài nguyên dẫn đến deadlock/livelock **59. \"Variety\" là đặc điểm gì của Dữ liệu lớn?** A. Khối lượng B. Tính đa dạng C. Độ tin cậy **60. RDD là viết tắt của cụm từ nào?** A. Resilient Distributed Dataset B. Random Distributed Dataset C. Required Delivery Dataset D. Reliable Data Distribution