Quản lý Dữ liệu với Spark và GraphX

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Thuật toán nào sau đây không có trong GraphX API?

Apriori (correct)
TriangleCount
PageRank
Pregel

Đầu ra của quá trình Map trong mô hình MapReduce là gì?

Tập khóa và tập các giá trị mới
Tập các cặp khóa - giá trị mới
Danh sách các khóa mới và tập các giá trị tương ứng từng khóa (correct)
Một giá trị tổng hợp

API chính xử lý dữ liệu luồng trực tuyến trong Spark là gì?

Structured Streaming API
Streams Processor API
Spark Streaming API (correct)
Spark Realtime API

Hàm partition trong mô hình MapReduce có nhiệm vụ gì?

Chia khoảng các khóa để song song hóa tác vụ reduce (B) Signup and view all the answers

Có những cách nào để tạo ra một RDD?

Đọc từ nguồn dữ liệu bên ngoài, Biến đổi từ RDD khác, Song Song hóa một bộ sưu tập tập trung và Tạo ngẫu nhiên (A) Signup and view all the answers

MLlib không hỗ trợ thuật toán nào?

Lọc công tác (A) Signup and view all the answers

Lợi ích lớn nhất khi sử dụng thư viện GraphX là gì?

Hợp nhất và tận dụng ưu điểm của các hệ thống xử lý song song và đồ thị (C) Signup and view all the answers

Nhận định nào sau đây về RDD là sai?

Không thể tạo ra một RDD mới bằng cách kết hợp các phép biến đổi (D) Signup and view all the answers

Các quá trình trung gian giữa Map và Reduce trong mô hình MapReduce là gì?

Shuffle và Sort (C) Signup and view all the answers

Nếu tập dữ liệu trong Spark được chia thành n phân vùng, thì sẽ kích hoạt bao nhiêu tác vụ?

n tác vụ (C) Signup and view all the answers

Dữ liệu trong Spark chủ yếu được lưu trữ ở đâu?

Bộ nhớ RAM (A) Signup and view all the answers

Quá trình Reduce trong mô hình MapReduce liên quan đến hàm nào trong lập trình hàm?

Hàm reduce (C) Signup and view all the answers

Đặc điểm nào sau đây đúng về phép Biến đổi hẹp một RDD?

Tất cả các phương án đã liệt kê (C) Signup and view all the answers

Trong mô hình MapReduce, quá trình Shuffle và Sort diễn ra khi nào?

Ngay trước quá trình Reduce (C) Signup and view all the answers

DataFrame trong Spark có thể được tạo thành từ nguồn nào sau đây?

Tất cả các phương án đã liệt kê (D) Signup and view all the answers

Có những loại thao tác nào trên RDD?

Hành động và Biến đổi (D) Signup and view all the answers

DataFrame chỉ hoạt động trên dữ liệu nào?

Có cấu trúc và bán cấu trúc (A) Signup and view all the answers

Định nghĩa nào sau đây mô tả về Big Data?

Là một tập hợp dữ liệu rất lớn mà các kỹ thuật điện toán thông thưởng không thể xử lý được (B) Signup and view all the answers

Đầu ra của quá trình Reduce trong mô hình MapReduce là gì?

Một giá trị tổng hợp (D) Signup and view all the answers

Dữ liệu nào sau đây KHÔNG thuộc loại Phi cấu trúc?

Tập tin JSON (B) Signup and view all the answers

Apache Spark được viết chủ yếu trên ngôn ngữ lập trình nào?

Scala (C) Signup and view all the answers

Khả năng khôi phục của RDD chủ yếu dựa vào thông tin gì?

Nhật ký những thay đổi so với RDD trước đó (C) Signup and view all the answers

Trong GraphX, việc tách biệt giữa thuộc tỉnh và cấu trúc mang lại ưu điểm gì?

Có thể tái sử dụng thông tin thuộc tỉnh và cấu trúc trên nhiều đồ thị con (C) Signup and view all the answers

Dịch vụ nào sau đây KHÔNG tạo ra dữ liệu lớn?

Dịch vụ bảo dưỡng bảo hành thiết bị điện gia dụng (B) Signup and view all the answers

Theo cấu trúc, dữ liệu được phân thành những loại nào?

Có cấu trúc và Phi cấu trúc (B) Signup and view all the answers

Hai vấn đề nan giải của mô hình MapReduce là gì?

Mô hình lập trình hạn chế và Hiệu quả kém với ứng dụng chia sẻ dữ liệu (B), Mô hình lập trình hạn chế và Chỉ giải quyết được những bài toán đơn giản (C) Signup and view all the answers

Yếu tố nào KHÔNG phải là thành phần của một RDD?

Vùng lưu trữ ưu tiên đối với các phân mảnh (D) Signup and view all the answers

Sắp xếp thứ tự các giai đoạn tối ưu hóa bằng trình tối ưu hóa Catalyst?

1>2>3>4 (B) Signup and view all the answers

Trong Spark, nhận định nào sau đây là SAI về Trình điều khiển (Driver)?

Không thực hiện tính toán (C) Signup and view all the answers

Mục đích chính của Spark SQL là gì?

Hỗ trợ xử lý theo mô hình quan hệ cả trong chương trình Spark và các nguồn dữ liệu bên ngoài (D) Signup and view all the answers

Hàm combine trong mô hình MapReduce chủ yếu được sử dụng để làm gì?

Một dạng hàm reduce nhỏ, chạy trong bộ nhớ sau pha map (A) Signup and view all the answers

Nguyên tắc nào được tuân theo khi thực hiện các thao tác biến đổi trên RDD?

Trì hoãn tính toán (Lazy evaluation) (C) Signup and view all the answers

Những đặc điểm nào sau đây là KHÔNG đúng về phép Biến đổi rộng một RDD?

Quy trình tốn ít tài nguyên (A) Signup and view all the answers

Cấu trúc dữ liệu đặc biệt nào sử dụng trong đồ thị xây dựng bằng GraphX?

Đồ thị thuộc tỉnh (Property graph) (D) Signup and view all the answers

Nhận định nào về Dataset là SAI?

Chỉ có thể sử dụng trong ngôn ngữ Python (B) Signup and view all the answers

Đặc điểm nào không nằm trong tính năng của Dataset?

Cho phép thực hiện các thao tác đồng bộ (C) Signup and view all the answers

Tốc độ của dữ liệu lớn được định nghĩa bởi từ nào?

Tốc độ (B) Signup and view all the answers

Nhiệm vụ chính của trình thực thi Tungsten là gì?

Tất cả các phương án đã liệt kê (B) Signup and view all the answers

Đô thị trong Spark được lưu trữ dưới dạng nào?

DataFrame (B) Signup and view all the answers

Ưu điểm của MapReduce là gì?

Xử lý dữ liệu nhanh chóng, đơn giản (B) Signup and view all the answers

Nếu người dùng cố gắng truy cập vào một cột dữ liệu không tồn tại trong bảng, điều gì sẽ xảy ra?

Báo lỗi cả khi biên dịch và chạy chương trình (B) Signup and view all the answers

Hạn chế của mô hình MapReduce là gì?

Không hoạt động tốt với Bài toán thời gian thực và Dữ liệu phi cấu trúc (D) Signup and view all the answers

Mô hình dữ liệu của Spark SQL là gì?

Có thể lập mô hình dữ liệu từ nhiều nguồn và định dạng khác nhau (C) Signup and view all the answers

Mục tiêu của Spark khi mở rộng mô hình MapReduce là gì?

Hỗ trợ tốt hơn cho các thuật toán chứa thao tác lặp và ứng dụng lập trình tương tác (C) Signup and view all the answers

Năm nào mô hình MapReduce được công bố?

2004 (A) Signup and view all the answers

Dữ liệu nào sau đây thuộc loại Bán cấu trúc?

Tập tin XML (D) Signup and view all the answers

Spark được khởi đầu ở đâu?

AMPLab UC Berkeley (C) Signup and view all the answers

Nhận định nào là ĐÚNG về trình tối ưu hóa Catalyst?

Hỗ trợ tối ưu hóa dựa trên quy tắc và dựa trên chi phí (A) Signup and view all the answers

Nhận định nào sau đây về DataFrame là ĐÚNG?

Tương đương với một bảng trong cơ sở dữ liệu quan hệ (D) Signup and view all the answers

Quy trình xử lý dữ liệu lớn gồm những bước nào?

Thu thập, Tiền xử lý, Lưu trữ và Phân tích (D) Signup and view all the answers

Flashcards

Thuật toán nào không được hỗ trợ bởi GraphX API?

Thuật toán PageRank, TriangleCount, Pregel đều được hỗ trợ bởi GraphX API, thuật toán Apriori không được hỗ trợ.

Đầu ra của quá trình Map

Đầu ra của quá trình Map là một tập các cặp khóa-giá trị, mỗi khóa kết hợp với một tập giá trị.