Quản lý Dữ liệu với Spark và GraphX
50 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Thuật toán nào sau đây không có trong GraphX API?

  • Apriori (correct)
  • TriangleCount
  • PageRank
  • Pregel

Đầu ra của quá trình Map trong mô hình MapReduce là gì?

  • Tập khóa và tập các giá trị mới
  • Tập các cặp khóa - giá trị mới
  • Danh sách các khóa mới và tập các giá trị tương ứng từng khóa (correct)
  • Một giá trị tổng hợp

API chính xử lý dữ liệu luồng trực tuyến trong Spark là gì?

  • Structured Streaming API
  • Streams Processor API
  • Spark Streaming API (correct)
  • Spark Realtime API

Hàm partition trong mô hình MapReduce có nhiệm vụ gì?

<p>Chia khoảng các khóa để song song hóa tác vụ reduce (B)</p> Signup and view all the answers

Có những cách nào để tạo ra một RDD?

<p>Đọc từ nguồn dữ liệu bên ngoài, Biến đổi từ RDD khác, Song Song hóa một bộ sưu tập tập trung và Tạo ngẫu nhiên (A)</p> Signup and view all the answers

MLlib không hỗ trợ thuật toán nào?

<p>Lọc công tác (A)</p> Signup and view all the answers

Lợi ích lớn nhất khi sử dụng thư viện GraphX là gì?

<p>Hợp nhất và tận dụng ưu điểm của các hệ thống xử lý song song và đồ thị (C)</p> Signup and view all the answers

Nhận định nào sau đây về RDD là sai?

<p>Không thể tạo ra một RDD mới bằng cách kết hợp các phép biến đổi (D)</p> Signup and view all the answers

Các quá trình trung gian giữa Map và Reduce trong mô hình MapReduce là gì?

<p>Shuffle và Sort (C)</p> Signup and view all the answers

Nếu tập dữ liệu trong Spark được chia thành n phân vùng, thì sẽ kích hoạt bao nhiêu tác vụ?

<p>n tác vụ (C)</p> Signup and view all the answers

Dữ liệu trong Spark chủ yếu được lưu trữ ở đâu?

<p>Bộ nhớ RAM (A)</p> Signup and view all the answers

Quá trình Reduce trong mô hình MapReduce liên quan đến hàm nào trong lập trình hàm?

<p>Hàm reduce (C)</p> Signup and view all the answers

Đặc điểm nào sau đây đúng về phép Biến đổi hẹp một RDD?

<p>Tất cả các phương án đã liệt kê (C)</p> Signup and view all the answers

Trong mô hình MapReduce, quá trình Shuffle và Sort diễn ra khi nào?

<p>Ngay trước quá trình Reduce (C)</p> Signup and view all the answers

DataFrame trong Spark có thể được tạo thành từ nguồn nào sau đây?

<p>Tất cả các phương án đã liệt kê (D)</p> Signup and view all the answers

Có những loại thao tác nào trên RDD?

<p>Hành động và Biến đổi (D)</p> Signup and view all the answers

DataFrame chỉ hoạt động trên dữ liệu nào?

<p>Có cấu trúc và bán cấu trúc (A)</p> Signup and view all the answers

Định nghĩa nào sau đây mô tả về Big Data?

<p>Là một tập hợp dữ liệu rất lớn mà các kỹ thuật điện toán thông thưởng không thể xử lý được (B)</p> Signup and view all the answers

Đầu ra của quá trình Reduce trong mô hình MapReduce là gì?

<p>Một giá trị tổng hợp (D)</p> Signup and view all the answers

Dữ liệu nào sau đây KHÔNG thuộc loại Phi cấu trúc?

<p>Tập tin JSON (B)</p> Signup and view all the answers

Apache Spark được viết chủ yếu trên ngôn ngữ lập trình nào?

<p>Scala (C)</p> Signup and view all the answers

Khả năng khôi phục của RDD chủ yếu dựa vào thông tin gì?

<p>Nhật ký những thay đổi so với RDD trước đó (C)</p> Signup and view all the answers

Trong GraphX, việc tách biệt giữa thuộc tỉnh và cấu trúc mang lại ưu điểm gì?

<p>Có thể tái sử dụng thông tin thuộc tỉnh và cấu trúc trên nhiều đồ thị con (C)</p> Signup and view all the answers

Dịch vụ nào sau đây KHÔNG tạo ra dữ liệu lớn?

<p>Dịch vụ bảo dưỡng bảo hành thiết bị điện gia dụng (B)</p> Signup and view all the answers

Theo cấu trúc, dữ liệu được phân thành những loại nào?

<p>Có cấu trúc và Phi cấu trúc (B)</p> Signup and view all the answers

Hai vấn đề nan giải của mô hình MapReduce là gì?

<p>Mô hình lập trình hạn chế và Hiệu quả kém với ứng dụng chia sẻ dữ liệu (B), Mô hình lập trình hạn chế và Chỉ giải quyết được những bài toán đơn giản (C)</p> Signup and view all the answers

Yếu tố nào KHÔNG phải là thành phần của một RDD?

<p>Vùng lưu trữ ưu tiên đối với các phân mảnh (D)</p> Signup and view all the answers

Sắp xếp thứ tự các giai đoạn tối ưu hóa bằng trình tối ưu hóa Catalyst?

<p>1&gt;2&gt;3&gt;4 (B)</p> Signup and view all the answers

Trong Spark, nhận định nào sau đây là SAI về Trình điều khiển (Driver)?

<p>Không thực hiện tính toán (C)</p> Signup and view all the answers

Mục đích chính của Spark SQL là gì?

<p>Hỗ trợ xử lý theo mô hình quan hệ cả trong chương trình Spark và các nguồn dữ liệu bên ngoài (D)</p> Signup and view all the answers

Hàm combine trong mô hình MapReduce chủ yếu được sử dụng để làm gì?

<p>Một dạng hàm reduce nhỏ, chạy trong bộ nhớ sau pha map (A)</p> Signup and view all the answers

Nguyên tắc nào được tuân theo khi thực hiện các thao tác biến đổi trên RDD?

<p>Trì hoãn tính toán (Lazy evaluation) (C)</p> Signup and view all the answers

Những đặc điểm nào sau đây là KHÔNG đúng về phép Biến đổi rộng một RDD?

<p>Quy trình tốn ít tài nguyên (A)</p> Signup and view all the answers

Cấu trúc dữ liệu đặc biệt nào sử dụng trong đồ thị xây dựng bằng GraphX?

<p>Đồ thị thuộc tỉnh (Property graph) (D)</p> Signup and view all the answers

Nhận định nào về Dataset là SAI?

<p>Chỉ có thể sử dụng trong ngôn ngữ Python (B)</p> Signup and view all the answers

Đặc điểm nào không nằm trong tính năng của Dataset?

<p>Cho phép thực hiện các thao tác đồng bộ (C)</p> Signup and view all the answers

Tốc độ của dữ liệu lớn được định nghĩa bởi từ nào?

<p>Tốc độ (B)</p> Signup and view all the answers

Nhiệm vụ chính của trình thực thi Tungsten là gì?

<p>Tất cả các phương án đã liệt kê (B)</p> Signup and view all the answers

Đô thị trong Spark được lưu trữ dưới dạng nào?

<p>DataFrame (B)</p> Signup and view all the answers

Ưu điểm của MapReduce là gì?

<p>Xử lý dữ liệu nhanh chóng, đơn giản (B)</p> Signup and view all the answers

Nếu người dùng cố gắng truy cập vào một cột dữ liệu không tồn tại trong bảng, điều gì sẽ xảy ra?

<p>Báo lỗi cả khi biên dịch và chạy chương trình (B)</p> Signup and view all the answers

Hạn chế của mô hình MapReduce là gì?

<p>Không hoạt động tốt với Bài toán thời gian thực và Dữ liệu phi cấu trúc (D)</p> Signup and view all the answers

Mô hình dữ liệu của Spark SQL là gì?

<p>Có thể lập mô hình dữ liệu từ nhiều nguồn và định dạng khác nhau (C)</p> Signup and view all the answers

Mục tiêu của Spark khi mở rộng mô hình MapReduce là gì?

<p>Hỗ trợ tốt hơn cho các thuật toán chứa thao tác lặp và ứng dụng lập trình tương tác (C)</p> Signup and view all the answers

Năm nào mô hình MapReduce được công bố?

<p>2004 (A)</p> Signup and view all the answers

Dữ liệu nào sau đây thuộc loại Bán cấu trúc?

<p>Tập tin XML (D)</p> Signup and view all the answers

Spark được khởi đầu ở đâu?

<p>AMPLab UC Berkeley (C)</p> Signup and view all the answers

Nhận định nào là ĐÚNG về trình tối ưu hóa Catalyst?

<p>Hỗ trợ tối ưu hóa dựa trên quy tắc và dựa trên chi phí (A)</p> Signup and view all the answers

Nhận định nào sau đây về DataFrame là ĐÚNG?

<p>Tương đương với một bảng trong cơ sở dữ liệu quan hệ (D)</p> Signup and view all the answers

Quy trình xử lý dữ liệu lớn gồm những bước nào?

<p>Thu thập, Tiền xử lý, Lưu trữ và Phân tích (D)</p> Signup and view all the answers

Flashcards

Thuật toán nào không được hỗ trợ bởi GraphX API?

Thuật toán PageRank, TriangleCount, Pregel đều được hỗ trợ bởi GraphX API, thuật toán Apriori không được hỗ trợ.

Đầu ra của quá trình Map

Đầu ra của quá trình Map là một tập các cặp khóa-giá trị, mỗi khóa kết hợp với một tập giá trị.

API xử lý dữ liệu luồng trực tuyến trong Spark

Structured Streaming API là API chính xử lý dữ liệu luồng trực tuyến hiện tại trong Spark.

Hàm partition trong MapReduce

Hàm partition thường là một hàm băm đơn giản để chia khóa và song song hóa reduce.

Signup and view all the flashcards

Cách tạo RDD?

RDD được tạo bằng các cách: đọc từ nguồn dữ liệu, biến đổi từ RDD khác, song song hóa bộ sưu tập và tạo ngẫu nhiên.

Signup and view all the flashcards

Thuật toán nào không được MLlib hỗ trợ?

MLlib hỗ trợ các thuật toán thống kê, mạng nơ-ron, hồi quy, nhưng không hỗ trợ lọc công tác.

Signup and view all the flashcards

Lợi ích của GraphX

GraphX tận dụng ưu điểm của xử lý song song và đồ thị, hợp nhất hiệu quả của các hệ thống.

Signup and view all the flashcards

Sự thật về RDD

RDD là đối tượng chỉ đọc, có thể tạo RDD mới từ các biến đổi, và được tạo bởi các phương thức song song hoặc đọc tập tin.

Signup and view all the flashcards

Quá trình trung gian giữa Map và Reduce

Các quá trình trung gian giữa Map và Reduce là: Shuffle, Partition, Combine, Sort.

Signup and view all the flashcards

Dataset xử lý loại dữ liệu nào?

Dataset xử lý hiệu quả dữ liệu có cấu trúc và bản cấu trúc.

Signup and view all the flashcards

Số lượng tác vụ trong Spark

Trong Spark, nếu tập dữ liệu được chia thành n phân vùng, thì một thao tác sẽ kích hoạt n tác vụ. Mỗi phân vùng sẽ được xử lý bởi một tác vụ riêng biệt.

Signup and view all the flashcards

Nơi lưu trữ dữ liệu trong Spark?

Spark lưu trữ dữ liệu chủ yếu trong bộ nhớ RAM, giúp tăng tốc độ xử lý. Đĩa cứng được sử dụng để lưu trữ dữ liệu vĩnh viễn.

Signup and view all the flashcards

Ý tưởng của quá trình Reduce

Quá trình Reduce trong Spark lấy ý tưởng từ hàm fold trong lập trình hàm. Hàm fold kết hợp các phần tử trong một danh sách thành một giá trị duy nhất.

Signup and view all the flashcards

Biến đổi hẹp trong Spark

Biến đổi hẹp trong Spark tạo mối quan hệ 1-1 giữa các phân mảnh cha và con. Đầu vào và đầu ra nằm trên cùng một phân mảnh, không cần di chuyển dữ liệu.

Signup and view all the flashcards

Khi nào Shuffle và Sort xảy ra?

Trong mô hình MapReduce, quá trình Shuffle và Sort diễn ra ngay trước quá trình Reduce. Dữ liệu được sắp xếp lại để các giá trị cùng khóa được đưa về cùng một máy.

Signup and view all the flashcards

Nguồn dữ liệu cho DataFrame

DataFrame trong Spark có thể được tạo thành từ nhiều nguồn dữ liệu khác nhau, bao gồm bảng trong Hive, tập tin dữ liệu có cấu trúc, và cơ sở dữ liệu bên ngoài.

Signup and view all the flashcards

Loại thao tác trên RDD

RDD trong Spark có hai loại thao tác chính: Biến đổi (transformation) và Hành động (action). Biến đổi tạo ra RDD mới từ RDD hiện tại, trong khi Hành động thực hiện tính toán trên RDD.

Signup and view all the flashcards

Loại dữ liệu DataFrame xử lý

DataFrame chỉ hoạt động trên dữ liệu có cấu trúc. Dữ liệu có cấu trúc có dạng bảng với các cột và hàng rõ ràng.

Signup and view all the flashcards

Big Data là gì?

Big Data là một tập hợp dữ liệu rất lớn mà các kỹ thuật điện toán thông thường không thể xử lý được một cách hiệu quả.

Signup and view all the flashcards

Đầu ra của Reduce

Đầu ra của quá trình Reduce trong mô hình MapReduce là một giá trị tổng hợp, được tạo thành từ việc kết hợp các giá trị cùng khóa.

Signup and view all the flashcards

Xử lý lỗi truy cập cột không tồn tại trong DataFrame

Khi người dùng cố gắng truy cập vào cột dữ liệu không tồn tại trong bảng, API sẽ xử lý như thế nào?

API của DataFrame sẽ đưa ra lỗi khi chạy chương trình. Nó sẽ không báo lỗi khi biên dịch, bởi vì lỗi này chỉ xảy ra khi chương trình chạy và cố truy cập vào cột không tồn tại.

Signup and view all the flashcards

Hạn chế của mô hình MapReduce

Hạn chế của mô hình MapReduce là nó không hoạt động tốt với các bài toán thời gian thực (realtime), các bài toán đệ quy và xử lý dữ liệu phi cấu trúc, và xử lý dữ liệu luồng.

Signup and view all the flashcards

Mô hình dữ liệu của Spark SQL

Spark SQL sử dụng một mô hình dữ liệu có khả năng lập mô hình dữ liệu từ nhiều nguồn và định dạng khác nhau, hỗ trợ các kiểu dữ liệu do người dùng định nghĩa và dựa trên mô hình dữ liệu lồng nhau của Hive.

Signup and view all the flashcards

Mục tiêu của Spark khi mở rộng mô hình MapReduce

Mục tiêu của Spark là mở rộng mô hình MapReduce để hỗ trợ tốt hơn cho các thuật toán lặp và ứng dụng phân tích dữ liệu đồ thị. Spark được thiết kế để xử lý tốt các thuật toán lặp đi lặp lại và phân tích dữ liệu đồ thị phức tạp.

Signup and view all the flashcards

Năm công bố mô hình MapReduce

Mô hình MapReduce được công bố vào năm 2004.

Signup and view all the flashcards

Ví dụ về dữ liệu bán cấu trúc

Tập tin XML là ví dụ về dữ liệu bán cấu trúc. Dữ liệu bán cấu trúc có một số cấu trúc, nhưng không phải là một cấu trúc nghiêm ngặt như cơ sở dữ liệu quan hệ.

Signup and view all the flashcards

Nguồn gốc của Spark

Spark bắt đầu từ AMPLab tại Đại học California, Berkeley.

Signup and view all the flashcards

Catalyst là gì?

Catalyst là trình tối ưu hóa của Spark SQL. Nó hỗ trợ tối ưu hóa dựa trên quy tắc và dựa trên chi phí, và được xây dựng dựa trên cấu trúc lập trình hướng đối tượng. Catalyst cho phép các nhà phát triển bên ngoài mở rộng chức năng.

Signup and view all the flashcards

DataFrame trong Spark

DataFrame là một đối tượng dữ liệu trong Spark tương đương với một bảng trong cơ sở dữ liệu quan hệ. DataFrame là một tập hợp dữ liệu được tổ chức thành các hàng được đặt tên, và có thể được truy cập bằng ngôn ngữ Scala, Java, Python, và R.

Signup and view all the flashcards

Các bước xử lý dữ liệu lớn

Quy trình xử lý dữ liệu lớn thường bao gồm các bước: Thu thập, Tiền xử lý, Lưu trữ và Phân tích.

Signup and view all the flashcards

Mục đích của Spark SQL là gì?

Spark SQL là công cụ hỗ trợ xử lý dữ liệu theo mô hình quan hệ, kết hợp các ưu điểm của both Spark và các hệ quản trị cơ sở dữ liệu (DBMS).

Signup and view all the flashcards

Hàm combine trong mô hình MapReduce làm nhiệm vụ gì?

Hàm combine là một dạng hàm reduce nhỏ, được thực thi trong bộ nhớ sau pha map. Nó giúp tối ưu hóa hiệu suất bằng cách giảm lưu lượng mạng và giảm khối lượng dữ liệu truyền đến pha reduce.

Signup and view all the flashcards

Các thao tác biến đổi trên RDD tuân theo nguyên tắc nào?

Các thao tác biến đổi trên RDD trong Spark tuân theo nguyên tắc trì hoãn tính toán, tức là các phép tính chỉ được thực hiện khi cần thiết.

Signup and view all the flashcards

Những đặc điểm nào KHÔNG đúng về phép Biến đổi rộng một RDD?

Phép Biến đổi rộng một RDD tạo mối quan hệ nhiều-nhiều giữa các phân mảnh cha và con. Yêu cầu đầu vào có thể nằm ở nhiều phân mảnh khác nhau.

Signup and view all the flashcards

Cấu trúc dữ liệu đặc biệt trong đồ thị xây dựng bằng GraphX là?

GraphX sử dụng cấu trúc bộ ba (Triplet) để lưu trữ đồ thị. Mỗi bộ ba bao gồm một đỉnh xuất phát, một đỉnh kết thúc và một cạnh kết nối hai đỉnh đó.

Signup and view all the flashcards

Nhận định nào về Dataset là SAI?

Dataset là một tập hợp dữ liệu bất biến được lưu trữ phân tán và có kiểu dữ liệu chặt chẽ. Được thêm vào từ phiên bản Spark 1.6, Dataset hỗ trợ cả Scala và Java.

Signup and view all the flashcards

Dataset KHÔNG có đặc điểm nào?

Dataset KHÔNG hỗ trợ lưu trữ phân tán dữ liệu đồ thị. Dataset được thiết kế để xử lý dữ liệu có cấu trúc và bản cấu trúc.

Signup and view all the flashcards

"Velocity" là đặc điểm gì của Dữ liệu lớn?

"Velocity" (tốc độ) là một trong những đặc điểm của Dữ liệu lớn. Nó thể hiện mức độ nhanh chóng mà dữ liệu được tạo ra, thu thập và xử lý.

Signup and view all the flashcards

Nhiệm vụ của trình thực thi Tungsten là gì?

Trình thực thi Tungsten trong Spark giúp tối ưu hóa hiệu suất xử lý bằng cách: a. Hỗ trợ quản lý bộ nhớ minh bạch, b. Cho phép thao tác trực tiếp với các đối tượng Java đã được tuần tự hóa, c. Tự động tạo mã Java bytecode.

Signup and view all the flashcards

Đô thị trong Spark được lưu trữ dưới dạng gì?

Đô thị trong Spark được lưu trữ dưới dạng GraphX, một API được thiết kế đặc biệt để xử lý dữ liệu đồ thị. GraphX bao gồm các lớp và phương thức để thao tác các đỉnh và cạnh trong đồ thị.

Signup and view all the flashcards

Dữ liệu nào sau đây KHÔNG thuộc loại Phi cấu trúc

Tập tin JSON, tài liệu, văn bản, video và dữ liệu từ cảm biến đều là dữ liệu phi cấu trúc. Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc hoặc schema xác định trước. Do đó, dữ liệu này không có bố cục tổ chức như bảng trong cơ sở dữ liệu.

Signup and view all the flashcards

Apache Spark được viết chủ yếu trên ngôn ngữ lập trình nào?

Apache Spark được viết chủ yếu bằng Scala, nhưng cũng hỗ trợ ngôn ngữ lập trình khác như Python, Java và R. Scala được sử dụng rộng rãi vì hiệu năng và sự tích hợp chặt chẽ với Spark.

Signup and view all the flashcards

Khả năng khôi phục của RDD chủ yếu dựa vào thông tin gì?

Khả năng phục hồi của RDD chủ yếu dựa vào tính bất biến của nó. Mỗi phép biến đổi trên RDD tạo ra một RDD mới, giữ lại RDD gốc. Vì vậy, thông tin nguồn gốc của RDD được lưu giữ, cho phép phục hồi dữ liệu bị lỗi.

Signup and view all the flashcards

Trong GraphX, việc tách biệt giữa thuộc tỉnh và cấu trúc mang lại ưu điểm gì?

Trong GraphX, việc tách biệt giữa thuộc tính và cấu trúc cho phép tái sử dụng thông tin cấu trúc trên nhiều đồ thị con. Điều này hiệu quả hơn vì bạn sẽ không phải lưu trữ cấu trúc đồ thị nhiều lần cho mỗi đồ thị con.

Signup and view all the flashcards

Dịch vụ nào sau đây KHÔNG tạo ra dữ liệu lớn?

Các dịch vụ như bảo dưỡng bảo hành thiết bị điện gia dụng, dịch vụ nghe nhạc/xem phim trực tuyến, dịch vụ mua bán trực tuyến và mạng xã hội đều tạo ra một lượng lớn dữ liệu. Dữ liệu này có thể bao gồm thông tin về người dùng, hành vi, hoạt động, v.v.

Signup and view all the flashcards

Theo cấu trúc, dữ liệu được phân thành những loại nào?

Theo cấu trúc, dữ liệu được phân thành hai loại chính: có cấu trúc và phi cấu trúc. Dữ liệu có cấu trúc là dữ liệu có schema xác định trước, ví dụ như dữ liệu trong cơ sở dữ liệu. Dữ liệu phi cấu trúc là dữ liệu không có schema xác định trước, ví dụ như văn bản, video, âm thanh.

Signup and view all the flashcards

Hai vấn đề nan giải của mô hình MapReduce là gì?

Hai vấn đề nan giải của mô hình MapReduce là mô hình lập trình hạn chế trong việc giải quyết một số bài toán phức tạp và hiệu quả kém với ứng dụng chia sẻ dữ liệu qua mạng. Mô hình MapReduce là mô hình xử lý song song được sử dụng rộng rãi trong xử lý dữ liệu lớn. Nó có khả năng xử lý lượng dữ liệu lớn nhưng có những giới hạn nhất định.

Signup and view all the flashcards

Yếu tố nào KHÔNG phải là thành phần của một RDD?

RDD là một tập hợp các phân mảnh dữ liệu, được lưu trữ và xử lý song song trên một cụm máy. RDD là tập hợp dữ liệu không thay đổi, mỗi biến đổi sẽ tạo ra một RDD mới.

Signup and view all the flashcards

Sắp xếp thứ tự các giai đoạn tối ưu hóa bằng trình tối ưu hóa Catalyst

Thứ tự các giai đoạn tối ưu hóa bằng trình tối ưu hóa Catalyst là: phân tích kế hoạch luận lý để tìm ra các tham chiếu, tối ưu hóa kế hoạch luận lý, lập kế hoạch vật lý và cuối cùng là biên dịch các phần của truy vấn sang Java bytecode. Catalyst là trình tối ưu hóa truy vấn của Spark, giúp tối ưu hóa hiệu suất bằng cách sắp xếp các bước thực thi.

Signup and view all the flashcards

Trong Spark, nhận định nào sau đây là SAI về Trình điều khiển (Driver)?

Trong Spark, Trình điều khiển (Driver) là một nút duy nhất trong cụm máy, đóng vai trò quản lý và điều phối các tác vụ trên các nút máy tính khác. Trình điều khiển không trực tiếp thực hiện tính toán, mà điều phối và quản lý các tác vụ của cụm máy.

Signup and view all the flashcards

Study Notes

GraphX API

  • GraphX API không có thuật toán Apriori
  • GraphX API có thuật toán PageRank và TriangleCount

MapReduce

  • Đầu ra của quá trình Map là tập các cặp khóa-giá trị mới
  • Hàm partition trong MapReduce chia khoảng các khóa để song song hóa tác vụ reduce.

Spark API

  • API xử lý dữ liệu luồng trực tuyến trong Spark là Spark Streaming API
  • Spark Streaming API và Structured Streaming API xử lý dữ liệu luồng trong Spark

RDD

  • Có thể tạo RDD bằng cách đọc dữ liệu từ nguồn bên ngoài hoặc biến đổi từ RDD khác.
  • RDD là đối tượng chỉ đọc
  • RDD có khả năng chịu lỗi tốt

MLlib

  • MLlib không hỗ trợ thuật toán lọc công tác

Lợi ích của GraphX

  • GraphX tận dụng ưu điểm của trình tối ưu Catalyst.
  • GraphX giảm giao tiếp giữa các hệ thống

RDD không phải

  • RDD không thể tạo mới bằng cách kết hợp các phép biến đổi

MapReduce quá trình

  • Quá trình Shuffle và Sort diễn ra trước quá trình Reduce trong MapReduce.

Spark.ml API

  • Spark.ml API được khuyến khích sử dụng
  • Spark.ml API là API máy học chính trong Spark từ phiên bản 1.3

RDD viết tắt

  • RDD là viết tắt của Resilient Distributed Dataset

Dữ liệu lớn

  • Ba đặc điểm cơ bản nhất của dữ liệu lớn là Volume, Variety, Velocity
  • Dữ liệu lớn có thể là cấu trúc, phi cấu trúc hoặc bán cấu trúc

Tungsten

  • Nhiệm vụ của trình thực thi Tungsten là hỗ trợ quản lý bộ nhớ minh bạch.

Spark SQL

  • Spark SQL tích hợp chặt chẽ quan hệ và thủ tục trong quá trình xử lý dữ liệu.

DataFrame

  • DataFrame tương đương với một bảng trong cơ sở dữ liệu quan hệ.

MapReduce hai vấn đề lớn

  • Hai vấn đề nan giải của MapReduce là hạn chế về mô hình lập trình và hiệu quả kém với ứng dụng chia sẻ dữ liệu.

Spark Catalyst

  • Dữ liệu được tối ưu hóa bằng trình tối ưu hóa Catalyst.
  • Quy trình tối ưu hóa bao gồm lập kế hoạch vật lý, phân tích kế hoạch luận lý, và biên dịch sang bytecode Java.

Trình điều khiển (Driver)

  • Trình điều khiển (Driver) trong Spark không thực hiện tính toán,
  • Trình điều khiển quản lý các tác vụ và tài nguyên cho toàn bộ cụm Spark.

RDD thuộc tính

  • RDD chứa dữ liệu, nhưng không lưu trữ dữ liệu một cách trực tiếp.
  • Nó chứa các thông tin về cách tính toán dữ liệu.

RDD lưu trữ

  • RDD lưu trữ dữ liệu dưới dạng phân tán và lưu trong bộ nhớ.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Khám phá các khái niệm và API liên quan đến Spark, bao gồm GraphX, RDD và MapReduce. Quiz này sẽ giúp bạn hiểu rõ cách Spark xử lý dữ liệu và các thuật toán có sẵn trong các API này.

More Like This

Use Quizgecko on...
Browser
Browser