Phương pháp phân tích trong khoa học dữ liệu

IrresistibleOlive avatar
IrresistibleOlive
·
·
Download

Start Quiz

Study Flashcards

42 Questions

HITS tìm ra một tập nhỏ các hubs và các trang tin cậy bằng cách nào?

Sử dụng một thuật toán lặp để tính toán điểm số cho các trang

Trong các độ đo thứ hạng đỉnh dưới đây, độ đo nào chỉ dựa trên các đỉnh liền kề của đỉnh đang xét?

Độ trung tâm lân cận (Closeness centrality)

Có bao nhiêu đường đi ngắn nhất từ A tới K trong đồ thị sau?

4

Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài là bao nhiêu?

8

Sau bao nhiêu bước ngẫu nhiên, ta sẽ di chuyển đến trạng thái 3 từ trạng thái khác?

0.350

Nếu độ sáng của một ảnh đa mức xám là 255, ảnh có đặc điểm gì?

Ảnh đen toàn bộ

Trong không gian màu nào thành phần màu và độ sáng không được mã hóa tách biệt trong các kênh?

Lab

Cần bao nhiêu bytes để lưu trữ mỗi điểm ảnh trong ảnh đa mức xám 256 mức không nén?

1

Mục đích của cân bằng histogram là tăng cường độ tương phản của ảnh.

True

Một đối tượng cho phép giải thích cho các biểu tượng, màu sắc và các hình dạng mẫu được sử dụng trong các biểu đồ gọi là gì?

Chú thích (Legend)

Nhiệt độ thuộc loại dữ liệu nào trong các loại sau đây?

Dữ liệu liên tục sắp xếp được

Những đặc trưng nào về dữ liệu có thể được trực quan hoá trong các biểu đồ scatterplot?

Phân tán (Dispersion)

Phát biểu nào đúng nhất về pie chart?

Pie chart được sử dụng khi muốn so sánh các hạng mục dữ liệu

Thông tin nào chúng ta có thể rút ra khi quan sát biểu đồ box plot?

Quarterile dưới/trên (Lower/upper quartile)

Thư viện nào cần được sử dụng nếu muốn trực quan hoá dữ liệu với Python?

Pyplot, pandas, seaborn

Thư viện nào của Python thường được sử dụng để trực quan hoá dữ liệu?

SciPy, NumPy, Matplotlib và Pandas, ...

Trong các phát biểu sau, đâu là phát biểu đúng nhất về việc lựa chọn kĩ thuật trực quan hoá phù hợp cho một loại dữ liệu?

Thu thập dữ liệu, Tổ chức dữ liệu và phân tích dữ liệu

Đâu là kết hợp đúng nhất về hàm (function) và tham số (parameter) để tạo ra 1 biểu đồ box plot trong Matplotlib?

Function = boxplot, và Parameter = type với giá trị = 'plot'

Đoạn code sau đây thể hiện đồ thị nào? question.plot(kind='barh')

Biểu đồ thanh ngang (Bar Graph)

Thực hiện phân tích thăm dò dữ liệu như thế nào?Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu. Xem xét phân bố của dữ liệu. Xem xét các mối liên hệ giữa các biến trong dữ liệu. Xem xét đặc trưng cấu trúc của dữ liệu

xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu

Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?

EDA quan tâm tới cấu trúc, các ngoại lệ, và các mô hình từ dữ liệu

Với biểu đồ dưới đây thì phát biểu nào sai?

Có 30 cây có chiều cao là 150.

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?

Cách gộp các cụm.

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?

Cách gộp các cụm.

Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?

SciPy, NumPy, Matplotlib and Pandas

Thực hiện phân tích thăm dò dữ liệu như thế nào?

Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu

Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?

EDA quan tâm tới cấu trúc, các ngoại lệ, và các mô hình từ dữ liệu

Với biểu đồ dưới đây thì phát biểu nào sai?

Có ít hơn hoặc bằng 50 cây có chiều cao là 300.

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?

Cách tính độ đo khoảng cách.

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?

Cấu hình số cụm ban đầu K.

Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?

SciPy, NumPy, Matplotlib and Pandas

Khả năng tổng quát hoá và Quá khớp là hai mặt đối lập của các mô hình học máy

False

Giả sử bạn muốn sử dụng một phương pháp học máy để phân tích tri thức ẩn bên trong một tập dữ liệu, nhưng không có ý niệm gì về những tri thức đó. Bạn có thể đưa về bài toán nào sau đây là phù hợp nhất?

Học không giám sát (Unsupervised learning)

Overfitting nói đến tình huống nào?

Một phương pháp tạo ra tỉ lệ lỗi bé trên tập huấn luyện, nhưng có tỉ lệ lỗi lớn trên dữ liệu trong tương lai

Việc hiểu bài toán thực tế (Business understanding) có phải là bước quan trọng trong quy trình Khoa học dữ liệu hướng sản phẩm?

Đúng, tất nhiên rồi

Khoa học dữ liệu là một lĩnh vực liên ngành và vượt ra ngoài phạm vi của Khoa học máy tính. Đúng hay sai?

Đúng

Đánh giá (Evaluation) có phải là một bước cốt lõi trong quy trình Khoa học dữ liệu, dù hướng sản phẩm hay hướng khám phá tri thức, hay không?

Đúng

Trong Khoa học dữ liệu, điểm khác nhau chính giữa làm sạch và tiền xử lý dữ liệu là gì?

Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu thiếu

Phát biểu sau đây về The curse of dimensionality: 'Khi số chiều dữ liệu tăng, sự khó khăn trong phân tích dữ liệu sẽ không bị ảnh hưởng nhiều' là đúng hay sai?

False

Phát biểu nào sau đây nói đúng về 'Variability' trong kỷ nguyên của Dữ liệu lớn?

Việc dữ liệu thay đổi nhiều

'Vagueness' là một thách thức trong kỷ nguyên của Dữ liệu lớn và nó đang nói về việc dữ liệu rất khó hiểu. Đúng hay sai?

False

Match các thuật ngữ với ý nghĩa đúng:

Velocity = Tốc độ đến liên tục của dữ liệu trong môi trường luồng Veracity = Đặc trưng thiếu chắc chắn cao, do nhiễu, lỗi, mất mát, sai lệch,...trong dữ liệu Variability = Việc dữ liệu thay đổi nhiều

Study Notes

Phương pháp "Analytic approach" trong quy trình xây dựng sản phẩm khoa học dữ liệu

  • "Analytic approach" là bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu
  • Bước "Analytic approach" liên quan đến việc biến đổi một bài toán thực tế thành một bài toán khoa học dữ liệu

Hiểu bài toán thực tế (Business understanding) trong khoa học dữ liệu

  • Hiểu bài toán thực tế (Business understanding) là bước quan trọng trong quy trình khoa học dữ liệu hướng sản phẩm
  • Bước này giúp chúng ta hiểu rõ về nhu cầu thực tế cần giải quyết

Các giai đoạn trong quy trình khoa học dữ liệu

  • Giai đoạn hiểu/trực quan hoá dữ liệu cần được tiến hành sau bước mô hình hoá
  • Khoa học dữ liệu là lĩnh vực liên ngành, liên quan tới nhiều lĩnh vực khác như khoa học máy tính, toán học, thống kê, và tri thức miền ứng dụng
  • Đánh giá (Evaluation) là bước cốt lõi trong quy trình khoa học dữ liệu, bao gồm phân tích, kiểm định, và so sánh các kết quả từ các kịch bản khác nhau

Định nghĩa các khái niệm trong khoa học dữ liệu

  • Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu thiếu
  • Phán đoán (Prediction) là một trong những nhiệm vụ chính của khoa học dữ liệu

Các thách thức của dữ liệu lớn

  • "Vagueness" nói đến mức độ khó hiểu của dữ liệu

  • "Variability" nói đến tính thay đổi mạnh của dữ liệu

  • "Velocity" nói đến tốc độ đến liên tục và nhanh của dữ liệu

  • "Veracity" nói đến độ không chắc chắn cao của dữ liệu do có nhiễu, lỗi, sai lệch### Tóm tắt nội dung quan trọng

  • Tiến trình MapReduce chịu trách nhiệm kết hợp kết quả từ các tác vụ Map(), Reduce(), Map(), Sort()

  • Cơ chế tổ chức dữ liệu của Datanode trong HDFS:

    • Dữ liệu được chia thành các chunk (tệp tin) và lưu trữ trên hệ thống tệp tin cục bộ của Datanode
    • Các chunk được lưu trữ tin cậy trên Datanode theo cơ chế RAID
  • Cơ chế nhân bản dữ liệu trong HDFS:

    • Namenode quyết định vị trí các bản sao của các chunk trên Datanode
    • Datanode quyết định vị trí lưu trữ các bản sao của các chunk tại các Datanode khác
  • HDFS được lập trình bằng ngôn ngữ Java

  • Tác vụ Mapper có trách nhiệm xử lý một hoặc vài chunk dữ liệu và trả ra kết quả trung gian

  • Thành phần JobTracker có trách nhiệm thực thi các tác vụ được giao bởi Jobtracker

  • HDFS không phù hợp với các ứng dụng yêu cầu quyền truy cập dữ liệu có độ trễ thấp và lưu trữ các tệp tin kích thước nhỏ

  • MapReduce xem dữ liệu dạng các cặp key-value, các ứng dụng triển khai các giao diện Mapper và Reducer để cài đặt phương thức map() và reduce()

  • Hive là công cụ truy vấn hỗ trợ SQL để truy vấn dữ liệu trên Hadoop, không phải cơ sở dữ liệu quan hệ

  • Trang web tin cậy (authority page) về một chủ đề là trang được trỏ tới từ nhiều trang tin cậy

  • Chuỗi Markov ergodic là chuỗi cho phép ta có thể đi dần dần từ bất kỳ trạng thái nào đến bất kỳ trạng thái khác với xác suất dương

  • Thuật toán PageRank xếp hạng các trang web dựa trên tỉ lệ ghé thăm dài hạn, tính từ ma trận xác suất chuyển

  • Thuật toán HITS tìm ra một tập nhỏ các hub và các trang tin cậy, sử dụng thuật toán lặp để tính toán điểm số

  • Độ trung tâm lân cận chỉ dựa trên các đỉnh liền kề của đỉnh đang xét

  • Có 4 đường đi ngắn nhất từ A tới K trong đồ thị cho trước

  • Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài 8

Phương pháp phân tích là một bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu, giúp biến đổi một bài toán thực tế về một bài toán khoa học dữ liệu. Cùng kiểm tra kiến thức về phương pháp phân tích trong khoa học dữ liệu!

Make Your Own Quizzes and Flashcards

Convert your notes into interactive study material.

Get started for free

More Quizzes Like This

Structured vs Unstructured Data
10 questions
Data Analytics Concepts Quiz
10 questions
Use Quizgecko on...
Browser
Browser