Phương pháp phân tích trong khoa học dữ liệu

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

HITS tìm ra một tập nhỏ các hubs và các trang tin cậy bằng cách nào?

Sử dụng một thuật toán lặp để tính toán phân bố xác suất trạng thái dừng

Sử dụng một thuật toán lặp để tính toán tỉ lệ ghé thăm dài hạn

Sử dụng một thuật toán lặp để tính toán điểm số cho các trang (correct)

Trong các độ đo thứ hạng đỉnh dưới đây, độ đo nào chỉ dựa trên các đỉnh liền kề của đỉnh đang xét?

Độ trung tâm trung gian (Betweenness centrality)

Độ trung tâm lân cận (Closeness centrality) (correct)

Độ quan trọng theo bậc (Degree prestige)

Độ quan trọng lân cận (Proximity prestige)

Có bao nhiêu đường đi ngắn nhất từ A tới K trong đồ thị sau?

4 (correct)

Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài là bao nhiêu?

8 Signup and view all the answers

Sau bao nhiêu bước ngẫu nhiên, ta sẽ di chuyển đến trạng thái 3 từ trạng thái khác?

0.350 Signup and view all the answers

Nếu độ sáng của một ảnh đa mức xám là 255, ảnh có đặc điểm gì?

Ảnh đen toàn bộ Signup and view all the answers

Trong không gian màu nào thành phần màu và độ sáng không được mã hóa tách biệt trong các kênh?

Lab Signup and view all the answers

Cần bao nhiêu bytes để lưu trữ mỗi điểm ảnh trong ảnh đa mức xám 256 mức không nén?

1 Signup and view all the answers

Mục đích của cân bằng histogram là tăng cường độ tương phản của ảnh.

True Signup and view all the answers

Một đối tượng cho phép giải thích cho các biểu tượng, màu sắc và các hình dạng mẫu được sử dụng trong các biểu đồ gọi là gì?

Chú thích (Legend) Signup and view all the answers

Nhiệt độ thuộc loại dữ liệu nào trong các loại sau đây?

Dữ liệu liên tục sắp xếp được Signup and view all the answers

Những đặc trưng nào về dữ liệu có thể được trực quan hoá trong các biểu đồ scatterplot?

Phân tán (Dispersion) Signup and view all the answers

Phát biểu nào đúng nhất về pie chart?

Pie chart được sử dụng khi muốn so sánh các hạng mục dữ liệu Signup and view all the answers

Thông tin nào chúng ta có thể rút ra khi quan sát biểu đồ box plot?

Quarterile dưới/trên (Lower/upper quartile) Signup and view all the answers

Thư viện nào cần được sử dụng nếu muốn trực quan hoá dữ liệu với Python?

Pyplot, pandas, seaborn Signup and view all the answers

Thư viện nào của Python thường được sử dụng để trực quan hoá dữ liệu?

SciPy, NumPy, Matplotlib và Pandas, ... Signup and view all the answers

Trong các phát biểu sau, đâu là phát biểu đúng nhất về việc lựa chọn kĩ thuật trực quan hoá phù hợp cho một loại dữ liệu?

Thu thập dữ liệu, Tổ chức dữ liệu và phân tích dữ liệu Signup and view all the answers

Đâu là kết hợp đúng nhất về hàm (function) và tham số (parameter) để tạo ra 1 biểu đồ box plot trong Matplotlib?

Function = boxplot, và Parameter = type với giá trị = 'plot' Signup and view all the answers

Đoạn code sau đây thể hiện đồ thị nào? question.plot(kind='barh')

Biểu đồ thanh ngang (Bar Graph) Signup and view all the answers

Thực hiện phân tích thăm dò dữ liệu như thế nào?Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu. Xem xét phân bố của dữ liệu. Xem xét các mối liên hệ giữa các biến trong dữ liệu. Xem xét đặc trưng cấu trúc của dữ liệu

xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu Signup and view all the answers

Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?

EDA quan tâm tới cấu trúc, các ngoại lệ, và các mô hình từ dữ liệu Signup and view all the answers

Với biểu đồ dưới đây thì phát biểu nào sai?

Có 30 cây có chiều cao là 150. Signup and view all the answers

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?

Cách gộp các cụm. Signup and view all the answers

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?

Cách gộp các cụm. Signup and view all the answers

Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?

SciPy, NumPy, Matplotlib and Pandas Signup and view all the answers

Thực hiện phân tích thăm dò dữ liệu như thế nào?

Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu Signup and view all the answers

Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?

EDA quan tâm tới cấu trúc, các ngoại lệ, và các mô hình từ dữ liệu Signup and view all the answers

Với biểu đồ dưới đây thì phát biểu nào sai?

Có ít hơn hoặc bằng 50 cây có chiều cao là 300. Signup and view all the answers

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?

Cách tính độ đo khoảng cách. Signup and view all the answers

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?

Cấu hình số cụm ban đầu K. Signup and view all the answers

Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?

SciPy, NumPy, Matplotlib and Pandas Signup and view all the answers

Khả năng tổng quát hoá và Quá khớp là hai mặt đối lập của các mô hình học máy

False Signup and view all the answers

Giả sử bạn muốn sử dụng một phương pháp học máy để phân tích tri thức ẩn bên trong một tập dữ liệu, nhưng không có ý niệm gì về những tri thức đó. Bạn có thể đưa về bài toán nào sau đây là phù hợp nhất?

Học không giám sát (Unsupervised learning) Signup and view all the answers

Overfitting nói đến tình huống nào?

Một phương pháp tạo ra tỉ lệ lỗi bé trên tập huấn luyện, nhưng có tỉ lệ lỗi lớn trên dữ liệu trong tương lai Signup and view all the answers

Việc hiểu bài toán thực tế (Business understanding) có phải là bước quan trọng trong quy trình Khoa học dữ liệu hướng sản phẩm?

Đúng, tất nhiên rồi Signup and view all the answers

Khoa học dữ liệu là một lĩnh vực liên ngành và vượt ra ngoài phạm vi của Khoa học máy tính. Đúng hay sai?

Đúng Signup and view all the answers

Đánh giá (Evaluation) có phải là một bước cốt lõi trong quy trình Khoa học dữ liệu, dù hướng sản phẩm hay hướng khám phá tri thức, hay không?

Đúng Signup and view all the answers

Trong Khoa học dữ liệu, điểm khác nhau chính giữa làm sạch và tiền xử lý dữ liệu là gì?

Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu thiếu Signup and view all the answers

Phát biểu sau đây về The curse of dimensionality: 'Khi số chiều dữ liệu tăng, sự khó khăn trong phân tích dữ liệu sẽ không bị ảnh hưởng nhiều' là đúng hay sai?

False Signup and view all the answers

Phát biểu nào sau đây nói đúng về 'Variability' trong kỷ nguyên của Dữ liệu lớn?

Việc dữ liệu thay đổi nhiều Signup and view all the answers

'Vagueness' là một thách thức trong kỷ nguyên của Dữ liệu lớn và nó đang nói về việc dữ liệu rất khó hiểu. Đúng hay sai?

False Signup and view all the answers

Match các thuật ngữ với ý nghĩa đúng:

Velocity = Tốc độ đến liên tục của dữ liệu trong môi trường luồng Veracity = Đặc trưng thiếu chắc chắn cao, do nhiễu, lỗi, mất mát, sai lệch,...trong dữ liệu Variability = Việc dữ liệu thay đổi nhiều Signup and view all the answers

Study Notes

Phương pháp "Analytic approach" trong quy trình xây dựng sản phẩm khoa học dữ liệu

"Analytic approach" là bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu
Bước "Analytic approach" liên quan đến việc biến đổi một bài toán thực tế thành một bài toán khoa học dữ liệu

Hiểu bài toán thực tế (Business understanding) trong khoa học dữ liệu

Hiểu bài toán thực tế (Business understanding) là bước quan trọng trong quy trình khoa học dữ liệu hướng sản phẩm
Bước này giúp chúng ta hiểu rõ về nhu cầu thực tế cần giải quyết

Các giai đoạn trong quy trình khoa học dữ liệu

Giai đoạn hiểu/trực quan hoá dữ liệu cần được tiến hành sau bước mô hình hoá
Khoa học dữ liệu là lĩnh vực liên ngành, liên quan tới nhiều lĩnh vực khác như khoa học máy tính, toán học, thống kê, và tri thức miền ứng dụng
Đánh giá (Evaluation) là bước cốt lõi trong quy trình khoa học dữ liệu, bao gồm phân tích, kiểm định, và so sánh các kết quả từ các kịch bản khác nhau

Định nghĩa các khái niệm trong khoa học dữ liệu

Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu thiếu
Phán đoán (Prediction) là một trong những nhiệm vụ chính của khoa học dữ liệu

Các thách thức của dữ liệu lớn

"Vagueness" nói đến mức độ khó hiểu của dữ liệu
"Variability" nói đến tính thay đổi mạnh của dữ liệu
"Velocity" nói đến tốc độ đến liên tục và nhanh của dữ liệu
"Veracity" nói đến độ không chắc chắn cao của dữ liệu do có nhiễu, lỗi, sai lệch### Tóm tắt nội dung quan trọng
Tiến trình MapReduce chịu trách nhiệm kết hợp kết quả từ các tác vụ Map(), Reduce(), Map(), Sort()
Cơ chế tổ chức dữ liệu của Datanode trong HDFS:
- Dữ liệu được chia thành các chunk (tệp tin) và lưu trữ trên hệ thống tệp tin cục bộ của Datanode
- Các chunk được lưu trữ tin cậy trên Datanode theo cơ chế RAID
Cơ chế nhân bản dữ liệu trong HDFS:
- Namenode quyết định vị trí các bản sao của các chunk trên Datanode
- Datanode quyết định vị trí lưu trữ các bản sao của các chunk tại các Datanode khác
HDFS được lập trình bằng ngôn ngữ Java
Tác vụ Mapper có trách nhiệm xử lý một hoặc vài chunk dữ liệu và trả ra kết quả trung gian
Thành phần JobTracker có trách nhiệm thực thi các tác vụ được giao bởi Jobtracker
HDFS không phù hợp với các ứng dụng yêu cầu quyền truy cập dữ liệu có độ trễ thấp và lưu trữ các tệp tin kích thước nhỏ
MapReduce xem dữ liệu dạng các cặp key-value, các ứng dụng triển khai các giao diện Mapper và Reducer để cài đặt phương thức map() và reduce()
Hive là công cụ truy vấn hỗ trợ SQL để truy vấn dữ liệu trên Hadoop, không phải cơ sở dữ liệu quan hệ
Trang web tin cậy (authority page) về một chủ đề là trang được trỏ tới từ nhiều trang tin cậy
Chuỗi Markov ergodic là chuỗi cho phép ta có thể đi dần dần từ bất kỳ trạng thái nào đến bất kỳ trạng thái khác với xác suất dương
Thuật toán PageRank xếp hạng các trang web dựa trên tỉ lệ ghé thăm dài hạn, tính từ ma trận xác suất chuyển
Thuật toán HITS tìm ra một tập nhỏ các hub và các trang tin cậy, sử dụng thuật toán lặp để tính toán điểm số
Độ trung tâm lân cận chỉ dựa trên các đỉnh liền kề của đỉnh đang xét
Có 4 đường đi ngắn nhất từ A tới K trong đồ thị cho trước
Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài 8

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Description

Phương pháp phân tích là một bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu, giúp biến đổi một bài toán thực tế về một bài toán khoa học dữ liệu. Cùng kiểm tra kiến thức về phương pháp phân tích trong khoa học dữ liệu!

Phương pháp phân tích trong khoa học dữ liệu

Choose a study mode

Podcast

Questions and Answers

HITS tìm ra một tập nhỏ các hubs và các trang tin cậy bằng cách nào?

Trong các độ đo thứ hạng đỉnh dưới đây, độ đo nào chỉ dựa trên các đỉnh liền kề của đỉnh đang xét?

Có bao nhiêu đường đi ngắn nhất từ A tới K trong đồ thị sau?

Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài là bao nhiêu?

Sau bao nhiêu bước ngẫu nhiên, ta sẽ di chuyển đến trạng thái 3 từ trạng thái khác?

Nếu độ sáng của một ảnh đa mức xám là 255, ảnh có đặc điểm gì?

Trong không gian màu nào thành phần màu và độ sáng không được mã hóa tách biệt trong các kênh?

Cần bao nhiêu bytes để lưu trữ mỗi điểm ảnh trong ảnh đa mức xám 256 mức không nén?

Mục đích của cân bằng histogram là tăng cường độ tương phản của ảnh.

Một đối tượng cho phép giải thích cho các biểu tượng, màu sắc và các hình dạng mẫu được sử dụng trong các biểu đồ gọi là gì?

Nhiệt độ thuộc loại dữ liệu nào trong các loại sau đây?

Những đặc trưng nào về dữ liệu có thể được trực quan hoá trong các biểu đồ scatterplot?

Phát biểu nào đúng nhất về pie chart?

Thông tin nào chúng ta có thể rút ra khi quan sát biểu đồ box plot?

Thư viện nào cần được sử dụng nếu muốn trực quan hoá dữ liệu với Python?

Thư viện nào của Python thường được sử dụng để trực quan hoá dữ liệu?

Trong các phát biểu sau, đâu là phát biểu đúng nhất về việc lựa chọn kĩ thuật trực quan hoá phù hợp cho một loại dữ liệu?

Đâu là kết hợp đúng nhất về hàm (function) và tham số (parameter) để tạo ra 1 biểu đồ box plot trong Matplotlib?

Đoạn code sau đây thể hiện đồ thị nào? question.plot(kind='barh')

Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?

Với biểu đồ dưới đây thì phát biểu nào sai?

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?

Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?

Thực hiện phân tích thăm dò dữ liệu như thế nào?

Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?

Với biểu đồ dưới đây thì phát biểu nào sai?

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?

Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?

Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?

Khả năng tổng quát hoá và Quá khớp là hai mặt đối lập của các mô hình học máy

Giả sử bạn muốn sử dụng một phương pháp học máy để phân tích tri thức ẩn bên trong một tập dữ liệu, nhưng không có ý niệm gì về những tri thức đó. Bạn có thể đưa về bài toán nào sau đây là phù hợp nhất?

Overfitting nói đến tình huống nào?

Việc hiểu bài toán thực tế (Business understanding) có phải là bước quan trọng trong quy trình Khoa học dữ liệu hướng sản phẩm?

Khoa học dữ liệu là một lĩnh vực liên ngành và vượt ra ngoài phạm vi của Khoa học máy tính. Đúng hay sai?

Đánh giá (Evaluation) có phải là một bước cốt lõi trong quy trình Khoa học dữ liệu, dù hướng sản phẩm hay hướng khám phá tri thức, hay không?

Trong Khoa học dữ liệu, điểm khác nhau chính giữa làm sạch và tiền xử lý dữ liệu là gì?

Phát biểu sau đây về The curse of dimensionality: 'Khi số chiều dữ liệu tăng, sự khó khăn trong phân tích dữ liệu sẽ không bị ảnh hưởng nhiều' là đúng hay sai?

Phát biểu nào sau đây nói đúng về 'Variability' trong kỷ nguyên của Dữ liệu lớn?

'Vagueness' là một thách thức trong kỷ nguyên của Dữ liệu lớn và nó đang nói về việc dữ liệu rất khó hiểu. Đúng hay sai?

Match các thuật ngữ với ý nghĩa đúng:

Study Notes

Phương pháp "Analytic approach" trong quy trình xây dựng sản phẩm khoa học dữ liệu

Hiểu bài toán thực tế (Business understanding) trong khoa học dữ liệu

Các giai đoạn trong quy trình khoa học dữ liệu

Định nghĩa các khái niệm trong khoa học dữ liệu

Các thách thức của dữ liệu lớn

Studying That Suits You

Related Documents

Description

More Like This

Understanding Data Science and Machine Learning

Data Analytics with Python and Machine Learning

Business Analytics and Machine Learning Intro