Podcast
Questions and Answers
HITS tìm ra một tập nhỏ các hubs và các trang tin cậy bằng cách nào?
HITS tìm ra một tập nhỏ các hubs và các trang tin cậy bằng cách nào?
Trong các độ đo thứ hạng đỉnh dưới đây, độ đo nào chỉ dựa trên các đỉnh liền kề của đỉnh đang xét?
Trong các độ đo thứ hạng đỉnh dưới đây, độ đo nào chỉ dựa trên các đỉnh liền kề của đỉnh đang xét?
Có bao nhiêu đường đi ngắn nhất từ A tới K trong đồ thị sau?
Có bao nhiêu đường đi ngắn nhất từ A tới K trong đồ thị sau?
Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài là bao nhiêu?
Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài là bao nhiêu?
Signup and view all the answers
Sau bao nhiêu bước ngẫu nhiên, ta sẽ di chuyển đến trạng thái 3 từ trạng thái khác?
Sau bao nhiêu bước ngẫu nhiên, ta sẽ di chuyển đến trạng thái 3 từ trạng thái khác?
Signup and view all the answers
Nếu độ sáng của một ảnh đa mức xám là 255, ảnh có đặc điểm gì?
Nếu độ sáng của một ảnh đa mức xám là 255, ảnh có đặc điểm gì?
Signup and view all the answers
Trong không gian màu nào thành phần màu và độ sáng không được mã hóa tách biệt trong các kênh?
Trong không gian màu nào thành phần màu và độ sáng không được mã hóa tách biệt trong các kênh?
Signup and view all the answers
Cần bao nhiêu bytes để lưu trữ mỗi điểm ảnh trong ảnh đa mức xám 256 mức không nén?
Cần bao nhiêu bytes để lưu trữ mỗi điểm ảnh trong ảnh đa mức xám 256 mức không nén?
Signup and view all the answers
Mục đích của cân bằng histogram là tăng cường độ tương phản của ảnh.
Mục đích của cân bằng histogram là tăng cường độ tương phản của ảnh.
Signup and view all the answers
Một đối tượng cho phép giải thích cho các biểu tượng, màu sắc và các hình dạng mẫu được sử dụng trong các biểu đồ gọi là gì?
Một đối tượng cho phép giải thích cho các biểu tượng, màu sắc và các hình dạng mẫu được sử dụng trong các biểu đồ gọi là gì?
Signup and view all the answers
Nhiệt độ thuộc loại dữ liệu nào trong các loại sau đây?
Nhiệt độ thuộc loại dữ liệu nào trong các loại sau đây?
Signup and view all the answers
Những đặc trưng nào về dữ liệu có thể được trực quan hoá trong các biểu đồ scatterplot?
Những đặc trưng nào về dữ liệu có thể được trực quan hoá trong các biểu đồ scatterplot?
Signup and view all the answers
Phát biểu nào đúng nhất về pie chart?
Phát biểu nào đúng nhất về pie chart?
Signup and view all the answers
Thông tin nào chúng ta có thể rút ra khi quan sát biểu đồ box plot?
Thông tin nào chúng ta có thể rút ra khi quan sát biểu đồ box plot?
Signup and view all the answers
Thư viện nào cần được sử dụng nếu muốn trực quan hoá dữ liệu với Python?
Thư viện nào cần được sử dụng nếu muốn trực quan hoá dữ liệu với Python?
Signup and view all the answers
Thư viện nào của Python thường được sử dụng để trực quan hoá dữ liệu?
Thư viện nào của Python thường được sử dụng để trực quan hoá dữ liệu?
Signup and view all the answers
Trong các phát biểu sau, đâu là phát biểu đúng nhất về việc lựa chọn kĩ thuật trực quan hoá phù hợp cho một loại dữ liệu?
Trong các phát biểu sau, đâu là phát biểu đúng nhất về việc lựa chọn kĩ thuật trực quan hoá phù hợp cho một loại dữ liệu?
Signup and view all the answers
Đâu là kết hợp đúng nhất về hàm (function) và tham số (parameter) để tạo ra 1 biểu đồ box plot trong Matplotlib?
Đâu là kết hợp đúng nhất về hàm (function) và tham số (parameter) để tạo ra 1 biểu đồ box plot trong Matplotlib?
Signup and view all the answers
Đoạn code sau đây thể hiện đồ thị nào?
question.plot(kind='barh')
Đoạn code sau đây thể hiện đồ thị nào? question.plot(kind='barh')
Signup and view all the answers
Thực hiện phân tích thăm dò dữ liệu như thế nào?Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu. Xem xét phân bố của dữ liệu. Xem xét các mối liên hệ giữa các biến trong dữ liệu. Xem xét đặc trưng cấu trúc của dữ liệu
Thực hiện phân tích thăm dò dữ liệu như thế nào?Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu. Xem xét phân bố của dữ liệu. Xem xét các mối liên hệ giữa các biến trong dữ liệu. Xem xét đặc trưng cấu trúc của dữ liệu
Signup and view all the answers
Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?
Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?
Signup and view all the answers
Với biểu đồ dưới đây thì phát biểu nào sai?
Với biểu đồ dưới đây thì phát biểu nào sai?
Signup and view all the answers
Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?
Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?
Signup and view all the answers
Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?
Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?
Signup and view all the answers
Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?
Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?
Signup and view all the answers
Thực hiện phân tích thăm dò dữ liệu như thế nào?
Thực hiện phân tích thăm dò dữ liệu như thế nào?
Signup and view all the answers
Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?
Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?
Signup and view all the answers
Với biểu đồ dưới đây thì phát biểu nào sai?
Với biểu đồ dưới đây thì phát biểu nào sai?
Signup and view all the answers
Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?
Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?
Signup and view all the answers
Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?
Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?
Signup and view all the answers
Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?
Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?
Signup and view all the answers
Khả năng tổng quát hoá và Quá khớp là hai mặt đối lập của các mô hình học máy
Khả năng tổng quát hoá và Quá khớp là hai mặt đối lập của các mô hình học máy
Signup and view all the answers
Giả sử bạn muốn sử dụng một phương pháp học máy để phân tích tri thức ẩn bên trong một tập dữ liệu, nhưng không có ý niệm gì về những tri thức đó. Bạn có thể đưa về bài toán nào sau đây là phù hợp nhất?
Giả sử bạn muốn sử dụng một phương pháp học máy để phân tích tri thức ẩn bên trong một tập dữ liệu, nhưng không có ý niệm gì về những tri thức đó. Bạn có thể đưa về bài toán nào sau đây là phù hợp nhất?
Signup and view all the answers
Overfitting nói đến tình huống nào?
Overfitting nói đến tình huống nào?
Signup and view all the answers
Việc hiểu bài toán thực tế (Business understanding) có phải là bước quan trọng trong quy trình Khoa học dữ liệu hướng sản phẩm?
Việc hiểu bài toán thực tế (Business understanding) có phải là bước quan trọng trong quy trình Khoa học dữ liệu hướng sản phẩm?
Signup and view all the answers
Khoa học dữ liệu là một lĩnh vực liên ngành và vượt ra ngoài phạm vi của Khoa học máy tính. Đúng hay sai?
Khoa học dữ liệu là một lĩnh vực liên ngành và vượt ra ngoài phạm vi của Khoa học máy tính. Đúng hay sai?
Signup and view all the answers
Đánh giá (Evaluation) có phải là một bước cốt lõi trong quy trình Khoa học dữ liệu, dù hướng sản phẩm hay hướng khám phá tri thức, hay không?
Đánh giá (Evaluation) có phải là một bước cốt lõi trong quy trình Khoa học dữ liệu, dù hướng sản phẩm hay hướng khám phá tri thức, hay không?
Signup and view all the answers
Trong Khoa học dữ liệu, điểm khác nhau chính giữa làm sạch và tiền xử lý dữ liệu là gì?
Trong Khoa học dữ liệu, điểm khác nhau chính giữa làm sạch và tiền xử lý dữ liệu là gì?
Signup and view all the answers
Phát biểu sau đây về The curse of dimensionality: 'Khi số chiều dữ liệu tăng, sự khó khăn trong phân tích dữ liệu sẽ không bị ảnh hưởng nhiều' là đúng hay sai?
Phát biểu sau đây về The curse of dimensionality: 'Khi số chiều dữ liệu tăng, sự khó khăn trong phân tích dữ liệu sẽ không bị ảnh hưởng nhiều' là đúng hay sai?
Signup and view all the answers
Phát biểu nào sau đây nói đúng về 'Variability' trong kỷ nguyên của Dữ liệu lớn?
Phát biểu nào sau đây nói đúng về 'Variability' trong kỷ nguyên của Dữ liệu lớn?
Signup and view all the answers
'Vagueness' là một thách thức trong kỷ nguyên của Dữ liệu lớn và nó đang nói về việc dữ liệu rất khó hiểu. Đúng hay sai?
'Vagueness' là một thách thức trong kỷ nguyên của Dữ liệu lớn và nó đang nói về việc dữ liệu rất khó hiểu. Đúng hay sai?
Signup and view all the answers
Match các thuật ngữ với ý nghĩa đúng:
Match các thuật ngữ với ý nghĩa đúng:
Signup and view all the answers
Study Notes
Phương pháp "Analytic approach" trong quy trình xây dựng sản phẩm khoa học dữ liệu
- "Analytic approach" là bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu
- Bước "Analytic approach" liên quan đến việc biến đổi một bài toán thực tế thành một bài toán khoa học dữ liệu
Hiểu bài toán thực tế (Business understanding) trong khoa học dữ liệu
- Hiểu bài toán thực tế (Business understanding) là bước quan trọng trong quy trình khoa học dữ liệu hướng sản phẩm
- Bước này giúp chúng ta hiểu rõ về nhu cầu thực tế cần giải quyết
Các giai đoạn trong quy trình khoa học dữ liệu
- Giai đoạn hiểu/trực quan hoá dữ liệu cần được tiến hành sau bước mô hình hoá
- Khoa học dữ liệu là lĩnh vực liên ngành, liên quan tới nhiều lĩnh vực khác như khoa học máy tính, toán học, thống kê, và tri thức miền ứng dụng
- Đánh giá (Evaluation) là bước cốt lõi trong quy trình khoa học dữ liệu, bao gồm phân tích, kiểm định, và so sánh các kết quả từ các kịch bản khác nhau
Định nghĩa các khái niệm trong khoa học dữ liệu
- Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu thiếu
- Phán đoán (Prediction) là một trong những nhiệm vụ chính của khoa học dữ liệu
Các thách thức của dữ liệu lớn
-
"Vagueness" nói đến mức độ khó hiểu của dữ liệu
-
"Variability" nói đến tính thay đổi mạnh của dữ liệu
-
"Velocity" nói đến tốc độ đến liên tục và nhanh của dữ liệu
-
"Veracity" nói đến độ không chắc chắn cao của dữ liệu do có nhiễu, lỗi, sai lệch### Tóm tắt nội dung quan trọng
-
Tiến trình MapReduce chịu trách nhiệm kết hợp kết quả từ các tác vụ Map(), Reduce(), Map(), Sort()
-
Cơ chế tổ chức dữ liệu của Datanode trong HDFS:
- Dữ liệu được chia thành các chunk (tệp tin) và lưu trữ trên hệ thống tệp tin cục bộ của Datanode
- Các chunk được lưu trữ tin cậy trên Datanode theo cơ chế RAID
-
Cơ chế nhân bản dữ liệu trong HDFS:
- Namenode quyết định vị trí các bản sao của các chunk trên Datanode
- Datanode quyết định vị trí lưu trữ các bản sao của các chunk tại các Datanode khác
-
HDFS được lập trình bằng ngôn ngữ Java
-
Tác vụ Mapper có trách nhiệm xử lý một hoặc vài chunk dữ liệu và trả ra kết quả trung gian
-
Thành phần JobTracker có trách nhiệm thực thi các tác vụ được giao bởi Jobtracker
-
HDFS không phù hợp với các ứng dụng yêu cầu quyền truy cập dữ liệu có độ trễ thấp và lưu trữ các tệp tin kích thước nhỏ
-
MapReduce xem dữ liệu dạng các cặp key-value, các ứng dụng triển khai các giao diện Mapper và Reducer để cài đặt phương thức map() và reduce()
-
Hive là công cụ truy vấn hỗ trợ SQL để truy vấn dữ liệu trên Hadoop, không phải cơ sở dữ liệu quan hệ
-
Trang web tin cậy (authority page) về một chủ đề là trang được trỏ tới từ nhiều trang tin cậy
-
Chuỗi Markov ergodic là chuỗi cho phép ta có thể đi dần dần từ bất kỳ trạng thái nào đến bất kỳ trạng thái khác với xác suất dương
-
Thuật toán PageRank xếp hạng các trang web dựa trên tỉ lệ ghé thăm dài hạn, tính từ ma trận xác suất chuyển
-
Thuật toán HITS tìm ra một tập nhỏ các hub và các trang tin cậy, sử dụng thuật toán lặp để tính toán điểm số
-
Độ trung tâm lân cận chỉ dựa trên các đỉnh liền kề của đỉnh đang xét
-
Có 4 đường đi ngắn nhất từ A tới K trong đồ thị cho trước
-
Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài 8
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Phương pháp phân tích là một bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu, giúp biến đổi một bài toán thực tế về một bài toán khoa học dữ liệu. Cùng kiểm tra kiến thức về phương pháp phân tích trong khoa học dữ liệu!