Phương pháp phân tích trong khoa học dữ liệu
42 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

HITS tìm ra một tập nhỏ các hubs và các trang tin cậy bằng cách nào?

  • Sử dụng một thuật toán lặp để tính toán phân bố xác suất trạng thái dừng
  • Sử dụng một thuật toán lặp để tính toán tỉ lệ ghé thăm dài hạn
  • Sử dụng một thuật toán lặp để tính toán điểm số cho các trang (correct)
  • Trong các độ đo thứ hạng đỉnh dưới đây, độ đo nào chỉ dựa trên các đỉnh liền kề của đỉnh đang xét?

  • Độ trung tâm trung gian (Betweenness centrality)
  • Độ trung tâm lân cận (Closeness centrality) (correct)
  • Độ quan trọng theo bậc (Degree prestige)
  • Độ quan trọng lân cận (Proximity prestige)
  • Có bao nhiêu đường đi ngắn nhất từ A tới K trong đồ thị sau?

  • 5
  • 4 (correct)
  • 7
  • 6
  • Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài là bao nhiêu?

    <p>8</p> Signup and view all the answers

    Sau bao nhiêu bước ngẫu nhiên, ta sẽ di chuyển đến trạng thái 3 từ trạng thái khác?

    <p>0.350</p> Signup and view all the answers

    Nếu độ sáng của một ảnh đa mức xám là 255, ảnh có đặc điểm gì?

    <p>Ảnh đen toàn bộ</p> Signup and view all the answers

    Trong không gian màu nào thành phần màu và độ sáng không được mã hóa tách biệt trong các kênh?

    <p>Lab</p> Signup and view all the answers

    Cần bao nhiêu bytes để lưu trữ mỗi điểm ảnh trong ảnh đa mức xám 256 mức không nén?

    <p>1</p> Signup and view all the answers

    Mục đích của cân bằng histogram là tăng cường độ tương phản của ảnh.

    <p>True</p> Signup and view all the answers

    Một đối tượng cho phép giải thích cho các biểu tượng, màu sắc và các hình dạng mẫu được sử dụng trong các biểu đồ gọi là gì?

    <p>Chú thích (Legend)</p> Signup and view all the answers

    Nhiệt độ thuộc loại dữ liệu nào trong các loại sau đây?

    <p>Dữ liệu liên tục sắp xếp được</p> Signup and view all the answers

    Những đặc trưng nào về dữ liệu có thể được trực quan hoá trong các biểu đồ scatterplot?

    <p>Phân tán (Dispersion)</p> Signup and view all the answers

    Phát biểu nào đúng nhất về pie chart?

    <p>Pie chart được sử dụng khi muốn so sánh các hạng mục dữ liệu</p> Signup and view all the answers

    Thông tin nào chúng ta có thể rút ra khi quan sát biểu đồ box plot?

    <p>Quarterile dưới/trên (Lower/upper quartile)</p> Signup and view all the answers

    Thư viện nào cần được sử dụng nếu muốn trực quan hoá dữ liệu với Python?

    <p>Pyplot, pandas, seaborn</p> Signup and view all the answers

    Thư viện nào của Python thường được sử dụng để trực quan hoá dữ liệu?

    <p>SciPy, NumPy, Matplotlib và Pandas, ...</p> Signup and view all the answers

    Trong các phát biểu sau, đâu là phát biểu đúng nhất về việc lựa chọn kĩ thuật trực quan hoá phù hợp cho một loại dữ liệu?

    <p>Thu thập dữ liệu, Tổ chức dữ liệu và phân tích dữ liệu</p> Signup and view all the answers

    Đâu là kết hợp đúng nhất về hàm (function) và tham số (parameter) để tạo ra 1 biểu đồ box plot trong Matplotlib?

    <p>Function = boxplot, và Parameter = type với giá trị = 'plot'</p> Signup and view all the answers

    Đoạn code sau đây thể hiện đồ thị nào? question.plot(kind='barh')

    <p>Biểu đồ thanh ngang (Bar Graph)</p> Signup and view all the answers

    Thực hiện phân tích thăm dò dữ liệu như thế nào?Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu. Xem xét phân bố của dữ liệu. Xem xét các mối liên hệ giữa các biến trong dữ liệu. Xem xét đặc trưng cấu trúc của dữ liệu

    <p>xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu</p> Signup and view all the answers

    Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?

    <p>EDA quan tâm tới cấu trúc, các ngoại lệ, và các mô hình từ dữ liệu</p> Signup and view all the answers

    Với biểu đồ dưới đây thì phát biểu nào sai?

    <p>Có 30 cây có chiều cao là 150.</p> Signup and view all the answers

    Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?

    <p>Cách gộp các cụm.</p> Signup and view all the answers

    Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?

    <p>Cách gộp các cụm.</p> Signup and view all the answers

    Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?

    <p>SciPy, NumPy, Matplotlib and Pandas</p> Signup and view all the answers

    Thực hiện phân tích thăm dò dữ liệu như thế nào?

    <p>Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu</p> Signup and view all the answers

    Trọng tâm của phân tích thăm dò dữ liệu EDA là gì?

    <p>EDA quan tâm tới cấu trúc, các ngoại lệ, và các mô hình từ dữ liệu</p> Signup and view all the answers

    Với biểu đồ dưới đây thì phát biểu nào sai?

    <p>Có ít hơn hoặc bằng 50 cây có chiều cao là 300.</p> Signup and view all the answers

    Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào?

    <p>Cách tính độ đo khoảng cách.</p> Signup and view all the answers

    Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào?

    <p>Cấu hình số cụm ban đầu K.</p> Signup and view all the answers

    Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu?

    <p>SciPy, NumPy, Matplotlib and Pandas</p> Signup and view all the answers

    Khả năng tổng quát hoá và Quá khớp là hai mặt đối lập của các mô hình học máy

    <p>False</p> Signup and view all the answers

    Giả sử bạn muốn sử dụng một phương pháp học máy để phân tích tri thức ẩn bên trong một tập dữ liệu, nhưng không có ý niệm gì về những tri thức đó. Bạn có thể đưa về bài toán nào sau đây là phù hợp nhất?

    <p>Học không giám sát (Unsupervised learning)</p> Signup and view all the answers

    Overfitting nói đến tình huống nào?

    <p>Một phương pháp tạo ra tỉ lệ lỗi bé trên tập huấn luyện, nhưng có tỉ lệ lỗi lớn trên dữ liệu trong tương lai</p> Signup and view all the answers

    Việc hiểu bài toán thực tế (Business understanding) có phải là bước quan trọng trong quy trình Khoa học dữ liệu hướng sản phẩm?

    <p>Đúng, tất nhiên rồi</p> Signup and view all the answers

    Khoa học dữ liệu là một lĩnh vực liên ngành và vượt ra ngoài phạm vi của Khoa học máy tính. Đúng hay sai?

    <p>Đúng</p> Signup and view all the answers

    Đánh giá (Evaluation) có phải là một bước cốt lõi trong quy trình Khoa học dữ liệu, dù hướng sản phẩm hay hướng khám phá tri thức, hay không?

    <p>Đúng</p> Signup and view all the answers

    Trong Khoa học dữ liệu, điểm khác nhau chính giữa làm sạch và tiền xử lý dữ liệu là gì?

    <p>Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu thiếu</p> Signup and view all the answers

    Phát biểu sau đây về The curse of dimensionality: 'Khi số chiều dữ liệu tăng, sự khó khăn trong phân tích dữ liệu sẽ không bị ảnh hưởng nhiều' là đúng hay sai?

    <p>False</p> Signup and view all the answers

    Phát biểu nào sau đây nói đúng về 'Variability' trong kỷ nguyên của Dữ liệu lớn?

    <p>Việc dữ liệu thay đổi nhiều</p> Signup and view all the answers

    'Vagueness' là một thách thức trong kỷ nguyên của Dữ liệu lớn và nó đang nói về việc dữ liệu rất khó hiểu. Đúng hay sai?

    <p>False</p> Signup and view all the answers

    Match các thuật ngữ với ý nghĩa đúng:

    <p>Velocity = Tốc độ đến liên tục của dữ liệu trong môi trường luồng Veracity = Đặc trưng thiếu chắc chắn cao, do nhiễu, lỗi, mất mát, sai lệch,...trong dữ liệu Variability = Việc dữ liệu thay đổi nhiều</p> Signup and view all the answers

    Study Notes

    Phương pháp "Analytic approach" trong quy trình xây dựng sản phẩm khoa học dữ liệu

    • "Analytic approach" là bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu
    • Bước "Analytic approach" liên quan đến việc biến đổi một bài toán thực tế thành một bài toán khoa học dữ liệu

    Hiểu bài toán thực tế (Business understanding) trong khoa học dữ liệu

    • Hiểu bài toán thực tế (Business understanding) là bước quan trọng trong quy trình khoa học dữ liệu hướng sản phẩm
    • Bước này giúp chúng ta hiểu rõ về nhu cầu thực tế cần giải quyết

    Các giai đoạn trong quy trình khoa học dữ liệu

    • Giai đoạn hiểu/trực quan hoá dữ liệu cần được tiến hành sau bước mô hình hoá
    • Khoa học dữ liệu là lĩnh vực liên ngành, liên quan tới nhiều lĩnh vực khác như khoa học máy tính, toán học, thống kê, và tri thức miền ứng dụng
    • Đánh giá (Evaluation) là bước cốt lõi trong quy trình khoa học dữ liệu, bao gồm phân tích, kiểm định, và so sánh các kết quả từ các kịch bản khác nhau

    Định nghĩa các khái niệm trong khoa học dữ liệu

    • Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu thiếu
    • Phán đoán (Prediction) là một trong những nhiệm vụ chính của khoa học dữ liệu

    Các thách thức của dữ liệu lớn

    • "Vagueness" nói đến mức độ khó hiểu của dữ liệu

    • "Variability" nói đến tính thay đổi mạnh của dữ liệu

    • "Velocity" nói đến tốc độ đến liên tục và nhanh của dữ liệu

    • "Veracity" nói đến độ không chắc chắn cao của dữ liệu do có nhiễu, lỗi, sai lệch### Tóm tắt nội dung quan trọng

    • Tiến trình MapReduce chịu trách nhiệm kết hợp kết quả từ các tác vụ Map(), Reduce(), Map(), Sort()

    • Cơ chế tổ chức dữ liệu của Datanode trong HDFS:

      • Dữ liệu được chia thành các chunk (tệp tin) và lưu trữ trên hệ thống tệp tin cục bộ của Datanode
      • Các chunk được lưu trữ tin cậy trên Datanode theo cơ chế RAID
    • Cơ chế nhân bản dữ liệu trong HDFS:

      • Namenode quyết định vị trí các bản sao của các chunk trên Datanode
      • Datanode quyết định vị trí lưu trữ các bản sao của các chunk tại các Datanode khác
    • HDFS được lập trình bằng ngôn ngữ Java

    • Tác vụ Mapper có trách nhiệm xử lý một hoặc vài chunk dữ liệu và trả ra kết quả trung gian

    • Thành phần JobTracker có trách nhiệm thực thi các tác vụ được giao bởi Jobtracker

    • HDFS không phù hợp với các ứng dụng yêu cầu quyền truy cập dữ liệu có độ trễ thấp và lưu trữ các tệp tin kích thước nhỏ

    • MapReduce xem dữ liệu dạng các cặp key-value, các ứng dụng triển khai các giao diện Mapper và Reducer để cài đặt phương thức map() và reduce()

    • Hive là công cụ truy vấn hỗ trợ SQL để truy vấn dữ liệu trên Hadoop, không phải cơ sở dữ liệu quan hệ

    • Trang web tin cậy (authority page) về một chủ đề là trang được trỏ tới từ nhiều trang tin cậy

    • Chuỗi Markov ergodic là chuỗi cho phép ta có thể đi dần dần từ bất kỳ trạng thái nào đến bất kỳ trạng thái khác với xác suất dương

    • Thuật toán PageRank xếp hạng các trang web dựa trên tỉ lệ ghé thăm dài hạn, tính từ ma trận xác suất chuyển

    • Thuật toán HITS tìm ra một tập nhỏ các hub và các trang tin cậy, sử dụng thuật toán lặp để tính toán điểm số

    • Độ trung tâm lân cận chỉ dựa trên các đỉnh liền kề của đỉnh đang xét

    • Có 4 đường đi ngắn nhất từ A tới K trong đồ thị cho trước

    • Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài 8

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Phương pháp phân tích là một bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu, giúp biến đổi một bài toán thực tế về một bài toán khoa học dữ liệu. Cùng kiểm tra kiến thức về phương pháp phân tích trong khoa học dữ liệu!

    More Like This

    Use Quizgecko on...
    Browser
    Browser