Câu hỏi về Khoa học dữ liệu
Document Details
Uploaded by IrresistibleOlive
Huston-Tillotson University
Tags
Summary
Đây là một bài kiểm tra trắc nghiệm về khoa học dữ liệu với nhiều câu hỏi về các khái niệm, phương pháp và quy trình trong khoa học dữ liệu. Các câu hỏi tập trung vào các khía cạnh như hiểu biết bài toán kinh doanh, phương pháp phân tích dữ liệu và đánh giá kết quả.
Full Transcript
“Analytic approach” có phải là một bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu? Đương nhiên rồi Không, ta có thể bỏ qua bước này Không, nó không liên quan gì đến khoa học dữ liệu Trong tiến trình xây dựng một sản phẩm khoa học dữ liệu, bước “Analytic approach” n...
“Analytic approach” có phải là một bước quan trọng trong tiến trình xây dựng một sản phẩm khoa học dữ liệu? Đương nhiên rồi Không, ta có thể bỏ qua bước này Không, nó không liên quan gì đến khoa học dữ liệu Trong tiến trình xây dựng một sản phẩm khoa học dữ liệu, bước “Analytic approach” nói đến điều gì? Việc biến đổi một bài toán thực tế về một bài toán khoa học dữ liệu Việc chọn một công cụ phân tích để giải quyết một bài toán khoa học dữ liệu Việc biến đổi một bài toán khoa học dữ liệu về một bài toán thực tế Hiểu bài toán thực tế (Business understanding) có phải là một bước quan trọng trong quy trình Khoa học dữ liệu hướng sản phẩm? Đúng, tất nhiên rồi Không, chúng ta có thể bỏ qua bước này Không, nó chẳng liên quan gì đến Khoa học dữ liệu Trong khoa học dữ liệu, bước hiểu bài toán thực tế (Business understanding) là gì trong quá trình phát triển sản phẩm? Là bước mà chúng ta cần hiểu rõ nhu cầu thực tế cần giải quyết Là bước để hiểu các nội dung kinh doanh chính của tổ chức Là bước để hiểu mối quan hệ giữa nhu cầu kinh doanh và Khoa học dữ liệu Trong quy trình Khoa học dữ liệu, giai đoạn hiểu/trực quan hoá dữ liệu nên được tiến hành sau bước mô hình hoá không? Có Không, nó nên được thực hiện trước Các đáp án khác đều đúng Hình sau đây gợi ý điều gì? Khoa học dữ liệu là một lĩnh vực liên ngành, nó động đến rất nhiều lĩnh vực khác Khoa học dữ liệu là phần cốt lõi chung của Khoa học máy tính, Toán học, Thống kê, và Tri thức miền ứng dụng Khoa học dữ liệu là một ngành, phần giao chung giữa Khoa học máy tính, Toán học, Thống kê, và Tri thức miền ứng dụng Đánh giá (Evaluation) có phải là một bước cốt lõi trong quy trình Khoa học dữ liệu, dù hướng sản phẩm hay hướng khám phá tri thức, hay không? Đúng Không, nó chưa chắc cần thiết khi ta muốn khám phá tri thức mới từ dữ liệu Không Đánh giá (Evaluation) trong quy trình Khoa học dữ liệu có thể bao gồm Phân tích, kiểm định, so sánh các kết quả từ các kịch bản đã chọn (có thể gồm các kịch bản offline và real-life) Đánh giá việc triển khai một hệ thống trong thực tế Trong Khoa học dữ liệu, điểm khác nhau chính giữa làm sạch và tiền xử lý dữ liệu là gì? Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu thiếu Làm sạch dữ liệu đương đầu phần lớn với dữ liệu nhiễu, trong khi tiền xử lý dữ liệu đương đầu phần lớn với dữ liệu dư thừa Làm sạch dữ liệu thường thực hiện trước tiền xử lý dữ liệu, và nhắm đến việc phát hiện những dữ liệu bẩn Tiền xử lý dữ liệu bao gồm bước làm sạch dữ liệu Phán đoán (Prediction) có phải là nhiệm vụ chính của Khoa học dữ liệu? Đúng Không, nó chỉ là một trong những nhiệm vụ trong Khoa học dữ liệu Không, nó không thuộc lĩnh vực Khoa học dữ liệu Phát biểu nào sau đây nói về ”Lời nguyền của số chiều” (The curse of dimensionality)? Khi số chiều dữ liệu tăng, kích cỡ của không gian dữ liệu sẽ tăng quá nhanh đến nỗi những tập dữ liệu chúng ta thu thập được sẽ quá thưa thớt (sparse). Việc thưa thớt này sẽ tạo ra thách thức lớn cho các phương pháp phân tích dữ liệu. Khi số chiều dữ liệu tăng, sự khó khăn trong phân tích dữ liệu sẽ không bị ảnh hưởng nhiều Số chiều cao có thể tạo ra nhiều khó khăn cho lưu trữ và tính toán “Vagueness” là một thách thức trong kỷ nguyên của Dữ liệu lớn và nó đang nói về... Việc dữ liệu rất khó hiểu Vấn đề khó giao tiếp giữa nhà cung cấp và người sử dụng Khó khăn đối với một người không phải là chuyên gia để diễn giải kết quả phân tích Mức độ khó hiểu của những mẫu dữ liệu đến trong môi trường luồng Mức độ khó hiểu của các thuật toán phân tích dữ liệu “Variability” là một thách thức trong kỷ nguyên của Dữ liệu lớn và nó đang nói về... Việc dữ liệu thay đổi nhiều Những thay đổi có thể xảy ra trong cấu trúc của nguồn dữ liệu Tốc độ mà dữ liệu đến trong môi trường luồng Các tốc độ khác nhau mà khi đó các nguồn dữ liệu được làm mới Velocity là một thách thức của kỷ nguyên dữ liệu lớn, và nó nói tới Đặc trưng thay đổi mạnh của dữ liệu Những tính toán lớn Đặc trưng đến liên tục và nhanh của dữ liệu Tốc độ phân tích dữ liệu Veracity là một thách thức của kỷ nguyên dữ liệu lớn, và nó nói tới Đặc trưng thay đổi mạnh của dữ liệu Những tính toán lớn Tốc độ đến liên tục của dữ liệu trong môi trường luồng Đặc trưng thiếu chắc chắn cao, do nhiễu, lỗi, mất mát, sai lệch,... trong dữ liệu Khoa học dữ liệu là một lĩnh vực liên ngành và vượt ra ngoài phạm vi của Khoa học máy tính Đúng Sai Đâu là ví dụ về một xpath đúng? /node/text() //Parent[@id=’1’]/Children/child/@name span::text base::attr(href) Đâu là ví dụ về một xpath đúng? //a[contains(@href, ”image”)]/@href a[href*=image]::attr(href) //base/@href base::attr(href) Đâu là ví dụ về một css selector đúng? //a[contains(@href, ”image”)]/@href a[href*=image]::attr(href) a[href*=image]@attr(href) //a[contains(@href, ”image”)]::@href Thuật toán Page Rank được sử dụng cho mục đích gì? Để tìm kết quả phù hợp nhất với một truy vấn Để đo lường tầm quan trọng của một trang web Để xác định mức độ phổ biến của một trang web Để sắp xếp kết quả của công cụ tìm kiếm Làm thế nào để có thể bóc tách được dữ liệu mong muốn khi viết bot thu thập dữ liệu trên scrapy? Sử dụng bộ chọn (selector) expath và css để viết downloaders. Sử dụng bộ chọn (selector) expath và css để viết spiders. bộ chọn (selector) expath và css để viết item pipelines. Đâu là ví dụ về một css selector đúng? /node/text() //Parent[@id=’1’]/Children/child/@name span::text base::attr(href) Scrapy bot có thể bỏ qua thông tin trong robots.txt hay không? Có. Không. Scrapy có hỗ trợ mặc định cơ chế thu thập dữ liệu tăng dần (incremental crawling strategy) hay không? Không Có Sử dụng robots.txt có chặn được các chương trình cào dữ liệu Internet hay không Không Có Theo cách của Scrapy, đâu là nơi có thể ép buộc các yêu cầu tải trang web phải sử dụng proxy? Downloader middlewares Spider middlewares Downloader Spider Item pipelines Trong Scrapy, đâu là nơi có thể tiến hành thay đổi thuộc tính user-agent trong quá trình thu thập dữ liệu? Downloader middlewares Spider middlewares Downloader Spider Trong Scrapy, làm thế nào để ghi dữ liệu thu thập được vào các cơ sở dữ liệu? Viết mã lệnh thêm vào trong spider middleware. Viết mã lệnh thêm vào trong item pipelines. Viết mã lệnh thêm vào trong downloader. Trong Scrapy, vai trò của thành phần downloader là gì? Nhận các yêu cầu (requests) từ thành phần engine, đưa các yêu cầu này vào hàng đợi để xử lý sau. Tải về các trang web Bóc tách các trả lời (responses) Trong Scrapy, vai trò của thành phần spider là gì Bóc tách các trả lời (responses). Tải về nội dung các trang web. Điều phối luồng dữ liệu giữa tất cả các thành phần của Scrapy. Đâu là giải thuật dùng để xếp thứ hạng các trang web trong kết quả trả về của máy tìm kiếm Webrank Pagerank Textrank Điều nào sau đây mô tả chính xác XPath? XPath là một ngôn ngữ lập trình. XPath là một ngôn ngữ truy vấn. XPath là cấu trúc tệp tin XML. XPath có thể được đọc bởi Microsoft Word. Bước nào trong phương pháp làm sạch dữ liệu sau đây không theo thứ tự thích hợp? A. Trích xuất các trường dữ liệu có liên quan. B. Sửa chữa các vấn đề về chất lượng dữ liệu ở mức giá trị (value level). C. Chuẩn hóa giá trị dữ liệu. D. Khắc phục các vấn đề về chất lượng dữ liệu ở mức tập giá trị (value set level). E. Khắc phục các vấn đề về chất lượng dữ liệu ở cấp độ quan hệ F. Sửa chữa các vấn đề về chất lượng dữ liệu ở cấp độ đa quan hệ. G. Lấy phản hồi của người dùng A B C D E F Google Openrefine có thể nhập dữ liệu từ Internet qua URL được không? Có. Không. Google Openrefine có thể được sử dụng để tự động phân nhóm dữ liệu không? Có Không Kỹ thuật faceting trong Google Openrefine là gì? Cho phép nhìn thấy bức tranh toàn cảnh về dữ liệu. Cho phép lọc xuống chỉ tập hợp con các hàng mà bạn muốn thay đổi hàng loạt. Cho phép thực hiện các phán đoán xu thế từ dữu liệu. Tại sao dữ liệu ngoài thực tiễn lại không sạch? Không đầy đủ. Có nhiễu. Không nhất quán. Đặc trưng mô hình hoá dữ liệu trong OLAP? Lược đồ CSDL cần được chuẩn hoá, đảm boả dữ liệu được nhất quán. Thường sử dụng lược đồ CSDL phi chuẩn hoá. Thường sử dụng mô hình dữ liệu đa chiều. Đâu không phải là nguyên nhân dẫn đến dữ liệu bị nhiễu? Phương tiên, thiết bị thu thập dữ liệu bị lỗi. Lỗi do người nhập dữ liệu vào hệ thống. Do nhu cầu về dữ liệu khác nhau giữa thời điểm thu thập dữ liệu và thời điểm tiến hành phân tích dữ liệu. Đâu không phải là vấn đề về chất lượng dữ liệu ở mức giá trị (value level)? Giá trị bị thiếu. Vi phạm cú pháp. Các từ đồng nghĩa. Đâu không phải là vấn đề về chất lượng dữ liệu ở mức tập giá trị (value set level)? Tồn tại các từ đồng âm khác nghĩa. Vi phạm tính duy nhất. Vi phạm ràng buộc toàn vẹn. Vi phạm tập xác định. Đâu là đặc trưng của OLAP? Chủ yếu là các giao dịch thêm, sửa, xoá có thời gian thực hiện ngắn. Các truy vấn thường phức tạp và bao gồm các phép toán kết tập. Chủ yếu là các truy vấn ad-hoc. Thường truy cập tới nhiều bản ghi dữ liệu. Hỗ trợ ra quyết định. Đâu là đặc trưng của OLTP? Chủ yếu là các giao dịch thêm, sửa, xoá có thời gian thực hiện ngắn. Hỗ trợ xử lý giao dịch, vận hành hàng ngày cho doanh nghiệp. Thường truy cập tới dữ liệu lịch sử, dữ liệu đa chiều. Thường là các truy vấn phức tạp. Điều nào dưới đây là không đúng về OLAP? Xử lý thông tin có tính lịch sử (được tạo ra trong quá khức). Hỗ trợ phân tích nghiệp vụ. Khả mở, cho phép hàng triệu người sử dụng. Lưu trữ hàng triệu bản ghi dữ liệu. Đâu là phát biểu đúng về Wrapper trong kiến trúc tích hợp dữ liệu ảo? Là đoạn chương trình chuyển đổi dữ liệu từ định dạng ở nguồn qua định dạng chuẩn hoá của mediator Có thể cài đặt ở phía nguồn dữ liệu hoặc phía mediator Là thành phần không thể thiếu của mediator Đâu là siêu dữ liệu có trong Danh mục nguồn dữ liệu (Data source catalog) trong kiến trúc tích hợp dữ liệu ảo? Danh sách các bản dữ liệu của nguồn Khả năng truy vấn của nguồn (vd., Khả năng trả lời SQL) Tần suất cập nhật dữ liệu Kiểm soát truy cập, phân quyền Đâu là phát biểu đúng về Apache Nifi? Một công cụ ETL. Một nền tảng kho dữ liệu cho phép lưu trữ dữ liệu kích thước lớn. Một công cụ cho phép làm sạch và tiền xử lý dữ liệu. Đâu là các khái niệm có trong Apache NiFi? FlowFile FlowFile Processor Scheduler Process Group Đâu là các chiều thang đo khi nói về chất lượng dữ liệu? Đầy đủ (Completeness), Xác thực (Validity), Toàn vẹn (Integrity) Tính thời điểm (Timeliness), Chính xác (Accuracy), Nhất quán (Consistency) Tính thời điểm (Timeliness), Tính cô lập (Isolation) Đầy đủ (Completeness), Toàn vẹn (Integrity), Giá trị (Value) Biểu đồ này thể hiện điều gì? Một biểu đồ cột thể hiện chiều cao của cây và số lượng cây tương ứng với chiều cao đó. Một biểu đồ histogram thể hiện phân bố chiều cao của cây. Một biểu đồ cột vẽ nhầm cần đổi tên trục trung và trục hoành. Biểu đồ box plot cho phép rút ra kết luận gì trong phân tích thăm dò dữ liệu? Có đặc trưng (biến) nào quan trọng ? Độ tập trung vị trí có khác nhau giữa các nhóm con không? Độ biến thiên có khác nhau giữa các nhóm con không? Có ngoại lệ không? Biểu đồ histogram cho phép rút ra kết luận gì trong phân tích thăm dò dữ liệu? Xem xét phân bố của tập các quan sát. Xem xét độ tập trung của dữ liệu. Xem xét sự phân tán của dữ liệu. Phân bố của dữ liệu là đối xứng hay lêch. Có ngoại lệ trong dữ liệu không?. Biểu đồ scatter plot cho phép rút ra kết luận gì trong phân tích thăm dò dữ liệu? Có mối quan hệ giữa biến X và Y hay không? Mối liên hệ có phải là tuyến tính hay không? Sự biến thiên của biến Y có phụ thuộc vào biến X hay không? Biến X, Y biến nào quan trọng hơn. Phân tích thăm dò dữ liệu (EDA) là gì? EDA không phải là một tập các kỹ thuật, mà là một triết lý về cách mà chúng ta nên làm khi muốn hiểu về dữ liệu EDA là tập các kỹ thuật cho phép chúng ta hiểu về dữ liệu bao gồm việc sử dụng các biểu đồ và các kỹ thuật thống kê. EDA là việc sử dụng các biểu đồ để hiểu dữ liệu Thực hiện phân tích thăm dò dữ liệu như thế nào? Xem xét các thuộc tính mô tả độ đo trung tâm và độ đo phân tán của dữ liệu Xem xét phân bố của dữ liệu Xem xét các mối liên hệ giữa các biến trong dữ liệu Xem xét đặc trưng cấu trúc của dữ liệu Trọng tâm của phân tích thăm dò dữ liệu EDA là gì? EDA quan tâm tới cấu trúc, các ngoại lệ, và các mô hình từ dữ liệu EDA quan tâm tới tất cả các điểm dữ liệu trong tập dữ liệu Trực quan hoá và làm sạch dữ liệu EDA quan tâm tới các công cụ cho phép xem xét cấu trúc, các ngoại lệ từ dữ liệu Với biểu đồ dưới đây thì phát biểu nào sai? Số lượng các cây có chiều cao từ 250 tới 300 là nhiều nhất. Số lượng các cây có chiều cao từ 100 tới 150 là nhỏ nhất. Có 30 cây có chiều cao là 150. Có ít hơn hoặc bằng 50 cây có chiều cao là 300. Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm K-means phụ thuộc vào những yếu tố nào? Cách tính độ đo khoảng cách. Cách gộp các cụm. Cấu hình số cụm ban đầu K. Một phép đoán khởi đầu cho các centroids. Với cùng 1 tập dữ liệu, kết quả của giải thuật phân cụm phân cấp (Hierarchical clustering) phụ thuộc vào những yếu tố nào? Cách tính độ đo khoảng cách. Cách gộp các cụm. Cấu hình số cụm ban đầu K. Đâu là các thư viện và công cụ có thể sử dụng để thực hiện phân tích thăm dò dữ liệu? NLTK, Spacy Requests, Scrapy, BeautifulSoup Tensorflow, Keras, Scikit-learn SciPy, NumPy, Matplotlib and Pandas Khả năng tổng quát hoá (Generalization) và Quá khớp (overfitting) là hai mặt đối lập của các mô hình học máy Đúng Không, chúng chưa chắc đã đối lập nhau Chúng là hai đặc trưng độc lập Giả sử bạn muốn sử dụng một phương pháp học máy để phân tích tri thức ẩn bên trong một tập dữ liệu, nhưng không có ý niệm gì về những tri thức đó. Bạn có thể đưa về bài toán nào sau đây là phù hợp nhất? Học không giám sát (Unsupervised learning) Học có giám sát (Supervised learning) Hồi quy (Regression) Phân loại nhiều lớp (Multiclass classification) Quá trình học một cây quyết định bằng thuật toán ID3 sẽ dừng nếu Cây đã phân loại chính xác hoàn toàn dữ liệu huấn luyện, hoặc tại bất kỳ một đường đi nào từ gốc đến lá, các thuộc tính đã được dùng hết Cây đã phân loại chính xác hoàn toàn dữ liệu huấn luyện Cây đã đủ lớn Cây không thể phân loại chính xác hoàn toàn dữ liệu huấn luyện Vai trò của “information gain” trong thuật toán ID3 khi học một cây quyết định là gì? Đo đạc tính phân biệt của các thuộc tính để tìm một thuộc tính kiểm tra tại mỗi đỉnh Để xem độ tốt của một thuộc tính sau quá trình huấn luyện Để đo đạc lỗi tại mỗi đỉnh trong cây Không có vai trò gì K-means là gì? Một phương pháp phân cụm Một phương pháp phân loại Một phương pháp học có giám sát Một phương pháp để tính trung bình số học từ dữ liệu Một phương pháp học máy có khả năng học được gì? Một hàm mà có khả năng ánh xạ một điểm dữ liệu đầu vào đến một đầu ra Tri thức mới để phán đoán đầu ra Học để mô phỏng khả năng của con người Bất kỳ thứ gì Sự khác nhau giữa học có giám sát và không giám sát nằm ở đâu? Tập huấn luyện, trong đó học có giám sát thường yêu cầu nhãn/đầu ra cho mỗi mẫu dữ liệu Kiểu đầu ra, trong đó học có giám sát thường có đầu ra là số thực Cách chúng ta huấn luyện một mô hình, học có giám sát thường yêu cầu chỉ dẫn chi tiết từng bước học ra sao Mục tiêu của thuật toán, học không giám sát thường không thực hiện phán đoán nào cả Phương pháp bình phương tối thiểu học một hàm \(f(x) = w_0 + w_1 x_1 + \cdots + w_n x_n\) từ một tập học có cỡ \(M\) bằng cách tìm véctơ \(\mathbf {w}^* = (w^*_0, w^*_1,..., w^*_n)\), trong đó \(\mathbf {w}^* = \arg \min _{\mathbf {w}} \sum _{i=1}^M (y_i - w_0 - w_1 x_{i1} - \cdots - w_n x_{in})\) \(\mathbf {w}^* = \arg \min _{\mathbf {w}} \sum _{i=1}^M (y_i - w_0 - w_1 x_{i1} - \cdots - w_n x_{in})^2\) \(\mathbf {w}^* = \arg \min _{\mathbf {w}} \sum _{i=1}^M (y_i - w_0 - w_1 x_{i1} - \cdots - w_n x_{in})^2 + \lambda \|\mathbf {w}\|_2^2\) Vai trò của hàm lỗi thực nghiệm (empirical loss) là gì? Để đo đạc lỗi phán đoán theo một nghĩa nào đó và hay được dùng làm hàm mục tiêu khi huấn luyện một mô hình Để đo đạc lỗi phán đoán trong tương lai Không có vai trò gì Học máy (Machine Learning) cung cấp các phương pháp để phân tích dữ liệu và tạo các phán đoán cho dữ liệu trong tương lai Đúng Sai, nó cung cấp các nền tảng để mở rộng tính toán Đúng, nó còn cung cấp các nền tảng để tăng tốc tính toán Định lý “No-free-lunch” nói đến điều gì? Không có thuật toán nào có thể đánh bại một thuật toán khác trên mọi miền bài toán Không có bữa trưa miễn phí nào cho ai Nếu không cố gắng nhất, một thuật toán không thể đánh bại các thuật toán khác Overfitting nói đến tình huống nào? Một phương pháp tạo ra tỉ lệ lỗi bé trên tập huấn luyện, nhưng có tỉ lệ lỗi lớn trên dữ liệu trong tương lai Một phương pháp có thể phán đoán không chính xác về hành vi của một phương pháp khác Quá ít dữ liệu huấn luyện Có quá nhiều dữ liệu huấn luyện đến nỗi một máy tính có thể học dễ dàng Kỹ thuật nào sau đây có thể giúp giảm overfitting? Sử dụng hiệu chỉnh (regularization), kỹ thuật thường giúp hạn chế không gian tìm kiếm khi huấn luyện một mô hình Dùng một phương pháp/mô hình mới Bỏ bớt dữ liệu nếu có quá nhiều Học máy xuất hiện ở đâu trong một quy trình khoa học dữ liệu? Bước mô hình hoá (modeling), nơi mà chúng ta dùng một phương pháp cụ thể để phân tích dữ liệu Bước hiểu dữ liệu Bước lựa chọn một cách tiếp cận để giải bài toán đang có Veracity là một thách thức liên quan đến dữ liệu lớn và đề cập đến Các loại dữ liệu khác nhau phải được xử lý: dữ liệu có cấu trúc / không có cấu trúc. Sức mạnh tính toán mà dữ liệu lớn yêu cầu. Dữ liệu đến liên tục và nhanh chóng. Dữ liệu có độ không chắc chắn cao do sự hiện diện của thông tin giả mạo / nhiễu trong một số nguồn (đặc biệt là trên internet). Variety là một thách thức liên quan đến dữ liệu lớn và đề cập đến Các loại dữ liệu khác nhau phải được xử lý: dữ liệu có cấu trúc / không có cấu trúc. Sức mạnh tính toán mà dữ liệu lớn yêu cầu. Dữ liệu đến liên tục và nhanh chóng. Dữ liệu có độ không chắc chắn cao do sự hiện diện của thông tin giả mạo / nhiễu trong một số nguồn (đặc biệt là trên internet). Làm cách nào để phân tích dữ liệu khả mở cho dữ liệu lớn? Song song hoá các giải thuật học máy Sử dụng kiến trúc xử lý thời gian thực Sử dụng phân tích thành phần chính (PCA) Sử dụng mô hình mạng thần kinh sâu Chỉ ra phát biểu đúng: Hadoop cần chạy trên phần cứng chuyên biệt, cấu hình cao để xử lý dữ liệu lớn. Hadoop 2.0 trở lên cho phép chạy các công việc không phải là các công việc MapReduce. Trong khung lập trình Hadoop, các tệp tin kết quả được phân chia thành các dòng hoặc bản ghi. Không đáp án nào đúng. Chọn phát biểu đúng: MapReduce thực hiện mang dữ liệu tới các nút tính toán. MapReduce mạng tính toán tới các nút chứa dữ liệu. Dữ liệu cho MapReduce bắt buộc nằm trên HDFS. Tất cả các đáp án. Phát biểu nào sau đây không đúng về Apache Hadoop? Xử lý dữ liệu phân tán với mô hình lập trình đơn giản, thân thiện hơn như MapReduce. Hadoop thiết kế để mở rộng thông qua ky thuật scale-out, tăng số lượng máy chủ Thiết kế để vận hành trên phần cứng phổ thông, có khả năng chống chịu lỗi phần cứng Thiết kế để vận hành trên siêu máy tính, cấu hình mạnh, độ tin cậy cao Công cụ nào có thể sử dụng để hỗ trợ import, export dữ liệu vào ra hệ sinh thái Hadoop? Oozie Flume Sqoop Hive Vai trò của YARN? Quản lý và phân phối tài nguyên trong cụm Hadoop Cung cấp giao diện người dùng mức cao, biến đổi truy vấn thành các job Mapreduce Cung cấp các chức năng phối hợp phân tán độ tin cậy cao như quản lý thành viên, bầu cử, giám sát trạng thái hệ thống Hadoop là một hệ sinh thái bao gồm các thành phần nào: MapReduce, YARN MapReduce, MySQL MapReduce, Skykeeper MapReduce, Heron Hadoop đạt được độ tin cậy thông qua cơ chế nhân bản dữ liệu trên nhiều máy chủ, do đó không yêu cầu...... trên các nút máy chủ này. RAID. Hệ thống tệp tin cục bộ (Local file system). Hệ điều hành. Hàm...... chịu trách nhiệm tổng hợp kết quả từ các tác vụ Map(). Reduce. Map. Sort. Không có phương án nào. Cơ chế tổ chức dữ liệu của Datanode trong HDFS? Các chunk là các tệp tin trong hệ thống tệp tin cục bộ của máy chủ datanode. Các chunk là các vùng dữ liệu liên tục trên ổ cứng của máy chủ datanode. Các chunk được lưu trữ tin cậy trên datanode theo cơ chế RAID. Cơ chế nhân bản dữ liệu trong HDFS? Namenode quyết định vị trí các nhân bản của các chunk trên datanode. Datanode là primary quyết định vị trí các nhân bản của các chunk tại các secondary datanode. Client quyết định vị trí lưu trữ các nhân bản với từng chunk. HDFS được lập trình bằng ngôn ngữ nào? C++. Java. Scala. Không đáp án nào đúng. Tác vụ...... có trách nhiệm xử lý một hoặc vài khối (chunk) dữ liệu và trả ra kết quả trung gian. Map. TaskTracker. Tất cả các phương án. Reduce. Thành phần...... có trách nhiệm thực thi các tác vụ (task) dược giao bởi JobTracker. MapReduce Mapper TaskTracker JobTracker Tình huống nào sau đây có thể không phù hợp với HDFS? Đọc, ghi ngẫu nhiên vào tệp tin. Lưu trữ dữ liệu liên quan đến các ứng dụng yêu cầu quyền truy cập dữ liệu có độ trễ thấp. Lưu trữ các tệp tin kích thước nhỏ. Không có đáp án đúng Đưa ra phát biểu đúng: Một công việc MapReduce thường chia tập dữ liệu đầu vào thành các phần độc lập được các tác vụ map xử lý theo cách hoàn toàn song song MapReduce xem dữ liệu là các cặp khoá-giá trị. Các ứng dụng thường triển khai các giao diện Mapper và Reducer để cài đặt các phương thức map và reduce. MapReduce chỉ làm việc với dữ liệu trên Hadoop HDFS. Đưa ra đáp án đúng: Hive không phải là một cơ sở dữ liệu quan hệ mà là một công cụ truy vấn hỗ trợ SQL để truy vấn dữ liệu HBase là một cơ sở dữ lớn có hỗ trợ SQL Pig là một cơ sở dữ liệu quan hệ có hỗ trợ SQL Tất cả các phương án. Một trang tin cậy (authority page) về một chủ đề là gì? Là trang được trỏ tới từ nhiều hub tốt Là trang được trỏ tới từ nhiều trang tin cậy Là trang trỏ đến nhiều hubs tốt Xét ma trận \(\hat {P}\) thu được bằng cách cộng số 0.1 vào tất cả các phần tử của ma trận xác suất chuyển P ở trên. Vậy \(\hat {P}\) có tạo ra một chuỗi ergodic Markov không? Có Không Chúng ta không thể nói gì về tính ergodic Giá trị của ô [1,1] trong ma trận kề của đồ thị sau là bao nhiêu? 0 1 2 4 Một chuỗi Markov ergodic là gì? (ergodic Markov chain) Một chuỗi cho phép ta có thể đi dần dần từ bất kỳ trạng thái nào đến bất kỳ trạng thái khác với xác suất dương Một chuỗi cho phép ta có thể đi trực tiếp từ bất kỳ trạng thái nào đến bất kỳ trạng thái khác với xác suất dương Một chuỗi mà trong đó tồn tại một cặp trạng thái không thể đi đến nhau Thuật toán PageRank xếp hạng các trang web như thế nào? PageRank sử dụng tỉ lệ ghé thăm dài hạn (long-term visit rate) của mỗi trang web, và tỉ lệ đó được tính từ ma trận xác suất chuyển PageRank sử dụng số lượng kết nối vào mỗi trang web PageRank sử dụng số lượng kết nối ra từ mỗi trang web PageRank xếp hạng một cách ngẫu nhiên Tác vụ nào không có trong phân tích liên kết? Xếp hạng đồ thị Nhận diện cộng đồng Dự đoán liên kết Phân tích cảm xúc Phương pháp mũ (Power method) có thể... tính tỉ lệ ghé thăm dài hạn cho mỗi trang web tính phân bố xác suất trạng thái dừng (steady-state probability distribution) cho một chuỗi Markov dùng một chuỗi Markov để dự đoán một chuỗi các trang sẽ ghé thăm tính một chuỗi các trang sẽ ghé thăm, khi cho trước điểm xuất phát Cho ma trận xác suất chuyển P ở trên. Cho biết P có tạo ra một chuỗi ergodic Markov không? Có Không Sự khác nhau giữa tập cơ sở (Base set S) và tập gốc (Root set W) trong thuật toán HITS là gì? Tập cơ sở được xây dựng từ tập gốc Tập gốc được xây dựng từ tập cơ sở Tập cơ sở là cơ sở để đánh giá chất lượng của các trang tìm được bởi HITS, dựa trên tập gốc Thuật toán HITS xếp hạng các trang web như thế nào? HITS tìm ra một tập nhỏ các hubs và các trang tin cậy, sử dụng một thuật toán lặp để tính toán điểm số cho các trang HITS tìm ra một tập nhỏ các trang tin cậy, sử dụng một thuật toán lặp để tính toán phân bố xác suất trạng thái dừng HITS tìm ra một tập nhỏ các trang tin cậy, sử dụng một thuật toán lặp để tính toán tỉ lệ ghé thăm dài hạn Trong các độ đo thứ hạng đỉnh dưới đây, độ đo nào chỉ dựa trên các đỉnh liền kề của đỉnh đang xét Độ trung tâm lân cận (Closeness centrality) Độ trung tâm trung gian (Betweenness centrality) Độ quan trọng theo bậc (Degree prestige) Độ quan trọng lân cận (Proximity prestige) Có bao nhiêu đường đi ngắn nhất từ A tới K trong đồ thị sau? 4 5 6 7 Sử dụng thuật toán Dijkstra, đường đi ngắn nhất từ s tới c có độ dài... 8 10 6 Không có đường đi từ s tới c Cho một chuỗi Markov với 5 trạng thái và ma trận xác suất chuyển P ở trên. Giả sử chúng ta đang ở một trạng thái nào đó, được biểu diễn bởi véctơ xác suất \(x=(0.1, 0, 0.2, 0.3, 0.4)\). Vậy ta sẽ di chuyển đến trạng thái 3 với xác suất là bao nhiêu nếu dùng một bước ngẫu nhiên? 0.350 0 0.1000000 3 0 Nếu độ sáng của một ảnh đa mức xám là 255, ảnh có đặc điểm nào dưới đây? Ảnh trắng toàn bộ Ảnh đen toàn bộ Ảnh có một vài khối đen, một vài khối trắng Không có điểm gì quá đặc biệt, có các điểm ảnh có thể nhận giá trị đa dạng trong miền giá trị của nó. Nếu độ sáng của một ảnh đa mức xám là 0, ảnh có đặc điểm nào dưới đây? Ảnh trắng toàn bộ Ảnh đen toàn bộ Ảnh có một vài khối đen, một vài khối trắng Không có điểm gì quá đặc biệt, có các điểm ảnh có thể nhận giá trị đa dạng trong miền giá trị của nó. Cho 2 histogram tương ứng của 2 ảnh như hình dưới, nhận định nào dưới đây là đúng? Histogram của ảnh I1 Histogram của ảnh I2 Độ sáng của ảnh I1 cao hơn độ sáng của ảnh I2. Độ sáng của ảnh I1 thấp hơn độ sáng của ảnh I2. Độ sáng của 2 ảnh tương tự nhau. Không so sánh được độ sáng của 2 ảnh này. Cho ảnh đa mức xám 256 mức không nén, cần bao nhiêu bytes để lưu trữ mỗi điểm ảnh? 1 3 8 24 Trong không gian màu nào thành phần màu và độ sáng không được mã hóa tách biệt trong các kênh? RGB HSV Lab YCbCr Cho 2 histogram tương ứng của 2 ảnh như hình dưới, nhận định nào dưới đây là đúng? Histogram của ảnh I1 Histogram của ảnh I2 Độ tương phản của ảnh I1 tốt hơn độ tương phản của ảnh I2. Độ tương phản của ảnh I2 tốt hơn độ tương phản của ảnh I1. Độ tương phản của ảnh I2 tương tự độ tương phản của ảnh I1. Không so sánh được độ tương phản của ảnh I1 và I2. Nhận định nào dưới đây là đúng? Histogram của hai ảnh khác nhau có thể giống nhau. Histogram của hai ảnh khác nhau luôn khác nhau. Histogram của ảnh luôn có 256 mức (256 bins). Nếu các đối tượng trong ảnh dịch sang trái 10 điểm ảnh, histogram của ảnh cũng được dịch sang trái. Mục đích của cân bằng histogram là gì? Tăng cường độ tương phản của ảnh.. Tăng độ sáng của ảnh. Biểu diễn nội dung của ảnh. Giảm nhiễu. Cho ảnh có đa mức xám 256 mức, cường độ sáng của điểm ảnh nhận giá trị trong khoảng nào? \([0, 255]\) \([0, 100]\) \([0, 256]\) \([1, 256]\) Nếu chúng ta chụp ảnh của cùng một đối tượng trong điều kiện chiếu sáng khác nhau, và biểu diễn chúng trong không gian màu Lab thì kênh màu nào có sự khác biệt lớn nhất giữa 2 ảnh? L a b a và b Có bao nhiêu kênh trong ảnh RGB? 3 1 8 4 Mục đích của bộ phát hiện Canny? Phát hiện biên Trích chọn đặc trưng cục bộ Trích chọn đặc trưng toàn cục Loại bỏ nhiễu Bộ phát hiện Canny sử đụng đạo hàm bậc mấy trên ảnh? Đạo hàm bậc nhất Đạo hàm bậc hai Cả đạo hàm bậc nhất và đạo hàm bậc 2 Không sử dụng đạo hàm bậc 1 hay bậc 2. Cho ảnh gốc ở bên trái, bộ lọc nào đã được sử dụng để thu được ảnh kết quả ở bên phải?? Bộ lọc Sobel Bộ lọc trung vị Bộ lọc Gauss Bộ lọc trung bình Cho một ma trận điểm ảnh (4x4) và một mặt nạ nhân chập, hãy cho biết giá trị của điểm ảnh (1,1) (điểm được in đậm) sau nhân chập? -60 60 22 50 Nhận định nào dưới đây về nhân chập 2D KHÔNG chính xác? Giá trị mới của điểm ảnh được tính bằng tổng có trọng số các giá trị điểm ảnh trong lân cận của nó.. Cùng một hàm số được áp dụng lên tất cả các điểm ảnh. Nhân chập 2D có thể được dùng để loại nhiễu, tăng cường độ sắc nét của ảnh hoặc để phát hiện biên.. Không đáp án nào trong số các đáp án được đề cập. Mệnh đề nào sau đây là đúng? Mặt nạ Laplace có thể dùng để tính đạo hàm bậc 2 của ảnh. Mặt nạ Laplace có thể dùng để tính đạo hàm bậc 1 của ảnh. Đạo hàm bậc 2 của ảnh không thể được sấp xỉ bởi phép nhân chập. Không đáp án nào trong số các đáp án được đề cập. Điểm biên được xác định bằng cách nào ? Tìm điểm đổi dấu (zero-crossing) trên đạo hàm bậc 2. Tìm cực trị địa phương trên đạo hàm bâc 1. Tìm điểm đổi dấu (zero-crossing) trên đạo hàm bậc 1. Tìm cực trị địa phương trên đạo hàm bâc 2. Nhận định nào về đặc trưng ảnh sau đây là đúng? Đặc trưng cục bộ mô tả nội dung một vùng nào đó trong ảnh. Đặc trưng cục bộ biểu diễn thông tin của toàn bộ bức ảnh. Histogram của ảnh là một đặc trưng cục bộ. Không đáp án nào trong số các đáp án được đề cập. Nhận định nào về đặc trưng ảnh sau đây là đúng? Đặc trưng toàn cục biểu diễn thông tin của toàn bộ bức ảnh. Đặc trưng cục bộ mô tả nội dung một vùng nào đó trong ảnh. SURF là một đặc trưng toàn cục. Không đáp án nào trong số các đáp án được đề cập. Mặt nạ dưới đây dùng cho bộ lọc nào? Bộ lọc trung bình Bộ lọc trung vị Bộ lọc gauss Bộ lọc tăng cường độ sắc nét của cạnh Mặt nạ dưới đây dùng cho bộ lọc nào? Bộ lọc trung bình Bộ lọc trung vị Bộ lọc gauss Bộ lọc tăng cường độ sắc nét của cạnh Các vùng để tính đặc trưng cục bộ được xác định bằng cách nào? Sử dụng phương phân vùng ảnh Chia ảnh thành các mảnh sử dụng lưới chia định nghĩa trước Phát hiện các điểm đặc trưng và xác định vùng cục bộ xung quanh điểm đặc trưng đó. Tất cả các phương án được đề cập. Hai ảnh dưới đây được là kết quả thu được khi áp dụng mặt nạ trung bình có kích thước khác nhau trên cùng một ảnh. Nếu ảnh bên trái là kết quả của bộ lọc có kích thước 9 x 9 thì ảnh bên phải là kết quả tương ứng của mặt nạ có kích thước nào? 15 x 15 9x9 5x5 3x3 SIFT là gì? Đặc trưng cục bộ Đặc trưng toàn cục Phương pháp tăng cường độ tương phản Bộ phát hiện biên Giả sử bạn dùng K-means để phân tích dữ liệu từ Facebook để tìm các nhóm người dùng đặc biệt. Khi tăng số lượng nhóm K lên, lỗi phân cụm trên tập huấn luyện sẽ luôn giảm. Bạn có thể gặp khó khi chọn K để thu được kết quả phân cụm tốt nhất. Khi đó bạn nên làm gì? Tìm một (hoặc vài) chuyên gia về lĩnh vực đó để đánh giá chất lượng của các nhóm/cụm tìm được Chọn K mà có lỗi phân cụm nhỏ nhất trên tập huấn luyện Chọn K mà có lỗi gần nhất với lỗi trung bình từ tất cả các thử nghiệm của bạn Hold-out có phải là một phương pháp để tiền xử lý và hiểu dữ liệu? Không, nó là một chiến lượng để đánh giá một mô hình Đúng, tất nhiên rồi Không, nó là một phương pháp để huấn luyện một mô hình từ một tập dữ liệu cho trước Giả sử bạn đã xây dựng một hệ thống phát hiện các tấn công mạng và chắc chắn rằng hệ thống đó có độ chính xác (accuracy) trên tập kiểm thử là 99%. Tuy nhiên, sếp của bạn nói rằng hệ thống đó không dùng được trong thực tế. Đâu có thể là lý do? Đánh giá của bạn về hệ thống đó có thể bị làm sai Độ chính xác có thể không phản ánh đúng mong muốn của sếp Sếp không có đủ tri thức để hiểu hệ thống đó và sự vất vả của bạn Tập huấn luyện có thể quá đơn giản. Bạn không may mắn Đánh giá mô hình là Việc đánh giá hiệu quả (chất lượng) của một mô hình hoặc phương pháp phân tích dữ liệu, bằng cách sử dụng một hoặc nhiều tập dữ liệu Việc đánh giá hiệu quả (chất lượng) của một mô hình hoặc phương pháp phân tích dữ liệu, chỉ bằng cách sử dụng các kịch bản thực tế Việc chúng ta khám phá một mô hình đã được học để tìm ra tri thức mới Giả sử bạn huấn luyện một mô hình phân loại trên một tập huấn luyện gồm 10,000 điểm và thu được độ chính xác trên tập đó là 99%. Tuy nhiên, khi bạn gửi nó lên Kaggle thì thu được độ chính xác là 67%. Cách làm nào sau đây có khả năng giúp bạn tăng hiệu quả trên Kaggle? Đặt hệ số hiệu chỉnh (nếu có) bằng 0 Huấn luyện trên nhiều dữ liệu hơn Dùng bước tối ưu tham số Bỏ bớt dữ liệu một cách ngẫu nhiên khi huấn luyện Phát biểu nào sau đây là SAI? Đánh giá mô hình và lựa chọn mô hình trong Học máy là hai thứ độc lập với nhau Đánh giá mô hình thường yêu cầu thực hiện bước lựa chọn mô hình Lựa chọn mô hình là một bước bắt buộc khi muốn so sánh nhiều mô hình (hoặc phương pháp) học máy khác nhau Phát biểu nào sau đây là phù hợp nhất về lựa chọn mô hình (model selection)? Lựa chọn mô hình quan tâm đến việc tìm thiết đặt tốt nhất về bộ (siêu) tham số trong một mô hình khi huấn luyện nó từ một tập dữ liệu. Đôi khi nó cũng nói đến việc lựa chọn một trong số các mô hình đang có. Lựa chọn mô hình chỉ quan tâm đến việc lựa chọn một mô hình tốt nhất từ một tập đang có. Các phát biểu khác đều sai. Khi sử dụng một phương pháp để phân tích dữ liệu, hai lần chạy khác nhau có thể thu được hai kết quả khác nhau mặc dù sử dụng cùng thiết đặt cho bộ tham số. Lý do có thể từ đâu? Do sự ngẫu nhiên khi chia tập dữ liệu đang có thành hai tập con dùng để huấn luyện và kiểm chứng Do việc sử dụng các thiết đặt khác nhau cho các tham số Do việc sử dụng các tập dữ liệu khác nhau Do dùng phương pháp đó sai cách Do tính ngẫu nhiên của thuật toán học/phân tích Khi khám phá dữ liệu, bạn phát hiện ra rằng thuộc tính A có tương quan mạnh với nhãn lớp. Tuy nhiên, khi huấn luyện một mô hình học máy từ tập dữ liệu, A thường làm giảm đáng kể độ chính xác. Tại sao tình huống này có thể xảy ra? A là một thuộc tính nhiễu A có tương quan âm với nhãn lớp Đánh giá của bạn có thể chưa kỹ lưỡng A có thể phổ biến và không có tính tách biệt Tình huống này không thể xảy ra Khi khám phá dữ liệu, bạn phát hiện ra rằng thuộc tính A có tương quan rất bé với nhãn lớp. Tuy nhiên, khi huấn luyện một mô hình học máy từ tập dữ liệu, A thường làm tăng độ chính xác. Tại sao tình huống này có thể xảy ra? A là một thuộc tính nhiễu A có tương quan âm với nhãn lớp Cách bạn đo độ tương quan có thể chưa mô tả đúng sự phụ thuộc ẩn giữa A và nhãn lớp A có thể cung cấp thêm tri thức cho mô hình A có thể phổ biến cho tất cả các nhãn lớp Tình huống này không thể xảy ra 3 tầng kiến trúc của...... là backend, artist, và scripting. Seaborn Pyplot Matlab Matplotlib Bạn sẽ làm gì khi muốn phân tích và khám phá dữ liệu? Thống kê các thông số của dữ liệu (min, max, avg, std,...) Tính toán tần suất xuất hiện của các giá trị dữ liệu Vẽ biểu đồ histogram của dữ liệu Tất cả các đáp án khác đều đúng Chỉ ra phát biểu đúng về biểu đồ scatter plot. Tập hợp các điểm được vẽ theo cả hai chiều thẳng đứng và nằm ngang Tập hợp các điểm được vẽ ngẫu nhiên trong hệ trục toạ độ Tập hợp các điểm nằm tập trung quanh một đường thẳng Không phát biểu nào đúng Chỉ ra phát biểu đúng về hình sau: Biểu đồ cột về dữ liệu chiều cao của cây Histogram về dữ liệu chiều cao của cây Đồ thị hiển thị dữ liệu về số lượng cây Đồ thị hiển thị dữ liệu về chiều cao của cây Khi phân tích histogram của dữ liệu, chúng ta muốn tìm kiếm những thông tin gì về dữ liệu? Correlation Asymmetry Statistical information Outliers Loại biểu đồ nào sau đây giúp biểu diễn trực quan dữ liệu dạng phân cấp tốt nhất? Treemap Population pyramid Bar chart Các lựa chọn khác là sai Loại biểu đồ nào thích hợp khi chúng ta muốn theo dõi sự thay đổi theo thời gian? Line graph Column Graph Bar Graph Tất cả các lựa chọn khác Loại công cụ trực quan hoá nào sẽ được sử dụng để biểu diễn độ phức tạp mã nguồn phần mềm? Trực quan hoá khoa học Trực quan hoá toán học Trực quan hoá thông tin Loại đồ thị nào ít nhập nhằng nhất và thường là lựa chọn tốt nhất để bắt đầu khám phá dữ liệu? Table chart Pie Chart Radial column chart Bar chart Một phiên bản của scatter plot cho phép hiển thị dữ liệu 3 chiều? A heatmap A scatter map A bubble plot Các lựa chọn khác là sai Một đối tượng cho phép giải thích cho các biểu tượng, màu sắc và các hình dạng mẫu được sử dụng trong các biểu đồ gọi là gì? Legend Chart title Axis title Data label Nhiệt độ thuộc loại dữ liệu nào trong các loại sau đây? Dữ liệu rời rạc không sắp xếp Dữ liệu liên tục sắp xếp được Dữ liệu rời rạc sắp xếp được Dữ liệu liên tục không sắp xếp được Những đặc trưng nào về dữ liệu có thể được trực quan hoá trong các biểu đồ scatterplot? Correlation Associations Skewness Dispersion Phát biểu nào đúng nhất về pie chart? Pie chart được dùng khi chúng ta muốn thể hiện sự kết hợp của các thành phần khác nhau trong dữ liệu Pie chart là 1 đồ thị hình tròn được chia thành các mảng khác nhau, mỗi mảng biểu hiện sự thay đổi theo thời gian Pie chart được sử dụng khi muốn so sánh các hạng mục dữ liệu Các phát biểu khác là sai Thông tin nào chúng ta có thể rút ra khi quan sát biểu đồ box plot? Lower/upper quartile Gap Probability distribution Skewness Thư viện nào cần được sử dụng nếu muốn trực quan hoá dữ liệu với Python? Numpy Pandas Seaborn Pyplot, pandas, seaborn Thư viện nào của Python thường được sử dụng để trực quan hoá dữ liệu? NLTK, Spacy, … Requests, Scrapy, BeautifulSoup, … Tensorflow, Keras, scikit-learn, … SciPy, NumPy, Matplotlib and Pandas, … Trong các phát biểu sau, đâu là phát biểu đúng nhất về việc lựa chọn kĩ thuật trực quan hoá phù hợp cho một loại dữ liệu? Thu thập dữ liệu, Tổ chức dữ liệu và phân tích dữ liệu Sử dụng biểu đồ cột phù hợp cho tất cả các loại dữ liệu Tạo ra các câu hỏi từ một kĩ thuật trực quan hoá dữ liệu Tất cả các phát biểu khác đều đúng Đâu là kết hợp đúng nhất về hàm (function) và tham số (parameter) để tạo ra 1 biểu đồ box plot trong Matplotlib? Function = plot, and Parameter = type with value = “box” Function = boxplot, and Parameter = type with value = “plot” Function = plot and Parameter = kind with value = “box” Function = plot and Parameter = kind with value = “boxplot” Đoạn code sau đây thể hiện đồ thị nào? question.plot(kind=’barh’) Line graph Column Graph Bar Graph Các lựa chọn khác là sai