Artificial Intelligence (AI) & Applications - Lecture Notes PDF
Document Details
Uploaded by Deleted User
Trường Đại học Giao thông Vận tải Tp. Hồ Chí Minh
Huỳnh Kim Truyện
Tags
Summary
This document is a collection of lecture notes on artificial intelligence (AI) and applications, specifically focusing on various machine learning algorithms taught at the University of Transport, Ho Chi Minh City. The notes cover topics like linear regression, logistic regression, decision trees, and K-nearest neighbors and are designed for undergraduate-level students.
Full Transcript
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG ARTIFICIAL INTELLIGENCE (AI) & APPLICATIONS Giảng viên: Huỳnh Kim Truyện Email: [email protected] TRƯỜNG ĐẠI HỌC GIAO...
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG ARTIFICIAL INTELLIGENCE (AI) & APPLICATIONS Giảng viên: Huỳnh Kim Truyện Email: [email protected] TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Tài liệu tham khảo Giáo trình “A.I for everyone” của Nhà khoa học A.I Ông Andrew Ng (Google Brain - Baidu AI - Deeplearning.ai - Đại học Stanford) Christian Posthoff, Artificial Intelligence for Everyone, Springer 2024. S. Russell and P. Norvig. Artificial Intelligence: A Modern Approach (3rd Edition). Prentice Hall, 2009. Understanding the Science for Tomorrow: Myth and Reality của GS Jeffrey C. Grossman. 2 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG 2. THUẬT TOÁN HỌC MÁY Các thuật toán cơ bản và nâng cao Học giám sát Học không giám sát Học củng cố Thực hành và bài tập tình huống 3 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học máy(Machine Learning) là gì ? Machine Learning (ML) hay còn gọi được là học máy, một lĩnh vực của trí tuệ nhân tạo (AI) và khoa học máy tính. Vài quan điểm về học máy: Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt động) của nó [Simon, 1983] Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các dữ liệu hoặc kinh nghiệm trong quá khứ [Alpaydin, 2010] Ta nói một máy tính có khả năng học nếu nó tự cải thiện hiệu suất hoạt động P cho một công việc T cụ thể, dựa vào kinh nghiệm E của nó. Như vậy một bài toán học máy có thể biểu diễn bằng 1 bộ (T, P, E) T: một công việc (nhiệm vụ) P: tiêu chí đánh giá hiệu năng E: kinh nghiệm 4 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Bài toán : Lọc thư rác (email spam filtering) T: Dự đoán (để lọc) những thư điện tử nào là thư rác (spam email) ; P: số lượng thư điện tử gửi đến được phân loại chính xác.(% phân loại chính xác) E: Một tập các thư điện tử (emails) mẫu, mỗi thư điện tử được biểu diễn bằng một tập thuộc tính (vd: tập từ khóa) và nhãn lớp (thư thường/thư rác) tương ứng 5 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Bài toán(phân loại trang web theo chủ đề) T: Phân loại các trang Web theo các chủ đề đã định trước P: Tỷ lệ (%) các trang Web được phân loại chính xác E: Một tập các trang Web, trong đó mỗi trang Web gắn với một chủ đề 6 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Bài toán(Robot lái xe tự động) T: Robot (được trang bị các camera quan sát) lái xe tự động trên đường cao tốc P: Khoảng cách trung bình mà robot có thể lái xe tự động trước khi xảy ra lỗi (tai nạn) E: Một tập các vídụ: được ghi lại khi quan sát một người lái xe trên đường cao tốc, trong đó mỗi ví dụ gồm một chuỗi các ảnh và các lệnh điều khiển xe 7 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Quá trình học máy cơ bản ? 8 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Quá trình học máy toàn diện? 9 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Thuật toán máy học cơ bản: 1. Hồi quy tuyến tính (Linear Regression): Mô hình dự đoán giá trị liên tục dựa trên mối quan hệ tuyến tính giữa các biến độc lập và biến phụ thuộc. 2. Phân loại tuyến tính (Logistic Regression): Sử dụng để phân loại các giá trị rời rạc (như nhị phân) dựa trên mối quan hệ tuyến tính giữa các biến. 3. Cây quyết định (Decision Tree): Mô hình phân loại và hồi quy sử dụng cấu trúc cây để đưa ra quyết định dựa trên các điều kiện khác nhau. 4. K-Nearest Neighbors (KNN): Mô hình phân loại và hồi quy dựa trên khoảng cách giữa các điểm dữ liệu. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 1. Mô hình hồi quy tuyến tính đơn giản ? TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Hồi quy tuyến tính(LR): TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Quy trình thực hiện mô hình LR: 1. Thu thập dữ liệu Thu thập lưu trữ dữ liệu Tiền xử lý dữ liệu Chia dữ liệu: tập huấn luyện và tập kiểm tra 2. Huấn luyện mô hình 3. Đánh giá mô hình: Sử dụng các chỉ số như R-squared, MSE (Mean Squared Error), hoặc MAE (Mean Absolute Error) để đánh giá độ chính xác của mô hình. 4. Dự đoán. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Ưu điểm và nhược điểm: Ưu điểm: Nhược điểm: Đơn giản và dễ hiểu; Giả định tuyến tính; Nhanh chóng: Thời gian tính Độ nhạy với ngoại lệ; toán thường rất ngắn, đặc biệt Đa cộng tuyến với dữ liệu lớn; Đánh giá biến: Giúp xác định mức độ ảnh hưởng của từng biến độc lập đến biến phụ thuộc. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Ứng dụng mô hình hồi quy tuyến tính: Trong kinh tế học: Dự đoán doanh thu, lợi nhuận dựa trên các yếu tố kinh tế. Trong y học: Dự đoán nguy cơ mắc bệnh dựa trên các yếu tố sức khỏe. Trong tài chính: Dự đoán giá cổ phiếu dựa trên các yếu tố thị trường. Trong tiếp thị: Dự đoán hiệu quả của các chiến dịch quảng cáo dựa trên dữ liệu người tiêu dùng. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 2. Logistic Regression. Logistic Regression được gọi là phân lớp nhị phân - Binary Classification cụ thể mô hình này dùng để dự đoán output dựa vào các giá trị input đã cho. Hầu hết output của Losgistic Regression chỉ có 2 giá trị như: True/False, Yes/No, 0/1,... TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 2. Logistic Regression. Hàm liên tục, có giá trị trong khoảng (0;1) Có đạo hàm taị mọi điểm TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Linear Regression và Logistic Regression đều là học máy có giám sát và ứng dung trong dự đoán Linear Regression Logistic Regression Bài toán hồi quy Bài toán phân lớp Dự đoán giá trị liên tục Dự đoán giá trị rời rạc Mean Square Erro Cross Entropy Tìm đường thẳng phù hợp Tìm đường cong Sigmoid Đầu ra giá trị liên tục Đầu ra giá trị rời rạc trong (0;1) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 3.Cây quyết định (decision Tree): TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Lựa chon CNTT hay KTDTVT? TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Cây quyết định(decision Tree)? Cây quyết định là một thuật toán học máy được sử dụng cho cả bài toán phân loại và hồi quy. Cây quyết định sử dụng mô hình cây (tree) để đưa ra các quyết định dựa trên các điều kiện khác nhau được thể hiện qua các nút và nhánh của cây. Mỗi nút trong cây đại diện cho một thuộc tính của dữ liệu, mỗi nhánh đại diện cho một giá trị của thuộc tính đó, và mỗi lá (leaf) đại diện cho kết quả dự đoán cuối cùng. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Cấu trúc cây quyết định ? node gốc (root node): Là node ở vị trí đầu tiên của cây quyết định. node cha (parent node): Là node mà có thể rẽ nhánh xuống những node khác bên dưới. Node bên dưới được gọi là node con. node con (child node): Là những node tồn tại node cha. node lá (leaf node): Là node cuối cùng của một quyết định. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Ưu điểm Nhược điểm. Dễ hiểu Quá khớp (Overfitting) Không yêu cầu tiền xử lý Nhạy cảm với dữ liệu Có thể xử lý dữ liệu phân loại và hồi Giới hạn trong việc tìm kiếm tối ưu quy toàn cục: Cây quyết định được sử dụng rộng rãi trong nhiều lĩnh vực như tài chính, y tế, tiếp thị, và phân tích dữ liệu để đưa ra quyết định dựa trên các yếu tố khác nhau TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Bài toán: Giả sử bạn có một tập dữ liệu về thời tiết và bạn muốn dự đoán liệu có nên chơi tennis hay không dựa trên các yếu tố như thời tiết, độ ẩm, gió, và nhiệt độ. Anh chị hãy xây dựng cây quyết định. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 4. K-Nearest Neighbors (KNN): K-Nearest Neighbors (KNN) là một thuật toán học máy dùng cho cả phân loại và hồi quy. Thuật toán KNN hoạt động dựa trên nguyên tắc tìm 𝑘𝑘 điểm gần nhất trong không gian đặc trưng và sử dụng thông tin từ những điểm này để dự đoán nhãn lớp hoặc giá trị đầu ra cho điểm cần dự đoán. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 4. K-Nearest Neighbors (KNN): 1. Lưu trữ toàn bộ dữ liệu huẩn luyện 2. Xác định k láng giềng gần nhất 3. Tính khoảng cách Khoảng cách Euclidean: 𝑑𝑑 𝑝𝑝, 𝑞𝑞 = ∑𝑛𝑛𝑖𝑖=1(𝑝𝑝𝑖𝑖 − 𝑞𝑞𝑖𝑖 )2 Khoảng cách Manhattan(dung để phân loại dữ liệu) 𝑑𝑑 𝑝𝑝, 𝑞𝑞 = ∑𝑛𝑛𝑖𝑖=1 ∣𝑝𝑝𝑖𝑖 − 𝑞𝑞𝑖𝑖 ∣ 4. Dự đoán giá trị hoặc phân loại: TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Ứng dụng: KNN được sử dụng trong nhiều lĩnh vực như nhận dạng chữ viết tay, phân loại văn bản, phân loại hình ảnh và nhiều bài toán phân tích dữ liệu khác. Ưu điểm Nhược điểm: Đơn giản, dễ hiểu; Chi phí tính toán cao; Không cần huấn luyện; Không phù hợp với dữ liệu Có tính linh hoạt không công bằng TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Bài toán: Giả sử bạn có một tập dữ liệu về các loại hoa và bạn muốn phân loại một loại hoa mới dựa trên chiều dài và chiều rộng của cánh hoa. Giả sử bạn có một mẫu mới với chiều dài cánh là 1.3 cm và chiều rộng cánh là 0.2 cm. Bạn muốn phân loại mẫu này TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Hướng dẫn: Xác định K. Giả sử chọn K=3, tức là có 3 hàng sớm Tính khoảng cách(sử dụng khoảng cách Euclide). Chọn k=3 hàng xóm gần nhất là: (1.4, 0.2) – Setosa; (1.5, 0.2) – Setosa; (4.7, 1.4) - Versicolor Quyết định phân loại: Hai trong số ba hàng xóm gần nhất thuộc loại Setosa, trong khi một thuộc loại Versicolor. Do đó, mẫu mới sẽ được phân loại là Setosa dựa trên quy tắc bầu cử đa số. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH THẢO LUẬN NHÓM Dự đoán doanh số hoặc giá sản phẩm như giá ô tô (Car Prices) dựa vào các yếu tố như chi phí quảng cáo và các yếu tố liên quan khác, mô hình hồi quy tuyến tính là một công cụ rất hữu ích. Mô hình hồi quy tuyến tính giúp tìm ra mối quan hệ giữa biến phụ thuộc (ví dụ: giá ô tô) và một hoặc nhiều biến độc lập (ví dụ: chi phí quảng cáo, số lượng xe bán ra, v.v.) Hướng dẫn: - Dữ liệu trên trang: www.kaggle.com/datasets - Code Python tương ứng (ref: http://github.com/scikit-learn/scikit- learn/tree/main/examples) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 31 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Thuật toán máy học nâng cao 1. Hồi quy tuyến tính đa biến (Multiple Linear Regression- MLN): 2. Máy vector hỗ trợ (Support Vector Machine - SVM): 3. Mạng nơ-ron nhân tạo (Artificial Neural Networks-ANN): 4. Cụm K-means (K-means Clustering): TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 1. Hồi quy tuyến tính đa biến (Multiple Linear Regression): TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 2. Máy vector hỗ trợ (Support Vector Machine - SVM): Support Vector Machine – SVM là thuật toán dùng nhiều trong học máy. Mục tiêu SVM là tìm ra siêu phẳng N- chiều để chia dữ liệu thành 2 phần tương ứng với lớp của chúng. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Siêu phẳng tạo ra biên phân lớp 2 dữ liệu TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Siêu phẳng tối ưu có lề cực đại TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Số chiều của siêu phẳng phụ thuộc đặc trưng TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Các vecto hỗ trợ cách đều siêu phẳng TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 3. Artificial Neural Networks- ANN: mô phỏng dựa trên cách thức hoạt động của não người. Nó bao gồm một tập hợp các nơ-ron (điểm xử lý thông tin) được kết nối với nhau thông qua trọng số (weights) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Cấu trúc ANN : input layer, hidden layers, output layer TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Lan truyền ? TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Nguyên tắc hoạt động? (Feedforward): Dữ liệu được đưa vào lớp đầu vào và được truyền qua các lớp ẩn đến lớp đầu ra. Hàm kích hoạt: Các nơ-ron sử dụng hàm kích hoạt (như ReLU, sigmoid, hoặc tanh) để quyết định xem có "kích hoạt" hay không. Huấn luyện: Mô hình ANN được huấn luyện bằng cách sử dụng các thuật toán tối ưu (như thuật toán gradient descent) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Ứng dụng ANN: Nhận diện hình ảnh: Sử dụng trong các ứng dụng như phân loại hình ảnh, phát hiện đối tượng. Xử lý ngôn ngữ tự nhiên: Sử dụng trong dịch máy, phân tích cảm xúc. Dự đoán tài chính: Dự đoán xu hướng thị trường, phân tích rủi ro. Y tế: Phân tích hình ảnh y tế, chẩn đoán bệnh. … TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 4. Cụm k- mean(K-means Clustering): K-means phân chia một tập hợp dữ liệu thành K cụm, trong đó mỗi cụm được đặc trưng bởi một điểm trung tâm (centroid). TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Nguyên tắc hoạt động cụm K-mean? 1. Khởi tạo: Chọn số cụm K và ngẫu nhiên chọn K điểm dữ liệu làm điểm trung tâm ban đầu. 2. Phân nhóm: Gán mỗi điểm dữ liệu vào cụm gần nhất với nó, dựa trên khoảng cách (thường sử dụng khoảng cách Euclidean). 3. Cập nhật centroid: Tính toán lại điểm trung tâm của mỗi cụm bằng cách lấy trung bình các điểm dữ liệu trong cụm đó. 4. Lặp lại: Lặp lại bước 2 và bước 3 cho đến khi điểm trung tâm không thay đổi hoặc thay đổi rất ít (nghĩa là đạt được hội tụ). TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Ưu điểm và nhược điểm K-mean Ưu điểm: Nhược điểm: Đơn giản, dễ hiểu; Cần xác định trước cụm k; Nhanh chóng với tập dữ liệu Nhạy cảm với khởi tạo ban lớn. đầu (phụ thuộc chọn điểm Hiệu quả các dữ liệu cụm hình trung tâm) cầu Không hoạt động tốt với các cụm có hình dạng phức tạp Nhạy cảm với ngoại lệ TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH K-means có nhiều ứng dụng trong thực tế Phân đoạn khách hàng trong marketing. Nhận diện đối tượng trong xử lý hình ảnh. Tổ chức dữ liệu trong lưu trữ thông tin. Phân tích văn bản và phân cụm tài liệu. K-means là một công cụ mạnh mẽ trong phân cụm và là một trong những thuật toán được sử dụng nhiều nhất trong học máy TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH THẢO LUẬN BÀI TẬP NHÓM (1 Sự thay đổi giữa công thức máy học nâng cao so với cơ bản? (3)Tìm hiểu Overfitting và Underfitting là gì? và làm thế nào để tránh chúng ? (4) Tại sao việc đánh giá mô hình lại quan trọng trong học máy? TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 49 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Các phương pháp học máy: Học có giám sát; Học không giám sát; Học củng cố. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học có giám sát (Supervised Learning) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học có giám sát (Supervised Learning) Học có giám sát là một phương pháp trong học máy, nơi mà mô hình học từ một tập dữ liệu huấn luyện bao gồm các cặp đầu vào-đầu ra (input- output pairs). Mục tiêu là tìm ra một hàm ánh xạ từ đầu vào đến đầu ra dựa trên các ví dụ trong tập huấn luyện. Sau khi được huấn luyện, mô hình có thể dự đoán đầu ra cho các dữ liệu mới. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học có giám sát (Supervised Learning) Các thành phần chính: - Tập dữ liệu huấn luyện (Training Data) - Tập dữ liệu kiểm tra ( Testing Data) - Biến độc lập (Independent Variables) - Biến phụ thuộc (Dependent Variable) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học có giám sát (Supervised Learning) Các giai đoạn học có giám sát: 1. Thu thập và tiền xử lí dữ liệu 2. Chia tập dữ liệu ra thành 2 tập train và test 3. Lựa chọn thuật toán cơ bản hoặc nâng cao phù hợp TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học có giám sát (Supervised Learning) 4. Huấn luyện mô hình 5. Đánh giá mô hình + đánh giá độ chính xác + MSE, MAE, R-squared 6. Dự đoán TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học không giám sát (Unsupervised Learning) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học không giám sát (Unsupervised Learning) Học không giám sát là một phương pháp học máy mà mô hình học từ một tập dữ liệu không có nhãn (label). Mục tiêu của học không giám sát là tìm ra cấu trúc hoặc mẫu (patterns) trong dữ liệu. Không giống như học giám sát, học không giám sát không có thông tin trước về đầu ra đúng, và nó cố gắng tìm ra sự tương đồng và khác biệt trong dữ liệu dựa trên các đặc trưng (features). TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học máy không giám sát TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học không giám sát (Unsupervised Learning) Các Thành Phần Chính - Tập dữ Liệu Đầu Vào (Input Data): Bao gồm các ví dụ chỉ có đầu vào mà không có đầu ra, tức là không có nhãn lớp hoặc giá trị mục tiêu. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học không giám sát (Unsupervised Learning) Các giai đoạn học không giám sát 1. Thu Thập và Tiền Xử Lý Dữ Liệu: Thu thập dữ liệu và chuẩn bị dữ liệu bằng cách loại bỏ giá trị thiếu, giá trị ngoại lệ, và chuẩn hóa dữ liệu nếu cần thiết. 2. Chọn Thuật Toán Phù Hợp: Chọn thuật toán học không giám sát phù hợp với bài toán và dữ liệu. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học không giám sát (Unsupervised Learning) 3. Áp Dụng Thuật Toán: Áp dụng thuật toán học không giám sát để tìm ra cấu trúc hoặc mẫu trong dữ liệu. 4.Đánh Giá Kết Quả: Sử dụng các chỉ số như silhouette score, Davies-Bouldin index, hoặc trực quan hóa dữ liệu để đánh giá hiệu quả của phân cụm hoặc giảm chiều dữ liệu. Ưu Điểm và Nhược Điểm TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học không giám sát (Unsupervised Learning) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học củng cố (Reinforcement Learning) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học củng cố (Reinforcement Learning) Học củng cố là một phương pháp học máy trong đó một tác nhân (agent) học cách hành động trong một môi trường(environment) để tối đa hóa tổng phần thưởng (reward) nhận được theo thời gian. Không giống như học giám sát và học không giám sát, học củng cố dựa trên việc tác nhân nhận phản hồi từ môi trường thông qua phần thưởng hoặc hình phạt sau mỗi hành động. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học củng cố (Reinforcement Learning) Các thành phần chính - Tác nhân (Agent) - Môi Trường (Environment) - Trạng Thái (State) - Hành Động (Action) - Phần Thưởng (Reward) - Chính Sách (Policy) - Hàm giá trị (Value Function) TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Quy trình học cũng cố: Học củng cố (Reinforcement Learning) 1. Quan sát trạng thái: Tác nhân quan sát trạng thái hiện tại của môi trường 2. Chọn hành động: Tác nhân chọn một hành động dựa trên chính sách hiện tại 3. Thực hiện hành động: Tác nhân thực hiện hành động và môi trường chuyển sang trạng thái mới TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Học củng cố 4. Nhận phần thưởng: (Reinforcement Learning) Tác nhân nhận phản hồi từ môi trường dưới dạng phần thưởng hoặc hình phạt. 5. Cập nhật chính sách: Tác nhân cập nhật chính sách dựa trên phần thưởng để cải thiện quyết định trong tương lai. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH NỘI DUNG THẢO LUẬN NHÓM 1. Tìm hiểu các phương pháp học máy: học có giám sát, học không giám sát và học tăng cường. 2. So sánh giữa học có giám sát, học không giám sát và học tăng cường. 2. Liệt kê các thuật toán sử dung phương pháp học máy: học có giám sát; học không giám sát và học tăng cường. Hướng dẫn: - Sinh viên thảo luận nhóm (45 phút); - Thời gian trình bày < 10 phút TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Lab- chapter 2.02[làm việc nhóm] Sinh viên tham khảo: HowToUseGammaAI ; Tham khảo thêm: Dùng ChatGPT để hỗ trợ tạo ppt Sinh viên hãy làm bài giới thiệu ngành học của mình. TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH 70