Chương 3. Các phương pháp thống kê dữ liệu PDF
Document Details
Uploaded by DeadOnSwan2509
NEU
TS. Lương Văn Thiện
Tags
Summary
This document discusses statistical methods for data analysis, including topics like mean, median, mode, variance, standard deviation, and interquartile range. The document also presents examples and calculations related to these concepts.
Full Transcript
Các phương pháp thống kê dữ liệu TS. Lương Văn Thiện Business AI Lab, NEU www.tvluong.wordpress.com 1 Bài toán Một hãng ô tô khảo sát khả năng mua một loại xe mới của khách hàng bằng việc điều tra các thông tin của khách hàng...
Các phương pháp thống kê dữ liệu TS. Lương Văn Thiện Business AI Lab, NEU www.tvluong.wordpress.com 1 Bài toán Một hãng ô tô khảo sát khả năng mua một loại xe mới của khách hàng bằng việc điều tra các thông tin của khách hàng thông qua mạng xã hội. Thông qua mạng xã hội hãng sẽ thu thập được thông tin về tuổi (age) của khách hàng, và có thể đánh giá được thu nhập của khách hàng. Hãng muốn biết những khách hàng như thế nào thì sẽ có khả năng mua xe ? Nghiên cứu giải quyết bài toán 1. Đặt vấn đề -> xây dựng các giả thuyết 2. Thu thập dữ liệu -> các đối tượng được nghiên cứu 3. Tổ chức dữ liệu, phân tích, tính toán các đặc trưng thống kê 4. Kiểm chứng các giả thuyết, suy diễn để đưa ra các kết luận 5. Kháiquáhoáthôngtin thànhhệthốngtri thức Nghiên cứu giải quyết bài toán 1. Đặt vấn đề (Mô hình hóa bài toán) Input: Thông tin khách hàng Output: Khảnăng(Xácsuất) kháchhàngmuaxe 2. Dữ liệu 2. Dữ liệu Mỗi đối tượng trong tập dữ liệu Điểm dữ liệu (data instance / data point) hoặc mẫu (sample) Mỗi điểm dữ liệu được xác định bằng các trường thông tin Các biến số mô tả Features Feature vectors: Tậphợpcácbiếnsốmôtảdướidạng1 vector 2. Dữ liệu Các feature có thể là: số nguyên, số thực, chuỗi kí tự, Boolean Cẩn trọng khi thực hiện các phép toán trong không gian feature. 2. Dữ liệu Những thứ thu được từ dữ liệu? Tỉ lệ Nam / Nữ? Số người mua hàng? Khoảngtuổi? Tươngquangiữathunhậpvàtuổi? Tổng hợp báo cáo. Xây dựng kịch Tươngquangiữathunhậpvàkhảnăngmuahàng bản kinh doanh từ dữ liệu KháchhànglàNam / Nữsẽmuahàng? Dựđoánkhảnăngmuahàngcủamộtkháchhàng? …. 2. Dữ liệu (Phân tích dữ liệu) 3. Thống kê Tậphợptấtcácđốitượngthỏa1 đknghiêncứunàođó Baogồmtoànbộthànhviêncủa1 tậpxácđịnhnàođó Population VD: tậpkháchhàngthỏatiêuchí(20-60 tuổi) vàở HàNội Sample Tậpcon đượctáchratừquầnthểđểnghiêncứu. Từđó đưaracáckếtluậnvềquầnthể. Tậpcon đạidiệnchotoànbộquầnthể. Sẽcóbiênđộsaisốvớikhoảngtin cậy 3. Thống kê 3. Thống kê Các đặc trưng của thống kê trong tập dữ liệu Min / Max (Nhỏ nhất / lớn nhất) and Range Mean (Trungbình) Median (Trungvị) Mode (Yếuvị) Variance (Phươngsai) Standard deviation (Độlệchchuẩn) 3.1 Min / Max and Range MinValue is also known as infimum.MinValue is typically used to find the smallest possible values given constraints. MaxValue is also known as supremum.MaxValue is typically used to find the largest possible values given constraints. 3.2 Mean (Trung bình) 3.2 Mean (Trung bình) VD: Tập điểm môn Văn: D = {1, 3, 10.0, 5, 2, 3, 1.5, 2.5, 2} Hỏi điểm trungbìnhmôn Văn? 10.0làđiểmngoạilệ(outliers) Giátrịtrungbìnhnhạycảm(sensitive) vớinhữngđiểmngoạilệ Cầnpháthiệncácngoạilệtrong1 phânphốixácsuất, vìchúngcóthể làmthayđổikếtquảphântíchdữliệu 3.3 Median (Trung vị) Giá trị chia đôi tập dữ liệu 3.3 Median (Trung vị) Cách tính trung vị 3.3 Median (Trung vị) -1, 0, 1.5, 3, 7, 8, 100, 200 3.4 Mode (số yếu vị) Là giá trị của phần tử có số lần xuất hiện nhiều nhất trong danh sách hoặc tập mẫu. Vídụ, yếuvịcủa{1, 3, 6, 6, 6, 7, 7, 12, 12, 17} là6 3.4 Mode (số yếu vị) Yếu vị là giá trị đại diện nhất cho phân bố. VD, đo chiều cao và cân nặng của mọi người, các giá trị này sẽ tạo thành một phân bố hình cái chuông úp, đỉnh của đường cong hình chuông này sẽ là chiều cao và cân nặng phổ biến nhất của mọi người. Q1 Q1 Q2 Q2 3. 5 Variance (Phương sai) Đại lượng đặc trung cho độ phân tán (sai số của 1 phép đo) của tập dữ liệu quanh giá trị trung bình 3.5 Variance (Phương sai) 3.6 Standard deviation (Độ lệch chuẩn) Độ lệch chuẩn là thước đo độ phân tán của một tập hợp các giá trị so với giá trị trung bình của chúng. Độ lệch chuẩn của 1 giá trị càng thấp nghĩa là giá trị đó càng gần với giá trị trung bình của tập hợp. dữ liệu A có độ phân tán thấp dữ liệu B lại có sự phân tán lớn 3.6 Standard deviation (Độ lệch chuẩn) 3.6 Standard deviation (Độ lệch chuẩn) Độ lệch chuẩn cho ta biết được độ phân tán của giá trị thống kê so với giá trị trung bình, ở từng thời điểm khác nhau. Nếu độ lệch chuẩn thấp thì tính biến động không đáng kể và ngược lại. Cả độ lệch chuẩn và phương sai đều dùng để đo lường các mức độ lan truyền của dữ liệu trong bất kỳ tập dữ liệu nào. 3.7 Interquartile range (Tứ phân vị) Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba. Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau. Giá trị tứ phân vị thứ hai Q2 chính bằng giá trị trung vị Giá trị tứ phân vị thứ nhất Q1 bằng trung vị phần dưới Giá trị tứ phân vị thứ ba Q3 bằng trung vị phần trên 3.7 Interquartile range (Tứ phân vị) 3.7 Interquartile range (Tứ phân vị) 3.7 Interquartile range (Tứ phân vị) 3.7 Interquartile range (Tứ phân vị) The k’th percentile is the value Percentile such that k% of the data is less than or equal to that value. Quartiles k = 25,50,75,100 3.8 Phân tích tương quan Phân tích tương quan của 2 features trong 1 tập dữ liệu Quan hệ của 2 features như thế nào (x, y) 3.8 Phân tích tương quan Correlation coefficients are indicators of the strength of the linear relationship between two different variables,x and y Covariance is a measure of howtwo variables change together 1 N Cov(x, y) = σxy = ∑ (xi − x̄)(yi − ȳ) N i=1 N Cov(x, y) ∑ i=1 (xi − μx)(yi − μy) corr = = σxσy N ∑ i=1 (xi − μx)2(yi − μy)2 −1 < corr < 1 Covariance matrix? The covariance matrix is also known as the variance-covariance matrix, as the diagonal values of the covariance matrix show variances and the other values are the covariances. 1 N ¯ C= ¯ (Xi − X)(Xi − X) T N∑i=1 σ(x,x) σ(x,y) C= σ [ (y,x) σ(y,y)]