Podcast
Questions and Answers
Target population là gì?
Target population là gì?
- Nhóm 10 bạn
- Tổng thể mà có thể lấy mẫu ra
- Toàn bộ lớp
- Cái tổng thể mà muốn dùng ước lượng của mẫu để suy diễn (correct)
Sampled population là gì?
Sampled population là gì?
- Toàn bộ lớp
- Nhóm 10 bạn
- Tổng thể mà có thể lấy mẫu ra (correct)
- Mẫu ngẫu nhiên
What is the symbol for the population mean?
What is the symbol for the population mean?
- s
- µ (correct)
- p
- x
What is the purpose of taking multiple samples?
What is the purpose of taking multiple samples?
What is the sampling distribution of sample mean?
What is the sampling distribution of sample mean?
What is the purpose of finding the mean of sample means?
What is the purpose of finding the mean of sample means?
What is the condition for sampling distribution of sample mean?
What is the condition for sampling distribution of sample mean?
Phương sai và độ lệch chuẩn được sử dụng để đo lường mức độ nào của một biến ngẫu nhiên?
Phương sai và độ lệch chuẩn được sử dụng để đo lường mức độ nào của một biến ngẫu nhiên?
Trong kinh tế, khi phương sai hoặc độ lệch chuẩn càng lớn thì mức độ rủi ro sẽ:
Trong kinh tế, khi phương sai hoặc độ lệch chuẩn càng lớn thì mức độ rủi ro sẽ:
Trong phân phối chuẩn, trung vị, median và mode đều có giá trị nào?
Trong phân phối chuẩn, trung vị, median và mode đều có giá trị nào?
Đường cong của phân phối chuẩn có hình dạng nào?
Đường cong của phân phối chuẩn có hình dạng nào?
Tổng diện tích dưới đường cong của phân phối chuẩn là bao nhiêu?
Tổng diện tích dưới đường cong của phân phối chuẩn là bao nhiêu?
Vị trí của phân phối chuẩn được xác định bởi gì?
Vị trí của phân phối chuẩn được xác định bởi gì?
Đường cong của phân phối chuẩn có đặc điểm nào?
Đường cong của phân phối chuẩn có đặc điểm nào?
Phân phối chuẩn là một dạng phân phối xác suất nào?
Phân phối chuẩn là một dạng phân phối xác suất nào?
Ứng dụng phân tích dữ liệu kinh doanh được dùng để phân tích cái gì?
Ứng dụng phân tích dữ liệu kinh doanh được dùng để phân tích cái gì?
Thống kê mô tả giúp các nhà phân tích có cái nhìn nhanh về gì?
Thống kê mô tả giúp các nhà phân tích có cái nhìn nhanh về gì?
Thống kê mô tả giúp làm gì?
Thống kê mô tả giúp làm gì?
Cách xử lý dữ liệu thiếu là gì?
Cách xử lý dữ liệu thiếu là gì?
Hàm nào được dùng để làm sạch dữ liệu?
Hàm nào được dùng để làm sạch dữ liệu?
Mục đích của việc giảm kích thước là gì?
Mục đích của việc giảm kích thước là gì?
Biểu diễn biến (Variable representation) là gì?
Biểu diễn biến (Variable representation) là gì?
Ý nghĩa của thống kê mô tả là gì?
Ý nghĩa của thống kê mô tả là gì?
Phương pháp nào được sử dụng cho quy mô dữ liệu nhỏ, dưới 500 quan sát?
Phương pháp nào được sử dụng cho quy mô dữ liệu nhỏ, dưới 500 quan sát?
Ý nghĩa của Hierachical clustering là gì?
Ý nghĩa của Hierachical clustering là gì?
Phương pháp nào được sử dụng cho quy mô dữ liệu lớn và biết trước số lượng cụm cần phân cụm?
Phương pháp nào được sử dụng cho quy mô dữ liệu lớn và biết trước số lượng cụm cần phân cụm?
Tiêu chí nào được sử dụng để xác định khoảng cách giữa hai cụm trong Hierachical clustering?
Tiêu chí nào được sử dụng để xác định khoảng cách giữa hai cụm trong Hierachical clustering?
Ý nghĩa của Complete linkage là gì?
Ý nghĩa của Complete linkage là gì?
Centroid link được sử dụng để làm gì?
Centroid link được sử dụng để làm gì?
Jaccard’s coefficient được sử dụng cho loại dữ liệu nào?
Jaccard’s coefficient được sử dụng cho loại dữ liệu nào?
Số lượng quan sát lớn nhất được khuyến nghị sử dụng cho Hierachical clustering là bao nhiêu?
Số lượng quan sát lớn nhất được khuyến nghị sử dụng cho Hierachical clustering là bao nhiêu?
Tại sao chúng ta cần lấy mẫu nhiều lần?
Tại sao chúng ta cần lấy mẫu nhiều lần?
Tại sao phân phối t khác với phân phối chuẩn z?
Tại sao phân phối t khác với phân phối chuẩn z?
Giá trị của z khi độ tin cậy là 95%?
Giá trị của z khi độ tin cậy là 95%?
Tại sao chúng ta cần lấy 100 mẫu để tính độ tin cậy?
Tại sao chúng ta cần lấy 100 mẫu để tính độ tin cậy?
Giá trị trung bình của một mẫu bất kỳ là gì?
Giá trị trung bình của một mẫu bất kỳ là gì?
Tại sao chúng ta cần biết được biên độ sai số?
Tại sao chúng ta cần biết được biên độ sai số?
Tại sao độ tin cậy là 95%?
Tại sao độ tin cậy là 95%?
Giá trị của độ lệch chuẩn của tổng thể là gì?
Giá trị của độ lệch chuẩn của tổng thể là gì?
Study Notes
Ứng dụng phân tích dữ liệu kinh doanh
- Phân tích dữ liệu tài chính, quản trị nhân lực (HR), Marketing, Y tế, Chuỗi cung ứng Logistics, Dữ liệu chính phủ và các tổ chức phi lợi nhuận, dữ liệu thể thao, và dữ liệu web
- Thống kê mô tả giúp làm sạch dữ liệu, sửa đổi dữ liệu, và mô tả dữ liệu một cách có ý nghĩa để nhìn ra được các đặc điểm và mối quan hệ từ dữ liệu
Thống kê mô tả
- Giúp mô tả dữ liệu một cách có ý nghĩa để nhìn ra được các đặc điểm và mối quan hệ từ dữ liệu
- Làm sạch dữ liệu:
- Loại bỏ các quan sát (hàng) với bất kỳ chi tiết nào bị thiếu
- Loại bỏ bất kỳ biến (cột) có giá trị bị thiếu
- Điền vào các mục còn thiếu với các giá trị ước tính
- Áp dụng thuật toán khai thác dữ liệu có thể xử lý giá trị bị thiếu
- Xác định các ngoại lệ sai sót và các giá trị sai sót
- Biểu diễn biến (Variable representation):
- Giảm kích thước là quá trình loại bỏ không làm mất thông tin quan trọng
- Xác định cách biểu diễn các phép đo của các biến
Chuyển đổi dữ liệu trong Excel
- Jaccard's coefficient: dùng cho dữ liệu không phải dạng số
- CLUSTER ANALYSIS:
+Hierarchical clustering (Phân cụm phân cấp):
- Sử dụng cho quy mô dữ liệu nhỏ (dưới 500 quan sát)
- Không yêu cầu phải khai báo trước số lượng cụm
- K-means clustering (Phân cụm K-means):
- Sử dụng cho quy mô dữ liệu lớn
- Yêu cầu phải khai báo trước số lượng cụm
- K-means clustering (Phân cụm K-means):
HIEARCHICAL CLUSTERING
- Ban đầu mỗi observation là một cụm riêng biệt
- Thuật toán giúp tạo ra cụm những cụm lớn hơn bằng việc xác nhận những cụm nhỏ gần nhau
- 4 tiêu chí để chọn các cụm xác nhập:
- Single linkage
- Complete linkage
- Group average
- Centroid link
Variance and Standard Deviation
- The variance and Standard Deviation of a random Variable:
- Đo mức độ chênh lệch trong phân phối của biến ngẫu nhiên
- Phản ánh mức độ phân tán của biến ngẫu nhiên so với giá trị trung bình mean
- Standard deviation: độ lệch chuẩn của biến ngẫu nhiên
Normal Probability Distribution
- Đặc điểm:
- Có hình chuông và có một đỉnh duy nhất ở trung tâm phân bố
- Đối xứng qua giá trị trung
- Nó tiệm cận: đường cong càng gần trục X nhưng không bao giờ chạm vào
- Vị trí của phân phối chuẩn được xác định bởi trung bình µ, độ phân tán hoặc độ distribution của phân bố được xác định bởi độ lệnh chuẩn σ
- Trung bình số học, median và mode đều bằng nhau
- Tổng diện tích dưới đường cong là 1.00; một nửa diện tích nằm dưới đường cong nằm ở bên phải của điểm trung tâm; the mean và nửa còn lại nằm ở bên trái
Sampling Distributions
- Sampling Distribution of Sample mean: Phân phối của trung bình mẫu, phân phối trung bình mẫu xấp xỉ với phân phối chuẩn
- Phân phối của trung bình mẫu là việc mà chúng ta tìm ra các giá trị trung bình của các phân phối của trung bình mẫu, giá trị trung bình của các phân phối của trung bình mẫu nó sẽ bằng với trung bình của tổng thể
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Quiz về ứng dụng phân tích dữ liệu kinh doanh trong các lĩnh vực khác nhau, bao gồm tài chính, nhân lực, Marketing, Y tế, Logistics, và thể thao. Chương 2 tập trung vào thống kê mô tả và giúp các nhà phân tích có cái nhìn nhanh về xu hướng trung tâm và mức độ phân tán của các giá trị.