Nhập môn phân tích dữ liệu kinh doanh - Chương 2

AdaptiveViolin avatar
AdaptiveViolin
·
·
Download

Start Quiz

Study Flashcards

39 Questions

Target population là gì?

Cái tổng thể mà muốn dùng ước lượng của mẫu để suy diễn

Sampled population là gì?

Tổng thể mà có thể lấy mẫu ra

What is the symbol for the population mean?

µ

What is the purpose of taking multiple samples?

Để giảm thiệu sai số

What is the sampling distribution of sample mean?

Phân phối của trung bình mẫu

What is the purpose of finding the mean of sample means?

Để ước lượng giá trị trung bình của tổng thể

What is the condition for sampling distribution of sample mean?

Mẫu phải có cỡ bn và có cỡ bằng nhau

Phương sai và độ lệch chuẩn được sử dụng để đo lường mức độ nào của một biến ngẫu nhiên?

Mức độ chênh lệch trong phân phối

Trong kinh tế, khi phương sai hoặc độ lệch chuẩn càng lớn thì mức độ rủi ro sẽ:

Càng lớn

Trong phân phối chuẩn, trung vị, median và mode đều có giá trị nào?

Bằng nhau

Đường cong của phân phối chuẩn có hình dạng nào?

Hình chuông

Tổng diện tích dưới đường cong của phân phối chuẩn là bao nhiêu?

1.00

Vị trí của phân phối chuẩn được xác định bởi gì?

Trung bình và độ lệch chuẩn

Đường cong của phân phối chuẩn có đặc điểm nào?

Nó tiệm cận đường cong nhưng không bao giờ chạm vào trục X

Phân phối chuẩn là một dạng phân phối xác suất nào?

Phân phối xác suất chuẩn

Ứng dụng phân tích dữ liệu kinh doanh được dùng để phân tích cái gì?

Phân tích dữ liệu tài chính, quản trị nhân lực, Marketing, và các lĩnh vực khác

Thống kê mô tả giúp các nhà phân tích có cái nhìn nhanh về gì?

Xu hướng trung tâm và mức độ phân tán của các giá trị

Thống kê mô tả giúp làm gì?

Tất cả các câu trả lời trên

Cách xử lý dữ liệu thiếu là gì?

Tất cả các câu trả lời trên

Hàm nào được dùng để làm sạch dữ liệu?

=COUNTBLANK(C2:C457)

Mục đích của việc giảm kích thước là gì?

Giảm kích thước là quá trình loại bỏ không làm mất thông tin quan trọng

Biểu diễn biến (Variable representation) là gì?

Xác định cách biểu diễn các phép đo của các biến

Ý nghĩa của thống kê mô tả là gì?

Mô tả dữ liệu một cách có ý nghĩa

Phương pháp nào được sử dụng cho quy mô dữ liệu nhỏ, dưới 500 quan sát?

Hierachical clustering

Ý nghĩa của Hierachical clustering là gì?

Không yêu cầu phải khai báo trước số lượng cụm

Phương pháp nào được sử dụng cho quy mô dữ liệu lớn và biết trước số lượng cụm cần phân cụm?

K-means clustering

Tiêu chí nào được sử dụng để xác định khoảng cách giữa hai cụm trong Hierachical clustering?

All of the above

Ý nghĩa của Complete linkage là gì?

Tính khoảng cách giữa 2 điểm xa nhau nhất của 2 cụm

Centroid link được sử dụng để làm gì?

Tính giá trị trung bình của từng các quan sát trong 1 cụm

Jaccard’s coefficient được sử dụng cho loại dữ liệu nào?

Dữ liệu không phải dạng số

Số lượng quan sát lớn nhất được khuyến nghị sử dụng cho Hierachical clustering là bao nhiêu?

500

Tại sao chúng ta cần lấy mẫu nhiều lần?

Để ước lượng điểm của tham số một cách chính xác

Tại sao phân phối t khác với phân phối chuẩn z?

Phân phối t có đuôi nặng hơn

Giá trị của z khi độ tin cậy là 95%?

1.96

Tại sao chúng ta cần lấy 100 mẫu để tính độ tin cậy?

Để có 95 khoảng tin cậy có chứa giá trị trung bình của tổng thể

Giá trị trung bình của một mẫu bất kỳ là gì?

45,420$

Tại sao chúng ta cần biết được biên độ sai số?

Để biết được ước lượng điểm của tham số

Tại sao độ tin cậy là 95%?

Để có 95 khoảng tin cậy chứa giá trị trung bình của tổng thể

Giá trị của độ lệch chuẩn của tổng thể là gì?

2,050

Study Notes

Ứng dụng phân tích dữ liệu kinh doanh

  • Phân tích dữ liệu tài chính, quản trị nhân lực (HR), Marketing, Y tế, Chuỗi cung ứng Logistics, Dữ liệu chính phủ và các tổ chức phi lợi nhuận, dữ liệu thể thao, và dữ liệu web
  • Thống kê mô tả giúp làm sạch dữ liệu, sửa đổi dữ liệu, và mô tả dữ liệu một cách có ý nghĩa để nhìn ra được các đặc điểm và mối quan hệ từ dữ liệu

Thống kê mô tả

  • Giúp mô tả dữ liệu một cách có ý nghĩa để nhìn ra được các đặc điểm và mối quan hệ từ dữ liệu
  • Làm sạch dữ liệu:
    • Loại bỏ các quan sát (hàng) với bất kỳ chi tiết nào bị thiếu
    • Loại bỏ bất kỳ biến (cột) có giá trị bị thiếu
    • Điền vào các mục còn thiếu với các giá trị ước tính
    • Áp dụng thuật toán khai thác dữ liệu có thể xử lý giá trị bị thiếu
  • Xác định các ngoại lệ sai sót và các giá trị sai sót
  • Biểu diễn biến (Variable representation):
    • Giảm kích thước là quá trình loại bỏ không làm mất thông tin quan trọng
    • Xác định cách biểu diễn các phép đo của các biến

Chuyển đổi dữ liệu trong Excel

  • Jaccard's coefficient: dùng cho dữ liệu không phải dạng số
  • CLUSTER ANALYSIS: +Hierarchical clustering (Phân cụm phân cấp): - Sử dụng cho quy mô dữ liệu nhỏ (dưới 500 quan sát) - Không yêu cầu phải khai báo trước số lượng cụm
    • K-means clustering (Phân cụm K-means):
      • Sử dụng cho quy mô dữ liệu lớn
      • Yêu cầu phải khai báo trước số lượng cụm

HIEARCHICAL CLUSTERING

  • Ban đầu mỗi observation là một cụm riêng biệt
  • Thuật toán giúp tạo ra cụm những cụm lớn hơn bằng việc xác nhận những cụm nhỏ gần nhau
  • 4 tiêu chí để chọn các cụm xác nhập:
    • Single linkage
    • Complete linkage
    • Group average
    • Centroid link

Variance and Standard Deviation

  • The variance and Standard Deviation of a random Variable:
    • Đo mức độ chênh lệch trong phân phối của biến ngẫu nhiên
    • Phản ánh mức độ phân tán của biến ngẫu nhiên so với giá trị trung bình mean
  • Standard deviation: độ lệch chuẩn của biến ngẫu nhiên

Normal Probability Distribution

  • Đặc điểm:
    • Có hình chuông và có một đỉnh duy nhất ở trung tâm phân bố
    • Đối xứng qua giá trị trung
    • Nó tiệm cận: đường cong càng gần trục X nhưng không bao giờ chạm vào
    • Vị trí của phân phối chuẩn được xác định bởi trung bình µ, độ phân tán hoặc độ distribution của phân bố được xác định bởi độ lệnh chuẩn σ
    • Trung bình số học, median và mode đều bằng nhau
    • Tổng diện tích dưới đường cong là 1.00; một nửa diện tích nằm dưới đường cong nằm ở bên phải của điểm trung tâm; the mean và nửa còn lại nằm ở bên trái

Sampling Distributions

  • Sampling Distribution of Sample mean: Phân phối của trung bình mẫu, phân phối trung bình mẫu xấp xỉ với phân phối chuẩn
  • Phân phối của trung bình mẫu là việc mà chúng ta tìm ra các giá trị trung bình của các phân phối của trung bình mẫu, giá trị trung bình của các phân phối của trung bình mẫu nó sẽ bằng với trung bình của tổng thể

Quiz về ứng dụng phân tích dữ liệu kinh doanh trong các lĩnh vực khác nhau, bao gồm tài chính, nhân lực, Marketing, Y tế, Logistics, và thể thao. Chương 2 tập trung vào thống kê mô tả và giúp các nhà phân tích có cái nhìn nhanh về xu hướng trung tâm và mức độ phân tán của các giá trị.

Make Your Own Quizzes and Flashcards

Convert your notes into interactive study material.

Get started for free

More Quizzes Like This

Use Quizgecko on...
Browser
Browser