Quản Trị Các Nguồn Dữ Liệu PDF
Document Details
Uploaded by JovialReasoning2684
Tags
Summary
This document discusses database management, covering fundamental concepts, database structures, development, and normalization. It also touches upon data warehousing. It may be part of a course on data management or a similar subject.
Full Transcript
QUẢN TRỊ CÁC NGUỒN DỮ LIỆU Một số khái niệm cơ sở Các hoạt động cơ bản Các cấu trúc CSDL Phát triển CSDL Vấn đề chuẩn hóa dữ liệu Một số kỹ thuật hiện đại trong quản trị dữ liệu Một số khái niệm cơ sở Thuộc tính Trường dữ liệu...
QUẢN TRỊ CÁC NGUỒN DỮ LIỆU Một số khái niệm cơ sở Các hoạt động cơ bản Các cấu trúc CSDL Phát triển CSDL Vấn đề chuẩn hóa dữ liệu Một số kỹ thuật hiện đại trong quản trị dữ liệu Một số khái niệm cơ sở Thuộc tính Trường dữ liệu Thực thể (Entity) (Attribute) (Field) Cơ sở dữ liệu Bản ghi (Record) Bảng dữ liệu (Table) (Database) Hệ QTCSDL (Database Hệ CSDL (Database Management System) System) Các hoạt động cơ bản liên quan đến Cơ sở dữ liệu (CSDL) Nh p d li u vào CSDL Truy v n CSDL T o báo cáo t CSDL Các cấu trúc CSDL Cấu trúc dữ liệu phân cấp (Hierachical Structure) Cấu trúc dữ liệu mạng (Network Structure) Cấu trúc dữ liệu quan hệ (Relationship Structure) Cấu trúc dữ liệu đa chiều (Multidimentional Structure) Cấu trúc dữ liệu hướng đối tượng (Object-Oriented Structure) Quá trình tiến hóa của các cấu trúc CSDL Cấu trúc phân cấp: dành cho các xử lý giao dịch có tính cấu trúc và mang tính thủ tục. Cấu trúc mạng: phù hợp trong trường hợp các phần tử của CSDL tồn tại nhiều quan hệ nhiều - nhiều. Cấu trúc quan hệ: hỗ trợ các yêu cầu thông tin đột xuất, nhưng không xử lý được lượng lớn các giao dịch nghiệp vụ một cách nhanh chóng và hiệu quả như hai cấu trúc trên. Cấu trúc hướng đối tượng và đa chiều: khắc phục nhược điểm trên, ứng dụng nhiều trong các UD WEB và phân tích trực tuyến. Phát triển CSDL Một số vấn dề liên quan đến phát triển CSDL Các quản trị viên CSDL (Database Administrator) Ngôn ngữ định nghĩa dữ liệu (Data Definition Language – DDL). Từ điển dữ liệu (Data Dictionary)/Kho dữ liệu đặc tả (Metadata Repository). Phần mềm quản trị CSDL Quy trình phát triển hệ thống quản trị dữ liệu 1. Phân tích yêu cầu 2. Thiết kế mức ý niệm 3. Thiết kế mức logic 4. Thiết kế mức vật lý 5. Triển khai 6. Bảo trì Vấn đề chuẩn hóa dữ liệu Khái niệm phụ thuộc hàm Chuẩn hóa CSDL Khái niệm phụ thuộc hàm Phụ thuộc hàm giữa hai thuộc tính: thuộc tính Y phụ thuộc hàm vào thuộc tính X (XY) nếu mỗi giá trị của X xác định một giá trị duy nhất của Y. Ví dụ: Mã hàng hóa xác định duy nhất tên hàng hóa. Phụ thuộc hàm toàn bộ: thuộc tính Y phụ thuộc hàm toàn bộ vào cặp thuộc tính (X1,X2) nếu thỏa mãn các điều kiện sau: Mỗi cặp giá trị (X1,X2) xác định 1 giá trị Y duy nhất. Mỗi giá trị của X1 hoặc X2 không đủ để xác định giá trị duy nhất cho Y. Ví dụ: thuộc tính SOLUONG phụ thuộc hàm toàn bộ vào cặp thuộc tính (SOHD, MAHH) Khái niệm phụ thuộc hàm (tiếp) Phụ thuộc hàm bắc cầu: thuộc tính Z phụ thuộc hàm bắc cầu vào thuộc tính X, nếu tồn tại một thuộc tính Y sao cho: Mỗi giá trị của X xác định một giá trị duy nhất của Y (XY). Mỗi giá trị của Y xác định mộtgiá trị duy nhất của Z (YZ). Mỗi giá trị của Z không đủ để xác định một giá trị duy nhất cho X (Z X). Vi dụ: SOHD MAKH TENKH Chuẩn hóa dữ liệu Chuẩn hóa (Normalization) là một kỹ thuật được phát triển vào những năm 70 để làm cho các CSDL phức tạp trở nên hiệu quả hơn và dễ quản lý hơn bằng các hệ quản trị CSDL. Lý do áp dụng các quy tắc chuẩn hóa cho CSDL vì các dạng chuẩn hóa: Cho phép đo lường chất lượng của thiết kế CSDL với sự trợ giúp của các công cụ chuẩn hóa; Cho phép nghiên cứu sự phụ thuộc giữa các thuộc tính đơn lẻ; Cho phép chuyển đổi các bảng trùng lắp thành không trùng lắp; Chuẩn hóa dữ liệu (tiếp) Lợi ích của chuẩn hóa CSDL: Tổ chức tổng thể CSDL tốt hơn; Giảm thiểu sự trùng lắp dữ liệu; Đảm bảo tính bền vững của dữ liệu trong CSDL; Có được thiết kế CSDL mềm dẻo hơn; Giải quyết vấn đề an toàn dữ liệu tốt hơn. Ba quy tắc chuẩn hóa dữ liệu Chuẩn hóa mức 1 (First Normal Form – 1NF): Một bảng hay là một quan hệ được coi là thỏa mãn quy tắc 1NF khi tất cả các giá trị của thuộc tính đều là đơn trị (không chấp nhận bộ giá trị hay các nhóm lặp). Chuẩn hóa mức 2 (Second Normal Form – 2NF): Một bảng dữ liệu được coi là thỏa mãn quy tắc 2NF, nếu bảng đó đã ở dạng 1NF và mỗi thuộc tính không phải khóa đều phụ thuộc hàm vào toàn bộ khóa. Chuẩn hóa mức 3 (Third Normal Form – 3NF): Một bảng dữ liệu được coi là thỏa mãn quy tắc 3NF, nếu bảng đó đã ở dạng 2NF và không có thuộc tính không phải khóa phụ thuộc hàm bắc cầu vào khóa. Các loại hình CSDL Cơ sở dữ liệu tác nghiệp (Operational Database): lưu trữ các dữ liệu chi tiết để hỗ trợ các quá trình nghiệp vụ và các hoạt động tác nghiệp trong tổ chức. Cơ sở dữ liệu phân tán (Distributed Database): các CSDL được tạo bản sao và gửi bản sao hoặc một phần của bản sao tới máy chủ. Có hai loại CSDL theo mô hình phân tán: CSDL phân tán thành phần (Partitioned database): các thành phần của CSDL được lưu trữ và quản trị rải rác ở nhiều nơi. CSDL phân tán sao lặp (Duplicate database): các bản sao của CSDL tập trung được lưu trữ và quản trị ở nhiều nơi khác nhau. Cơ sở dữ liệu phân tán thành phần CSDL tập trung Bộ xử lý trung tâm chủ Bộ xử lý trung tâm Bộ xử lý trung tâm từ xa từ xa CSDL thành phần CSDL thành phần từ xa A từ xa B Cơ sở dữ liệu phân tán sao lặp CSDL tập trung Bộ xử lý trung tâm chủ Bộ xử lý trung tâm Bộ xử lý trung tâm từ xa từ xa CSDL đúp từ xa A CSDL dúp từ xa B Các loại hình CSDL (tiếp) Cơ sở dữ liệu bên ngoài (Extranal Database): là các CSDL trên mạng Internet cho phép người dùng truy cập miễn phí hoặc với một khoản phí nhất định. Cơ sở dữ liệu siêu phương tiện (Hypermedia Database): tập hợp các trang thông tin đa phương tiện có liên kết với nhau trên một website thực chất là một CSDL của các thành phần trang thông tin đa phương tiện có quan hệ với nhau thay vì là một CSDL của các bản ghi có quan hệ tương tác với nhau. Một số kỹ thuật hiện đại trong quản trị dữ liệu Kỹ thuật Client/Server trong quản trị CSDL: CSDL nằm trong máy chủ CSDL (Database Server) Chương trình xử lý dữ liệu nằm ở máy khách (Client) Kho dữ liệu (Data Warehouse): kho dữ liệu tích hợp nhiều CSDL và các nguồn thông tin khác nhau cho phép người sử dụng truy vấn, phân tích và xử lý dữ liệu và có các đặc điểm sau: Chỉ hỗ trợ quá trình ra quyết định, ko hỗ trợ xử lý giao dịch như các CSDL đơn lẻ, chuyên biệt khác. Nguồn gốc dữ liệu đa dạng (các hệ thống nghiệp vụ chủ chốt của tổ chức, các nguồn dữ liệu bên ngoài,..) được quản trị bằng các mô hình dữ liệu khác nhau. Sao chép dữ liệu từ các nguồn khác nhau một cách có chọn lọc và được chuẩn hóa theo mô hình dữ liệu chung Các thành phần của Data Warehouse Dữ liệu nội bộ Trích rút và chuyển đổi DATA dữ liệu WAREHOUSER Truy vấn tin Báo cáo Xử lý phân Dữ liệu tích trực tuyến bên ngoài Khai phá dữ liệu Chỉ mục thông tin Một số kỹ thuật hiện đại trong quản trị dữ liệu (tiếp) Kho dữ liệu chuyên biệt (Data Marts): là tập hợp con dữ liệu phục vụ cho một lĩnh vực riêng của tổ chức. Kỹ thuật khai thác và phân tích dữ liệu (Data Mining): là phương pháp được sử dụng để sắp xếp và phân tích thông tin, còn được gọi là xử lý phân tích trực tuyến OLAP. Cho phép cán bộ quản lý đi từ số liệu khái quát đến dữ liệu chi tiết, sắp xếp, lọc dữ liệu, phân tích thống kê, … Cho phép trích rút tri thức kinh doanh từ Data Warehouse. Quy trình trích rút tri thức kinh doanh từ Data Warehouse Chuyển Chọn Data Biểu diễn, đổi dữ lọc dữ Mining đánh giá liệu liệu Các dữ liệu Data Khuôn mẫu Tri thức Các CSDL chọn lọc Warehosse Xu thế kinh doanh Các hoạt động được hỗ trợ bởi tri thức kinh doanh Phân tích giỏ thị trường Tìm nguyên nhân của các vấn đề liên quan đến chất lượng hay sản xuất Ngăn chặn nguy cơ khách hàng từ bỏ quan hệ với tổ chức, tạo ra các mối quan hệ khách hàng mới. Bán hàng cross-sell cho khách hàng hiện thời Quản lý dữ liệu về khách hàng chính xác hơn.