ISYS6332 Data Warehouse Lecture Notes PDF
Document Details
Uploaded by AwedExuberance
BINUS UNIVERSITY
Tags
Summary
This document is a set of lecture notes on data warehouse concepts, covering topics such as introduction, history, defining data warehousing, and data warehouse architecture. The lecture notes are from BINUS UNIVERSITY.
Full Transcript
LECTURE NOTES ISYS6332 Data Warehouse Week ke - 1 Data Warehouse Concept ISYS6507 – Testing and System Implementation LEARNING OUTCOMES LO1: Describe data warehouse concept on business organization. LO1 : Mahasiswa diharapkan mampu mendeskripsikan konsep data warehouse dalam organisasi bisnis...
LECTURE NOTES ISYS6332 Data Warehouse Week ke - 1 Data Warehouse Concept ISYS6507 – Testing and System Implementation LEARNING OUTCOMES LO1: Describe data warehouse concept on business organization. LO1 : Mahasiswa diharapkan mampu mendeskripsikan konsep data warehouse dalam organisasi bisnis OUTLINE MATERI : 1. Introduction 2. History 3. Defining data warehousing 4. Data warehouse architecture 5. Benefits of data warehousing 6. Problems or limitations of data warehousing 7. Data Marts ISI MATERI A. Introduction Sebuah data warehouse (gudang data) adalah database historis dan harus dianggap sebagai memori jangka panjang dari sebuah organisasi/perusahaan. Untuk memahami istilah ini dengan lebih baik, mari kita perhatikan database Sistem Manajemen Universitas. Selama masa studi mahasiswa di universitas, datanya akan disimpan di penyimpanan data utama dan semua operasi basis data seperti insert, update, delete, dan retrieve akan dilakukan di sana. Basis data ini biasanya disebut OLTP. Tetapi begitu seorang siswa lulus/pergi, databasenya biasanya dihapus dari OLTP karena OLTP dimaksudkan untuk melakukan operasi sehari-hari. Namun, manajemen mungkin tertarik untuk mempertahankan data siswa lama. Semua data historis dapat menjadi hal yang vital bagi organisasi untuk melakukan analisis data selanjutnya. Semua record historis tersebut dapat dipindahkan ke penyimpanan data terpisah yang dikenal sebagai gudang data atau data warehouse dan dapat dipanggil bila diperlukan di masa mendatang. Data historis tidak boleh dirusak; tidak ada operasi insert, update, dan delete yang harus dilakukan. Biasanya data ini hanya digunakan untuk pencarian seperti verifikasi dan analisis data. Jadi, ketika data digeser dari OLTP ke data warehouse, data tersebut dinormalisasi, karena normalisasi sebelumnya dilakukan untuk menghapus anomali penyisipan, pembaruan, dan penghapusan, tetapi sekarang hanya pengambilan yang penting. Jadi, untuk meningkatkan kinerja pengambilan, tabel yang lebih kecil digabungkan bersama untuk membentuk tabel yang lebih besar di bawah proses denormalisasi untuk membuat pengambilan atau analisis data lebih efisien. Gudang data biasanya digunakan untuk Online Analytical Processing (OLAP) untuk mendukung kueri manajemen. Kegunaan data warehouse adalah untuk menjawab pertanyaan umum dari manajemen seperti contoh pada gambar 1.1. Gambar 1.1. Menjawab pertanyaan manajemen Raksasa teknologi IBM, merancang konsep data warehouse. Mereka menyebutnya 'information warehouse'. Sejak itu, sistem data warehousing telah berkembang sebagai salah satu teknologi utama yang digunakan oleh perusahaan modern untuk keuntungan yang lebih baik. B. History Gambar 1.2 menyoroti perkembangan sejarah data warehouse. Gambar 1.2. Perkembangan historis dari data warehouse C. Defining data warehousing Sebuah data warehouse dapat didefinisikan sebagai, 'Pengumpulan data yang berorientasi pada subjek, terintegrasi, time variant, dan non-volatil untuk mendukung proses pengambilan keputusan manajemen.' Berikut akan kita bahas satu persatu. 1. Berorientasi subyek Yang dimaksud bahwa data warehouse berorientasi pada subjek ialah mereka dibangun di sekitar entitas data utama atau subjek organisasi. Misalnya, di Universitas, subjek data (entitas yang diteliti) dapat berupa siswa, guru, dan berbagai program studi, sedangkan di perusahaan subjek dapat berupa pekerja, magang, jasa, dan barang. 2. Integrated/ terintegrasi Sebuah data warehouse mengintegrasikan (menggabungkan) data dari beberapa sistem untuk memberikan pandangan yang luas dari data perusahaan yang ada, oleh karena itu mereka dikatakan 'terintegrasi'. 3. Time variant Dalam data warehouse, data tidak selalu up to date karena berisi data historis yang valid atau akurat sampai beberapa titik waktu (atau interval waktu). 4. Non-volatile Data warehouse digambarkan sebagai memori perusahaan jangka panjang karena sifatnya yang tidak mudah menguap karena data tidak diperbarui secara real time tetapi lebih tepatnya direfresh secara teratur. Oleh karena itu, data baru yang ditambahkan masuk seperti suplemen ke database, bukan pengganti. Basis data terus menyerap data baru ini, secara bertahap mengintegrasikannya dengan data sebelumnya. D. Data warehouse architecture Setiap gudang data memiliki tiga komponen dasar seperti yang ditunjukkan pada Gambar 1.3. berikut ini. Gambar 1.3. Arsitektur dari data warehouse 1. Load manager Load manajer bertanggung jawab atas pengumpulan data dari sistem operasional. Dia juga melakukan konversi data menjadi beberapa bentuk yang dapat digunakan lebih lanjut oleh pengguna. Ini mencakup semua program dan antarmuka aplikasi yang diperlukan untuk mengekstraksi data dari sistem operasional, persiapannya, dan akhirnya memuat data ke dalam data warehouse itu sendiri. Load manager harus melakukan tugas-tugas berikut ini : a. Identifikasi Data b. Validasi Data untuk akurasinya c. Ekstraksi Data dari sumber aslinya d. Pembersihan data e. Pemformatan data f. Standarisasi data (yaitu membawa data agar sesuai dengan beberapa format standar) g. Mengonsolidasikan data dari berbagai sumber ke satu tempat h. Pembentukan Integritas Data menggunakan Integrity constraint 2. Warehouse manager Warehouse Manajer adalah bagian utama dari sistem Data Warehousing karena menyimpan sejumlah besar informasi dari berbagai sumber. Bagian ini mengatur data sedemikian rupa sehingga menjadi mudah bagi siapa saja untuk menganalisis atau menemukan informasi yang diperlukan. Warehouse manager adalah inti dari data warehouse itu sendiri. Dia mempertahankan tiga tingkat informasi, yaitu, details, lightly summarized dan highly summarized. Dia juga bertugas memelihara data mete, yaitu data about data. 3. Query manager Akhirnya Query manager adalah antarmuka yang menghubungkan pengguna akhir dengan informasi yang disimpan di data warehouse melalui penggunaan alat pengguna akhir khusus. Alat-alat ini dikenal sebagai alat akses data mining. Pasar saat ini dibanjiri dengan alat yang memiliki fungsi umum dan ketentuan untuk menyesuaikan lebih banyak fitur khusus untuk suatu perusahaan. Alat-alat ini memiliki berbagai kategori seperti kueri dan pelaporan, statistik, data discovery, dll. E. Benefits of data warehousing Sebuah data warehouse dapat melakukan keajaiban jika diimplementasikan dengan sukses; beberapa keunggulan dan manfaat yang dapat diberikan dapat dilihat di bawah ini. 1. Potensi ROI tinggi (Pengembalian Investasi) Berinvestasi di Data Warehousing itu sendiri merupakan investasi yang sangat besar, tetapi laporan sebelumnya menunjukkan pertumbuhan ROI hingga 400% pada organisasi yang menggunakan Data Warehousing, hal ini menjadikannya pilihan berharga untuk bisnis. 2. Keunggulan kompetitif yang tak terkalahkan Implementasi Data Warehousing dapat memberikan keunggulan kompetitif bagi perusahaan atas para pesaingnya. Dengan Data Warehousing, perusahaan dapat menemukan fakta dan angka yang sebelumnya tidak tersedia, tren, dan informasi yang belum dimanfaatkan. Pengungkapan baru semacam itu akan meningkatkan kualitas keputusan. 3. Produktivitas Tinggi dalam pengambilan keputusan perusahaan dan business intelligence Data Warehousing menggabungkan data dari berbagai sumber menjadi informasi yang berarti yang dapat dianalisis dan dirujuk oleh manajer untuk meningkatkan keputusan mereka bagi organisasi. 4. Hemat biaya Dengan Data Warehousing memungkinkan untuk merampingkan organisasi sehingga mengurangi biaya overhead dan mengurangi biaya produk. 5. Layanan pelanggan yang ditingkatkan Data Warehousing memberikan dukungan penting saat berkomunikasi dengan pelanggan dan dengan demikian membantu meningkatkan kepuasan pelanggan dan mempertahankannya. F. Problems or limitations of data warehousing Masalah yang terkait dengan pengembangan dan pengelolaan data warehousing adalah sebagai berikut. 1. Meremehkan sumber daya untuk data ETL Cukup sering pengguna meremehkan total waktu pemrosesan yang diperlukan untuk melakukan operasi ekstraksi, pembersihan, dan pemuatan data sebelum melakukan data warehousing. Jadi, dalam implementasi real time banyak proses lain yang terganggu dan operasi dapat terganggu sementara hal itu terjadi. 2. Sistem sumber yang salah Ada banyak masalah tersembunyi yang terkait dengan sistem sumber yang digunakan untuk memasukkan data. 3. Data yang diperlukan tidak diambil Data warehouse menyimpan informasi rinci, namun sering kali dengan sengaja melewatkan beberapa detail kecil yang nantinya dapat digunakan untuk analisis atau tugas lainnya. Misalnya, tanggal pendaftaran saat menambahkan detail properti baru mungkin tidak digunakan dalam sistem sumber tetapi mungkin sangat berguna selama analisis. 4. Meningkatnya permintaan pengguna akhir dan demands Dari sisi pengguna akhir, kueri tidak pernah berakhir. Bahkan setelah pertanyaan awal telah ditangani dengan memuaskan, rantai pertanyaan lebih lanjut dapat mengikuti. 5. Hilangnya informasi selama homogenisasi data Ketika data dari berbagai sumber digabungkan, kehilangan informasi dapat terjadi saat mengubah format. 6. Permintaan sumber daya yang tinggi Sumber daya seperti ruang disk yang besar diperlukan untuk menyimpan sejumlah besar data yang terakumulasi setiap hari. 7. Kepemilikan data Cukup sering ketika satu departemen dimintai beberapa data, departemen tersebut enggan atau lambat dalam memproses permintaan tersebut. Mereka mungkin takut kehilangan kepemilikan data atau kendali atas data. Hal ini menyebabkan kelambatan dan gangguan dalam proses Data Warehousing. 8. Perawatan yang diperlukan Sebuah data warehouse membutuhkan perawatan yang tinggi. Setiap perubahan dalam proses bisnis atau reorganisasi sistem sumber dapat mempengaruhi data warehouse dan semua hal ini berkontribusi pada biaya pemeliharaan yang sangat tinggi. 9. Proyek berdurasi Panjang Mulai dari perencanaan hingga implementasi aktual, data warehouse menghabiskan banyak waktu dan uang; maka banyak organisasi yang pada awalnya enggan. 10. Kompleksitas integrasi Kinerja data warehouse dapat ditentukan berdasarkan kemampuan integrasinya. Dengan demikian, sebuah organisasi menghabiskan banyak waktu secara signifikan, dalam menentukan seberapa baik beberapa alat data warehousing dapat berjalan bersama (atau terintegrasi) untuk menghasilkan solusi, yang merupakan tugas yang sangat sulit karena banyak alat yang tersedia. Isu-isu data warehouse diringkas dalam Gambar 1.4.berikut. Gambar 1.4. Limitasi Data Warehouse G. Data Marts Data warehouse khusus departemen disebut sebagai 'data mart', yang merupakan data warehouse lokal kecil yang dibangun untuk satu tujuan. Biasanya dibangun untuk memenuhi kebutuhan sekelompok pengguna atau departemen dalam suatu organisasi. Misalnya, sebuah organisasi dapat memiliki banyak departemen, termasuk keuangan, departemen TI, dan lainnya. Masing-masing departemen ini dapat memiliki gudang data mereka sendiri, yang tidak lain adalah data mart dari departemen tertentu. Dengan demikian, data mart dapat didefinisikan sebagai 'penyimpanan data yang terspesialisasi, berorientasi subjek, terintegrasi, time-variant, dan volatile untuk mendukung subset tertentu dari keputusan manajemen'. Dengan cara yang disederhanakan, kita dapat mendefinisikan data mart sebagai 'Subset data warehouse yang mendukung persyaratan departemen atau fungsi bisnis tertentu'. Sebuah organisasi dapat memelihara baik data warehouse (mewakili data semua departemen dengan cara yang terpadu) dan data mart departemen individual. Oleh karena itu, data mart dapat berdiri sendiri (individual) atau terhubung secara terpusat ke data warehouse perusahaan seperti yang ditunjukkan pada Gambar 1.5. Gambar 1.5. Data Mart dan Data Warehouse Sering terlihat bahwa dengan bertumbuhnya data warehouse menjadi lebih besar dengan lebih banyak data, kemampuannya untuk melayani kebutuhan yang berbeda dari setiap perusahaan akan terganggu. Dalam kasus seperti itu, data mart datang untuk menyelamatkan, seperti pada perusahaan besar, data mart cenderung menjadi cara untuk membangun data warehouse dalam pendekatan berurutan atau bertahap. Kumpulan data mart dapat membentuk data warehouse di seluruh perusahaan. Sebaliknya, data warehouse dapat divisualisasikan sebagai kumpulan subset data mart seperti yang diilustrasikan pada Gambar 1.6. Gambar 1.6. Hubungan antara data mart dan data warehouse Berikut ini adalah ciri-ciri yang membedakan data mart dan data warehouse. 1. Data mart biasanya berfokus pada kebutuhan data dari beberapa departemen tertentu daripada keseluruhan organisasi. 2. Informasi rinci tidak terkandung oleh data mart (tidak seperti gudang data) 3. Mereka mudah dinavigasi, ditransfer, dan dijelajahi dibandingkan dengan data warehouse yang bekerja pada volume data yang besar. Berikut ini kita akan menjabarkan kelebihan dan kekurangan dari data mart. Kelebihan data mart yaitu : 1. Dengan data mart, pengguna mendapatkan data yang relevan, to the point. . 2. Data mart merespons dengan cepat. 3. Operasi data seperti pembersihan data, loading, transformasi, dan integrasi jauh lebih mudah dan lebih murah karena data mart bekerja dengan volume data yang rendah. Menerapkan dan menyiapkan data mart lebih sederhana daripada menerapkan gudang data untuk seluruh perusahaan. 4. Dibandingkan dengan data warehouse, menerapkan data mart jauh lebih ekonomis. 5. Pengguna potensial dari data mart dapat dikelompokkan dengan cara yang lebih baik daripada melibatkan banyak anggota yang tidak perlu. 6. Data mart dirancang atas dasar bahwa tidak perlu melayani seluruh perusahaan. Oleh karena itu, departemen dapat meringkas, memilih, dan menyusun data departemen mereka sendiri secara mandiri. 7. Data mart dapat memungkinkan setiap departemen untuk mengerjakan bagian tertentu dari data historis daripada keseluruhan data. 8. Departemen dapat menyesuaikan perangkat lunak untuk data mart mereka sesuai kebutuhan mereka. 9. Data mart lebih hemat biaya. Sedangkan limitasi atau kekurangan dari data mart yaitu : 1. Setelah beroperasi, karena keterbatasan dalam desain akan menjadi hal yang rumit ketika akan memperluas ruang lingkup ke departemen lain. 2. Masalah Integrasi Data sering ditemui. 3. Ketika data mart mengembangkan beberapa dimensi maka masalah skalabilitas menjadi hal yang umum. KESIMPULAN 1. Data Warehouse konsep adalah pengelolaan data historis dari berbagai transaksi perusahaan yang digunakan untuk mendapatkan informasi dari berbagai dimensi. 2. Benefit dari data warehouse: mampu memberikan informasi ROI yang tinggi, keunggulan kompetitif yang berbeda dengan para pesaing, hemat biaya, meningkatkan produktivitas karyawan. 3. Data mart adalah sub departemen data warehouse DAFTAR PUSTAKA 1. Parteek Bhatia. (2019). Data Mining and Data Warehousing Principles and Practical Techniques. Cambridge University Press. ISBN 978-1-108-72774-7