NAMA : RIZKY NUGRAHA
KELAS : TEKNIK INFORMATIKA 3D
NPM : 1103225
PENGERTIAN DATA WAREHOUSE
Data warehouse adalah kumpulan macam-macam data yang subject oriented, integrated, time variant, dan nonvolatile. dalam mendukung proses pembuatan keputusan. Inmon and Hackathorn (1994).
Data warehouse sering diintegrasikan dengan berbagai sistem aplikasi untuk mendukung proses laporan dan analisis data dengan menyediakan data histori, yang menyediakan infrastruktur bagi EIS dan DSS.
subject oriented, integrated, time variant, non volatile
- Kenapa subject oriented?
Data warehouse diorganisasikan pada subjek-subjek utama, seperti
pelanggan, barang/ produk, dan penjualan. Berfokus pada model dan
analisis pada data untuk membuat keputusan, jadi bukan pada setiap
proses transaksi atau bukan pada OLTP. Menghindari data yang tidak
berguna dalam mengambil suatu keputusan.
- Kenapa integrated ?
Dibangun dengan menggabungkan/menyatukan data yang berbeda. relational databse, flat file, dan on-line transaction record. Menjamin konsistensi dalam penamaan, struktur pengkodean, dan struktur atribut diantara data satu sama lain.
- Data warehouse time variant?
Data disimpan untuk menyediakan informasi dari perspektif historical, data yang tahun-tahun lalu/ 4-5 thn. Waktu adalah elemen kunci dari suatu datawarehouse/ pada saat pengcapture-an.
- Kenapa Non Volatile?
Setiap kali proses perubahan, data akan di tampung dalam tiap-tiap
waktu. Jadi tidak di perbaharui terus menerus. Data warehouse tidak
memerlukan pemrosesan transaksi dan recovery. Hanya ada dua operasi initial loading of data dan access of data.
Data warehouse bukan hanya tempat penyimpanan data, Data warehouse adalah Business Intelligence tools, tools to extract, merubah (transform) dan menerima data (load) ke penyimpanan (repository) serta mengelola dan menerima metadata.
- Sejarah / Evolution
- 1960, Dunia komputerisasi membuat aplikasi individu yang digunakan pada file utama. General mill mulai mengembangkan istilah dimensi dan fakta.
- 1970, IRI menyediakan database dimensi untuk pembeli eceran, tahun untuk memperbaiki, mengembangkan dan mencocokan dengan hardware yang dimiliki.
- 1983, DBMS diperkenalkan untuk mengambil keputusan.
- 1988, Barry dan Paul mempublikasikan karyanya tentang Arsitektur Bisnis dan Sistem Informasi
- 1990, memperkenalkan tool DBMS sebagai alat untuk data warehouse.
- 1990-sekarang, banyak bermunculan buku-buku data warehouse dan aplikasi-aplikasi data warehouse.
- Arsitektur Data warehouse
Maksudnya adalah bagaimana datawarehouse dibangun, arsitektur tidak
ada yang benar dan salah tetapi suatu arsitektur dibangun tergantung
situasi dan kondisi. Arsitektur datawarehouse akan berpengaruh pada
penggunaan dan pemeliharaan.
Kenapa dan Untuk apa Datawarehouse?
Disini saya akan memberikan ilustrasi untuk datawarehouse.
Datawarehouse itu dimiliki oleh perusahaan yang sudah besar, yang
memiliki banyak cabang, data yang banyak dan tentunya struktur
organisasi yang kompleks.
Mari bayangkan sebuah perusahaan yang memiliki banyak transaksi, yang
memiliki banyak cabang. Tentu data-data tersebut tersebar dilokasi yang
berbeda, sistem operasi yang berbeda, bahkan di basisdata (database)
yang berbeda. Nah, Lalu bagaimana seorang pimpinan/ manager mengambil sebuah keputusan? Tentu
bagi sang pembuat keputusan hanya membutuhkan akses ke semua sumber
data tersebut. Kalau melakukan query di setiap masing-masing cabang
tentu tidak efisien dan tidak praktis. Atau bahkan data yang dimiliki
oleh perusahaan adalah data-data terbaru, bukan data-data terdahulu dari
perusahaan tersebut. Dari permasalahan ini, Datawarehouse hadir sebagai
solusinya.
Jika mengandalkan database OLTP untuk dilakukan query terlalu besar.
Datawarehouse dibuat agar prosesnya lebih efisien. Dan selalu
berkompetitif, maksudnya di zaman saat ini perusahaan sudah mengandalkan
teknologi datawarehouse untuk pengambilan keputusan di perusahaan.
Tujuan Akhir menggunakan Datawarehouse
- Menyediakan data organisasi yang mudah diakses oleh manager.
- Data yang berada di datawarehouse bersifat konsisten, dan merupakan kebenaran.
- Datawarehouse merupakan tempat, dimana data yang telah digunakan di publikasikan.
- Kualitas data di datawarehouse dapat diandalkan.
OLAP [On-Line Analitical Process]
OLAP adalah operasi basis data (database) untuk mendapatkan dalam
bentuk kesimpulan dengan menggunakan aggregasi sebagai mekanisme utama.
Mekanisme berupa analisis dan pengambilan keputusan.
OLTP [On-Line Transaction Process]
Proses transaksi di suatu proses bisnis seperti penjualan, pemesanan
dan pembayaran. Proses yang dilakukan rutin dari hari ke hari.
Karakteristiknya dengan input/ data entry, update dan delete.
Berfokus pada satu area bisnis saja, entah itu ‘persediaan’,’penjualan’
atau bahkan ‘sumber daya’.
Tugas utamanya terlihat dari hubungan tradisional ke DBMS.
Saya akan memberikan contoh perbedaan fitur yang mendasar antara OLTP dan OLAP.
- User dan Orientasi Sistem : customer vs market.
- Data contents : sekarang, detil vs historical
- Design Database : ER Application vs Star Subject
- View : Sekarang, Lokal vs Perubahan dari setiap data, data terintegrasi.
- Pola Akses : Update vs hanya bisa membaca tetapi dengan bermacam sudut pandang.
KOMPONEN DATAWAREHOUSE
- Data Source
Untuk membangun suatu datawarehouse yang baik data yang didapatkan
harus teralokasi dengan baik. Ini melibatkan OLTP saat ini dimana
informasi ‘dari hari ke hari’ tentang bisnis yang berjalan, tentunya
dengan data historis periode sebelumnya, yang mungkin telah dikumpulkan
dalam beberapa bentuk sistem lain. Sering kali data yang terbentuk bukan
terbentuk database relasional, sehingga membutuhkan banyak upaya untuk
mengambil data yang diinginkan.
- Design Datawarehouse
Proses perancangan datawarehouse sangat berhati-hati untuk memilih
jenis query yang digunakan dalam datawarehouse. Tahapan ini sangat
memerlukan pemahaman yang baik tentang skema database yang ingin dibuat,
dan haruslah selalu aktif untuk berkomunikasi dengan pengguna. Desain
adalah proses yang tidak dilakukan satu kali, melainkan berulang-ulang
agar model yang dimiliki stabil. Tahap ini harus dilakukan secara
berhati-hati karena model akan diisi dengan data yang jumlahnya sangat
banyak, yang salah satunya dari beberapa model adalah model yang tak
dapat diubah.
- Akuisi data
Proses perpindahan data dari sumbernya (source) ke datawarehouse.
Proses ini proses yang menggunakan banyak waktu dalam proyek
datawarehouse, dan dilakukan dengan software yang dikenal dengan ETL
(extract,transform,load) Tools. Sekarang sudah hamper lebih kurang 60
tool yang tersebar diranah maya. Waktu yang dibutuhkan untuk akuisisi
data bisa mencapai berbulan-bulan bahkan bertahun-tahun.
- Perubahan data tangkapan
Pembaharuan data periodik datawarehouse dari sistem transaksi menjadi
rumit karena harus diidentifikasi dari sumber data yang selalu up to
date. Ini disebut dengan ‘perubahan data capture’. Ini
merupakan tahapan khusus, dan sudah cukup banyak software yang beredar
untuk mengatasinya. Seperti Replication Server, Publish/Subscribe,
Triggers and Stored Procedures, dan Database log Analysis.
- Pembersihan Data
Ini biasanya dilakukan dengan akuisisi data, kalau dalam ETL ini
terdapat pada bagian ‘T’. Datawarehouse yang berisi data tidak benar
tidak hanya tak berguna, tapi juga menyesatkan. Ide dibalik pembuatan
datawarehouse adalah untuk memudahkan pengambilan keputusan, jika
keputusan yang besar yang ditunjang oleh data yang tidak valid maka
perusahaan mengalami resiko yang amat besar pula.
Pembersihan data suatu proses rumit yang memvalidasi dan bila perlu
mengoreksi data sebelum masuk kedalam datawarehouse. Pembersihan data
dapat juga disebut sebagai “data scrubbing” atau “penjamin kualitas data”,
proses ini harus dilakukan secara berhati-hati dan dilakukan
keseluruhan terutama datawarehouse yang diambil dari perangkat yang
sudah tua.
- Data Aggregation
Termasuk proses tansformasi, datawarehouse dirancang untuk menyimpanan yang amat detil dari tiap transaksi, untuk beberapa tingkat aggregate (ringkasan).
Keuntungan jika data diringkas yaitu query khusus dalam datawarehouse
berjalan lebih cepat. Kekurangannya adalah informasi yang didapat
kurang, karena ringkasnya data yang ada pada datawarehouse. Ini harus
berhati-hati karena keputusan tidak dapat dibatalkan tanpa membangun
kembali datawarehouse dan mencocokan dengan datawarehouse lain (atau
sumber data lain). Paling aman digunakan oleh perusahaan yang amat
besar, yang mampu membangun datawarehouse tingkat detail yang tinggi
dengan biaya yang besar pula.