Selasa, 08 Oktober 2013

Resume Data Warehouse Pertemuan 5

Dimension Tables

Sebuah tabel dimensi adalah tabel dalam skema bintang dari data warehouse. Sebuah toko tabel dimensi atribut, atau dimensi, yang menggambarkan objek dalam tabel fakta.
Dalam data warehouse, dimensi adalah kumpulan referensi informasi tentang peristiwa terukur. Peristiwa ini dikenal sebagai fakta dan disimpan dalam tabel fakta. Dimensi mengkategorikan dan menggambarkan fakta data warehouse dan tindakan dengan cara yang mendukung jawaban yang berarti untuk pertanyaan bisnis. Mereka membentuk inti dari pemodelan dimensi.


Data Multidimensi

data multidimensi adalah ketika kita dapat melihat sebuah data dari berbagai sudut pandang atau dimensi. Sebagai contoh, penjualan buku dapat dilihat dari segi lokasi Buku, waktu, lokasi penjualan / toko dan sebagainya.

Skema Bintang (Star Schema) 



Dalam data warehouse, data-datanya akan disimpan dalam tabel fakta dan tabel dimensi. Tabel fakta akan menyimpan data-data utama sementara tabel dimensi mendeskripsikan setiap nilai dari suatu dimensi dan dapat direlasikan ke tabel fakta jika diperlukan. Data fakta merupakan data yang terukur besarannya, semisal jumlah siswa, banyaknya rupiah yang diperoleh, rata-rata IPK, dan sejenisnya.  Untuk lebih menjelaskan data fakta, maka kondisi saat data tersebut diukur turut disampaikan. Data kondisi inilah yang dipetakan dalam bentuk data dimensi. Kondisi yang dipetakan dalam dimensi umumnya berupa kondisi waktu, kondisi produk atau item, dan kondisi geografinya. Mendesain struktur star schema, dimulai dengan menentukan data apa yang ingin dilihat oleh pengguna (besarannya) dan bagaimana pengguna melihat  data tersebut (kondisi atau dimensinya).
Tabel dimensi memiliki primary key sederhana yang mengandung hanya satu atau dua kolom saja. Namun, tabel fakta akan memiliki sekumpulan foreign key yang disusun dari primary key komposit dan merupakan gabungan kolom-kolom tabel dimensi yang berelasi.

skema Snowflake (Snowflake Schema)

Struktur basis data ini lebih kompleks dari pada star schema, dengan menormalisasi tabel-tabel dimensi yang berukuran besar dengan satu atau lebih kolom yang memiliki duplikasi data. Tabel dimensi dinormalisasi untuk mengurangi redudansi data (duplikasi), sehingga struktur tabelnya akan lebih ramping. Dengan pengelompokan ini, data akan lebih mudah dibaca dan membantu pengembang aplikasi untuk menata desain antarmuka sistem dan filtering data. Struktur ini akan menghemat kapasitas storage, namun waktu eksekusi data akan lebih lama mengingat jumlah tabel dimensi yang direlasikan lebih banyak dan membutuhkan tambahan relasi foreign key. Kueri yang terbentuk lebih kompleks, yang mengakibatkan kinerja kueri menurun. Pada penerapan yang lebih umum, tabel dimensi tidak diturunkan dengan lebih banyak tabel dimensi lain dan pengaturan UI atau pengelompokan data diatur secara hard-coded di kode program aplikasinya.



Sumber :
- http://searchdatamanagement.techtarget.com/definition/dimension-table
- http://www.gudangmateri.com/2010/04/data-multidimensi.html
- http://nanang.lecture.ub.ac.id/2010/04/17/skema-star-dan-snowflake/

Selasa, 01 Oktober 2013

Tugas Data Warehouse Pertemuan 4

Arsitektur Data Warehouse Pada Bank Central Asia (BCA)

Profile Bank Central Asia (BCA)
Banyak Bank swasta yang eksis di bumi Indonesia ini, salah satunya adalah Bank Central Asia (BCA) yang secara resmi berdiri pada tanggal 21 Februari 1957 dengan nama Bank Centra Asia NV Tbk.  Profile Bank Central Asia (BCA)
Banyak Bank swasta yang eksis di bumi Indonesia ini, salah satunya adalah Bank Central Asia (BCA) yang secara resmi berdiri pada tanggal 21 Februari 1957 dengan nama Bank Centra Asia NV Tbk. Direktur Utama BCA dari tahun 1999 hingga sekarang adalah masih Bpk. Djohan Emir Setijoso.
Pada krisis moneter sekitar tahun 1997 BCA mengalami krisis kepercayaan oleh masyarakat Indonesia, sehingga pada tahun itu banyak masyarakat Indonesia yang menarik uangnya dari BCA. Oleh karena krisis tersebut BCA meminta bantuan pemerintah Indonesia : Badan Penyehatan Perbankan Nasional (BPPN) untuk menyuntikkan dana agar BCA tidak gulung tikar, akhirnya pada tahun 1998 BPPN mengambil alih BCA
Dengan kebijakan tersebut BCA mampu bangkit dari krisis pada tahun yang sama (baca:1998) dengan mengembalikan tingkat kepercayaan masyarakat kepadanya, sebelum krisis asset utama BCA mencapai Rp. 53.36 triliun sedangkan setelah krisis asset BCA semakin bertambah besar yakni Rp 67.93 triliun.
Hingga sekarang (baca:2010) BCA selalu memberikan pelayanan yang baik dan selalu memberikan invosi-inovasi, seperti ATM dan Setor Tunai menggunakan Mesin. Dengan berbagai macam layanan produk dan jasa, BCA memproses lebih dari 3 juta transaksi perbankan setiap hari dan memiliki lebih dari 7 juta rekening nasabah yang dapat dilayani melalui ‘delivery channels’ yang luas, 814 cabang-cabang di seluruh Indonesia, 5.681 ATM, Mobile Banking serta Klik BCA. Didukung oleh 20.322 karyawan, visi BCA adalah menjadi bank pilihan dan menunjang pilar ekonomi Indonesia
Dengan banyaknya fasilitas yang di miliki dan ditawarkan oleh BCA, sudah barang tentu manajemen nya harus baik dan rapih, khususnya adalah mengenai Database. Kita bisa memperkirakan berapa banyak data (baca:transaksi) yang masuk tiap harinya, dan 1 milyar setiap tahunnya (3.000.000 x 360 = 1.095.000.000 penj.).
Dengan banyaknya data yang harus disimpan dan diload setiap harinya maka tidaklah mungkin BCA menggunakan system database konvensional (baca:tidak terdistribusi atau OLPT),untuk mengatasi masalah ini BCA harus menggunakan database yang terdistribusi untuk menunjang fasilitas yang ditawarkan dan dimiliki agar proses bisnis tetap berjalan dengan lancar.
Bukti Empiris Bahwa BCA menggunakan Data Warehouse
Datawarehouse adalah solusi utama dari pendistribusian database yang ampuh untuk mensupplay data yang dibutuhkan oleh BCA, sehingga system tetap berjalan dengan baik dan tidak mengganggu proses bisnis, seperti over load dan stack pada server karena kelebihan beban akses dari 814 Cabang dan 5 ribu lebih ATM aktiv yang tersebar di seluruh Indonesia. Walaupun tidak tertutup kemungkinan bahwa database juga bisa kacau karena kesalahan user dalam menginputkan data (baca:human error).
Data Warehouse adalah sebuah system yang dapat dijadikan sebagai dasar pengambilan keputusan, BCA jelas memanfaatkan Data Warehouse ini, terbukti bahwa Henry Koenaifi, direktur PT Bank Central Asial Tbk. Yang bertanggung jawab atas pengelolaan Unit Bisnis Kredit Konsumer, Unit Bisnis Kartu Kredit, dan Personal/Individual Banking. Mengatakan bahwa BCA tetap bisa bertahan dari produk Kredit Pemilikan Rumah (KPR) dengan suku bungan yang fix dan cap (baca: suku bunga tetap selama 3 tahun dan 2 tahun dengan suku bunga maksimal) dengan cara memanfaatkan database:
dari data yang dimiliki perusahaannya, diketahui bahwa sebagian besar nasabah tabungan memiliki semacam stabilitas saldo. Artinya, baik situasi krisis maupun tidak, tak ada pengaruhnya buat mereka. Jumlah saldonya terus bertambah dan akumulasi setoran per bulan juga stabil sehingga produk ini amat dimungkinkan. Pada Desember 2008, penyaluran kredit konsumer BCA tumbuh signifikan sebesar 47,8% menjadi Rp21 triliun dibanding Desember 2007, yang didukung pertumbuhan di semua produk kredit konsumer. Prestasi ini terus berlanjut dengan tumbuhnya kredit konsumer menjadi Rp21,1 triliun pada akhir Maret 2009 dari Rp15,1 triliun pada periode yang sama 2008
Harus diakui, BCA unggul di bidang TI karena bank yang mayoritas sahamnya dikuasai Farallon Capital (Alaerka Investment dan Grup Djarum) ini lebih dulu mengembangkan program TI-nya. Itu berarti, reliability sistem yang dibangun sudah terbukti dan bisa diandalkan. Apalagi data warehousing atau data mining sudah bisa dimanfaatkan penuh
Data-data seperti yang disebutkan oleh Bpk. Henry Koenaifi didapatkan dari database BCA selama tahun 2007 hingga 2008, yang dimana database tersebut (baca:system) dapat dijadikan dasar pengambilan keputusan untuk menetapkan suku bunga KPR antara 3 tahun dan 2 tahun kedepan dengan suku bunga maksimal, seperti definitive dari pengertian Data Warehouse. Maka dari itu saya mengatakan dengan bukti empiris bahwa BCA memanfaatkan Data Warehouse.
Arsitektur Data Warehouse BCA
Terkait dengan data center, BCA hingga kini masih mengembangkan sistem dua data center yang saling mem-back up. Tujuannya, jika ada masalah di salah satu data center, yang satu lagi akan mem-back up dan mengambil alih tugas. Berbeda dengan kebanyakan bank lain, BCA memisahkan antara data center dan disaster recovery center (DRC)-nya. Sistem DRC telah dimiliki BCA sejak 1989. Sejak 2002, sistem DRC ini ditempatkan di Singapura dan dipercayakan pada IBM untuk mengelolanya.
Arsitektur data menyediakan kerangka dengan mengidentifikasikan dan memahami bagaimana data akan pindah melalui sistem dan digunakan dalam perusahaan. Arsitektur data untuk data warehouse mempunyai komponen utama yaitu read-only database.
Karateristik Arsitektur Data Warehouse:
a) Data diambil dari sistem asal (sistem informasi yang ada), database dan file.
b) Data dari sistem asal diintegrasikan dan ditransformasi sebelum disimpan ke dalam Database Management System (DBMS) seperti Oracle,Ms SQL Server, Sybase dan masih banyak yang lainnya.
c) Data warehouse merupakan sebuah database terpisah bersifat hanya dapat dibaca yang dibuat khusus untuk mendukung pengambilan keputusan
d) Pemakai mengakses data warehouse melalui aplikasi front end tool
Jadi, Arsitektur Data Warehouse sudah memiliki standart dimana karateristik yang sudah disebutkan harus dimiliki apabila ingin membangun sebuah data warehouse. Tidak terkecuali oleh BCA, data warehouse yang dimiliki oleh BCA pastinya tidak jauh berbeda dengan definitive dan karakteristik data warehouse secara umum.

Sumber Data
adalah adalah database layer untuk tujuan operasional
Staging area
menyederhanakan proses pembuatan summary dan management warehouse secara umum
Metadata
adalah istilah dari proses pengidentifikasian suatu atribut dan struktur dari sebuah data atau informasi. Metadata menjelaskan sebuah data itu sendiri
Lapisan Akses Data
merupakan tools yang digunakan untuk mengambil dan meload yang merupakan bagian dari karakteristik data warehouse.
Data mart
merupakan subset dari data resource, biasanya berorientasi untuk suatu tujuan yang spesifik atau subjek data yang didistribusikan untuk mendukung kebutuhan bisnis.
User
merupakan pengguna akhir dari system.
Kesimpulan
Dari skema arsitektur data warehouse diatas, dapat dilihat bahwa sumber data di integrasikan atau digabungkan dalam staging area, agar mudah di akses (baca:di load dan diambil) oleh warehouse, didalam warehouse terdapat meta data dan summary data yang bersifat read only (baca:hanya dapat di baca) dan pada saat user menggunakan system warehouse, user hanya ter hubung dengan data yang sudah di pecah dari resource (baca: warehouse). Dari data mart yang spesifik atau pengelompokkan subjek merujuk kepada tujuan yang berhubungan langsung, data tersebut di distribusikan untuk kelancaran bisnis BCA.

sumber :
http://himeblue.blogspot.com/2011/01/arsitektur-data-warehouse-pada-bank.html

Resume Data Warehouse Pertemuan 4

Arsitektur Datawarehouse
Maksudnya adalah bagaimana datawarehouse dibangun, arsitektur tidak ada yang benar dan salah tetapi suatu arsitektur dibangun tergantung situasi dan kondisi. Arsitektur datawarehouse akan berpengaruh pada penggunaan dan pemeliharaan.
Lapisan-lapisan arsitektur datawarehouse :

1.    Operational database layer / Lapisan basis data operasional
a.    Sumber data (source) untuk datawarehouse
b.    Data lengkap, Data hari ke hari
c.    Mempunyai nilai saat ini/ data berarti.
d.    Tingkat kemungkinan data besar.

2.    Data Access Layer/ Lapisan Akses Data
a.    Tools untuk mengekstrak, mengubah dan mengambil(load) data.
b.    Meliputi karakteristik datawarehouse.

3.    Metadata Layer / Lapisan Metadata
a.    File data tersimpan / Direktori
b.    Lebih detil dari direktori data sistem, maksudnya lebih mendalam dari file data yang tersedia sebelumnya.
c.    Ada pentunjuk untuk keseluruhan warehouse dan ada petunjuk data yang dapat diakses report khusus untuk di analisis.

4.    Informational access layer (lapisan akses informasi)
a.    Akses data dan juga tool untuk laporan dan analisis.
b.    Tools Business Intelligence masuk ke tahap ini.


Mari kita bahas sekilas mengenai keempat arsitektur data warehouse di atas:
  1. Enterprise Data Warehouse. Pada arsitektur ini, Data Warehouse merupakan satu-satunya penyimpanan data dari berbagai sumber di suatu organisasi. DWH ini juga yang dijadikan acuan utama dalam melakukan analisis, membuat laporan, dashboard, data mining, dan Business Intelligence. Kelebihan dari pendekatan ini adalah sumber data untuk analisis adalah hanya DWH ini, selain itu, kelebihannya yaitu semua data terintegrasi dengan baik (dengan syarat proses analisis dan perancangan DWH dilakukan dengan matang). Kekurangan pendekatan ini adalah ketika data yang dimiliki sudah sangat banyak, DWH dengan arsitektur Enterprise Data Warehouse bisa mengalami masalah kinerja, apalagi jika ditambah semakin banyaknya pengguna yang menembak DWH ini secara bersama-sama.
  2. Dependent Data Mart. Saya melihat arsitektur ini sebagai kelanjutan dari Enterprise Data Warehouse. Ketika DWH pada EDW sudah dianggap berat, ditambah effort untuk mengupgrade infrastruktur yang kadang tidak ekonomis, maka dibuatlah data mart-data mart di satu atau lebih departemen untuk mengakomodasi kebutuhan laporan di departemen yang bersangkutan . Kelebihan dari arsitektur ini adalah  kinerja DWH menjadi lebih ringan. Jika sebelumnya sehari ada 10,000 hit yang ditujukan ke data warehouse, dengan adanya data mart baru, sebagian porsi hit tersebut akan mengarah ke data mart, misalkan porsi data warehouse tinggal 8,000 hit dan yang 2,000 ditujukan ke data mart. Jika satu data mart masih dianggap kurang, maka bisa dibuat data mart berikutnya untuk departemen lain, misalkan penjualan. Pembuatan data mart baru tersebut mungkin bisa mengurangi hit data warehouse menjadi 6,000. Begitu seterusnya hingga dicapai nilai yang optimal. Disamping manfaat dari sisi kinerja, dependent data mart juga memungkinkan setiap departemen melakukan tuning lebih jauh terhadap struktur tabel dimensional. Tuning  dimaksudkan  untuk meningkatkan kinerja sistem secara keseluruhan dalam mengakomodasi kebutuhan analisis departemen yang mungkin belum diakomodasi oleh data warehouse. Dibandingkan arsitektur dengan data mart yang lainnya, alternatif ini memiliki karakteristik Enterprise Data, yaitu data yang terdapat di DWH dan DM memiliki cakupan validitas di tingkat enterprise/organisasi/perusahaan karena tingkat tersebut sudah didapatkan ketika memasuki DWH.
  3. Independent Data Mart. Meskipun sama-sama memiliki DM seperti pada arsitektur Dependent Data Mart, alternatif  ini tidak memiliki Data Warehouse di dalamnya. Setiap DM harus memiliki strategi integrasi yang tidak terkait. Hal itu dikarenakan nature dari pembangunan DM adalah karena tingginya kebutuhan data untuk analisis pada suatu departemen dan tidak optimal jika harus menunggu dibuatnya DWH di level organisasi/perusahaan.  Karena itulah satu departemen memutuskan membuat DM versi departemen itu. Jika ada departemen lain yang memiliki kebutuhan analisis yang tinggi juga, maka dimungkinkan dorongan untuk membuat DM di departemen tersebut juga tinggi, ditambah adanya contoh departemen lain yang sudah membangun DM versi departemennya. Hal pokok yang biasanya menjadi kekurangan di pendekatan ini adalah data yang dihasilkan cenderung belum menjadi  level enterprise, namun masih di tingkat departemen. Hal tersebut dikarenakan  pembangunan DM mungkin hanya melibatkan departemen pembuat, dengan sedikit sekali-atau tanpa-keterlibatan departemen lain, sehingga aspek integrasi format data dan formula tidak terpenuhi.
  4. Enterprise Data Mart. Ini merupakan alternatif solusi antara Dependent Data Mart dan Independent Data Mart. Adanya staging yang berada di level Enterprise adalah sebagai area integrasi data dari berbagai sistem. Dengan demikian, data lebih dekat ke level enterprise. Namun demikian, kendala integrasi kadang juga menjadi masalah di sini, yaitu jika ketika mengembangkan DM untuk departemen A, departemen-departemen lain yang ada di organisasi tidak banyak dilibatkan, atau bahkan tidak dilibatkan sama sekali.
 Karakterisitik arsitektur data warehouse (Poe) :
1.    Data diambil dari sistem asal (sistem informasi yang ada), database dan file. 
2.    Data dari sistem asal diintegrasikan dan ditransformasi sebelum disimpan ke dalam Database Management System (DBMS) seperti Oracle,Ms SQL Server, Sybase dan masih banyak yang lainnya. 
3.    Data warehouse merupakan sebuah database terpisah bersifat hanya dapat dibaca  yang dibuat khusus untuk mendukung pengambilan keputusan
4.    Pemakai mengakses data warehouse melalui aplikasi front end too

Infrastruktur data warehouse adalah software, hardware, pelatihan dan komponen-komponen lainnya yang memberikan dukungan yang dibutuhkan untuk mengimplementasikan data warehouse(Poe).
Salah satu instrumen yang mempengaruhi keberhasilan pengembangan data warehouse adalah pengidentifikasian arsitektur mana yang terbaik dan infrasruktur apa yang dibutuhkan. Arsitektur yang sama, mungkin memerlukan infrastruktur yang berbeda, tergantung pada lingkunan perusahaan ataupun organisasi.
Seperti yang kita lihat sebelumnya pada arsitektur data warehouse, ada beberapa struktur yang spesifik terdapat pada bagian warehouse manager. Bagian tersebut merupakan struktur data warehouse.
Menurut Poe, Vidette, data warehouse memiliki struktur yang spesifik dan  mempunyai perbedaan dalam tingkatan detail data  dan umur data.
Komponen dari struktur data warehouse adalah:
Ø   Current detail data
Current detail data merupakan data detil yang aktif saat ini,mencerminkan keadaan yang sedang berjalan dan merupakan level terendah dalam data warehouse. Didalam area ini warehouse menyimpan seluruh detail data yang terdapat pada skema basis data. Jumlah data sangat besar sehingga memerlukan storage yang besar pula dan dapat diakses secara cepat. Dampak negatif yang ditimbulkan adalah kerumitan untuk mengatur data menjadi meningkat dan biaya yang diperlukan menjadi mahal.
Berikut ini beberapa alasan mengapa current detail data menjadi perhatian utama :
1.    Menggambarkan kejadian yang baru terjadi dan selalu menjadi perhatian utama
2.    Sangat banyak jumlahnya dan disimpan pada tingkat penyimpanan terendah.
3.    Hampir selalu disimpan dalam storage karena cepat di akses  tetapi mahal dan kompleks dalam pengaturannya.
4.    Bisa digunakan dalam membuat rekapitulasi sehingga current detail data  harus akurat.
 
Ø   Older detail data
Data ini merupakan data historis dari current detail data, dapat berupa hasil cadangan atau archive data yang disimpan dalam storage terpisah. Karena bersifat back-up(cadangan), maka biasanya data disimpan dalam storage alternatif seperti tape-desk.
Data ini biasanya memilki tingkat frekuensi akses yang rendah. Penyusunan file atau directory dari data ini di susun berdasarkan umur dari data yang bertujuan mempermudah untuk pencarian atau pengaksesan kembali.
Ø   Lighlty summarized data
Data ini merupakan ringkasan atau rangkuman dari current detail data. Data ini dirangkum berdasar periode atau dimensi lainnya sesuai dengan kebutuhan.
Ringkasan dari current detail data  belum bersifat total summary.Data-data ini memiliki detil tingkatan yang lebih tinggi dan mendukung kebutuhan warehouse pada tingkat departemen. Tingkatan data ini di sebut juga dengan data mart. Akses terhadap data jenis ini banyak  digunakan untuk view suatu kondisi yang sedang atau sudah berjalan.
Ø   Highly summarized data
Data ini merupakan tingkat lanjutan dari Lightly summarized data, merupakan hasil ringkasan yang bersifat totalitas, dapat di akses misal untuk melakukan analisis perbandingan data berdasarkan urutan waktu tertentu dan analisis menggunakan data multidimensi.
Ø   Metadata
Metadata bukan merupakan data hasil kegiatan seperti keempat jenis data diatas. Menurut Poe, metadata adalah ‘data tentang data’ dan menyediakan informasi tentang struktur data dan hubungan antara struktur data di dalam atau antara storage(tempat penyimpanan data).
Metadata berisikan data yang menyimpan proses perpindahan data meliputi database structure,contents,detail data dan summary data, matrics,versioning, aging criteria,versioning, transformation criteria. Metadata khusus dan memegang peranan yang sangat penting  dalam data warehouse.
Metadata sendiri mengandung :
Ø  Struktur data
Sebuah direktori yang membantu user untuk melakukan analisis Decission Support System dalam pencarian letak/lokasi dalam data warehouse.
Ø  Algoritma
Algoritma digunakan untuk summary data. Metadata sendiri merupakan panduan untuk algoritma dalam melakukan pemrosesan summary data antara current detail data dengan lightly summarized data dan antara lightly summarized data dengan hightly summaried data.
Ø  Mapping 
Sebagai panduan pemetaan(mapping) data pada saat data di transform/diubah dari lingkup operasional menjadi lingkup data warehouse.


sumber : 
- http://netindonesia.net/blogs/muhammadsubhan/archive/2009/11/07/arsitektur-datawarehouse.aspx
- http://noverino.wordpress.com/2011/03/18/4-alternatif-arsitektur-data-warehouse/
- http://calvingulo.blogspot.com/2012/10/arsitektur-dan-infrastruktur-data.html