Wednesday, May 30, 2012

Data Warehouse


 Note: Data ini bertujuan untuk memenuhi Tugas Presentasi Konsep Sistem Informatika.


Tugas Konsep Sistem Informasi: Data Warehouse
Dosen: Elis Tampubolon
IBII


Nama Anggota:
1. Cindy Claudia [crossmix]
2. Linda Verina
3. Lulu Karlina


========================================================================

Data Warehouse


 Data warehouse (DW atau DWH) adalah database yang digunakan untuk pelaporan dan analisis. Data yang disimpan di gudang telah upload dari sistem operasional (seperti pasar, dll penjualan, ditunjukkan pada gambar di sebelah kanan). Data dapat melewati sebuah toko data operasional untuk operasi tambahan sebelum mereka digunakan dalam DW untuk pelaporan.

ETL berbasis khas gudang data menggunakan pementasan, integrasi, dan lapisan akses untuk rumah fungsi utamanya. Lapisan pementasan atau pementasan database yang menyimpan data mentah diekstrak dari masing-masing sistem sumber data berbeda. Lapisan integrasi mengintegrasikan set data yang berbeda dengan mengubah data dari lapisan pementasan sering menyimpan data ini diubah dalam menyimpan data operasional (BPO) database. Data terintegrasi ini kemudian pindah ke database lain belum, yang sering disebut database gudang data, dimana data tersebut diatur ke dalam kelompok hirarki dimensi sering disebut dan menjadi fakta-fakta dan fakta agregat. Kombinasi dari fakta dan dimensi kadang disebut skema bintang. Lapisan akses membantu pengguna mengambil data.


Sebuah data warehouse dibangun dari sistem sumber data yang terintegrasi tidak memerlukan ETL, database pementasan, atau data operasional database toko. Sistem data terpadu sumber dapat dianggap sebagai bagian dari lapisan data terdistribusi toko operasional. Data federasi metode atau metode virtualisasi data dapat digunakan untuk mengakses data sistem terdistribusi untuk mengkonsolidasikan sumber terintegrasi dan data agregat langsung ke dalam tabel database gudang data. Tidak seperti data warehouse ETL berbasis sumber data sistem dan terintegrasi data warehouse semua terintegrasi karena tidak ada transformasi data dimensi atau referensi. Arsitektur data terintegrasi gudang mendukung bor ke bawah dari data agregat dari data warehouse untuk data transaksional dari sistem sumber data yang terintegrasi.

Data warehouse dapat dibagi lagi menjadi data mart. Data mart menyimpan subset data dari gudang.

Definisi dari data warehouse berfokus pada penyimpanan data. Sumber utama data dibersihkan, diubah, katalog dan dibuat tersedia untuk digunakan oleh para manajer dan profesional bisnis lainnya untuk data mining, online pengolahan analisis, riset pasar dan mendukung keputusan (Marakas & O'Brien 2009). Namun, sarana untuk mengambil dan menganalisis data, untuk mengekstrak, mengubah dan memuat data, dan untuk mengelola data kamus juga dianggap komponen penting dari sistem data warehousing. Banyak referensi data pergudangan menggunakan konteks yang lebih luas. Dengan demikian, definisi yang diperluas untuk data warehouse termasuk alat intelijen bisnis, alat untuk mengekstrak, mengubah dan memuat data ke dalam repositori, dan alat untuk mengelola dan mengambil metadata.

Manfaat dari data warehouse
Sebuah gudang data mempertahankan salinan informasi dari sistem sumber transaksi. Ini kompleksitas arsitektur memberikan kesempatan untuk :
1.      Meningkatkan kualitas data, dengan menyediakan kode konsisten dan deskripsi atau bahkan memperbaiki data yang buruk.
2.      Menyajikan informasi organisasi secara konsisten
3.      Menata data sehingga memberikan kinerja query yang sangat baik, bahkan untuk query analisis yang kompleks, tanpa mempengaruhi sistem operasional
4.      Add value to operational business applications, notably customer relationship management (CRM) systems



Sejarah
Konsep data warehouse tanggal kembali ke akhir 1980-an ketika IBM peneliti Barry Devlin dan Paul Murphy mengembangkan "bisnis gudang data". Pada intinya, konsep data warehousing dimaksudkan untuk memberikan model arsitektur untuk aliran data dari sistem operasional ke lingkungan pendukung keputusan. Konsep ini berusaha untuk mengatasi berbagai masalah yang terkait dengan aliran ini, terutama biaya tinggi yang terkait dengan itu. Dengan tidak adanya arsitektur data warehouse, sejumlah besar redundansi yang dibutuhkan untuk mendukung lingkungan pendukung keputusan ganda. Dalam perusahaan yang lebih besar itu adalah khas untuk lingkungan pendukung keputusan ganda untuk beroperasi secara independen. Meskipun masing-masing lingkungan dilayani pengguna yang berbeda, mereka sering diperlukan banyak data tersimpan yang sama. Proses mengumpulkan, pembersihan dan mengintegrasikan data dari berbagai sumber, biasanya dari jangka panjang sistem operasional yang ada (biasanya disebut sebagai sistem warisan), itu biasanya di bagian direplikasi untuk lingkungan masing-masing. Selain itu, sistem operasional sering diperiksa ulang sebagai persyaratan dukungan keputusan baru muncul. Seringkali persyaratan baru memerlukan pengumpulan, pembersihan dan mengintegrasikan data baru dari "mart data" yang dirancang untuk akses siap oleh pengguna.
Perkembangan penting dalam tahun-tahun awal data warehousing adalah:
1960 - General Mills dan Dartmouth College, dalam sebuah proyek penelitian bersama, mengembangkan dimensi syarat dan fakta
 1970 - ACNielsen dan IRI memberikan mart dimensi data untuk penjualan eceran.
 1970 - Bill Inmon mulai mendefinisikan dan membahas istilah: Data Warehouse
 1975 - Sperry Univac Perkenalkan mapper (memelihara, Siapkan, dan Menghasilkan Laporan Eksekutif) adalah manajemen database dan sistem pelaporan yang mencakup 4GL pertama di dunia. Ini adalah platform pertama yang khusus dirancang untuk membangun Pusat Informasi (pendahulu dari platform Enterprise Data Warehousing kontemporer)
  1983 - Teradata memperkenalkan sistem manajemen database yang dirancang khusus untuk mendukung keputusan.
  1983 - Sperry Corporation Martyn Richard Jones mendefinisikan Informasi Sperry pendekatan Center, yang sementara tidak menjadi DW benar dalam arti Inmon, apakah mengandung banyak karakteristik struktur DW dan proses seperti yang didefinisikan sebelumnya oleh Inmon, dan kemudian oleh Devlin. Pertama kali digunakan di Inggris & Wales TSB
  1984 - Metafora Sistem Komputer, didirikan oleh David Liddle dan Don Massaro, siaran Interpretasi Data System (DIS). DIS adalah sebuah paket perangkat keras / perangkat lunak dan GUI untuk pengguna bisnis untuk membuat manajemen database dan sistem analitik.
  1988 - Barry Devlin dan Paul Murphy mempublikasikan artikel An arsitektur untuk sebuah bisnis dan sistem informasi di IBM Systems Journal mana mereka memperkenalkan "gudang data bisnis" panjang.
  1990 - Sistem Bata Merah, didirikan oleh Ralph Kimball, memperkenalkan Red Brick Warehouse, sebuah sistem manajemen database khusus untuk data warehousing.
  1991 - Solusi Prism, yang didirikan oleh Bill Inmon, memperkenalkan Prism Manajer Gudang, perangkat lunak untuk mengembangkan gudang data.
  1992 - Bill Inmon menerbitkan buku Membangun Data Warehouse.
  1995 - Data Warehousing Institute, sebuah organisasi nirlaba yang mempromosikan data warehouse, didirikan.
  1996 - Ralph Kimball menerbitkan buku The Data Warehouse Toolkit.
  2000 - Daniel Linstedt melepaskan Vault Data, memungkinkan waktu auditable nyata Data warehouse Gudang.


Top-down vs bottom-up metodologi desain :

Ada dua pendekatan utama untuk menyimpan data dalam data warehouse - pendekatan dimensi dan pendekatan normal. Pendekatan dimensi, yang para pendukungnya disebut sebagai "Kimballites", percaya pada pendekatan Ralph Kimball di mana dinyatakan bahwa data warehouse harus dimodelkan menggunakan Model Dimensi / bintang skema. Pendekatan normalisasi, juga disebut model 3NF, yang para pendukungnya disebut sebagai "Inmonites", percaya pada pendekatan Bill Inmon di mana dinyatakan bahwa data warehouse harus dimodelkan dengan menggunakan model ER / model normal.

Dalam pendekatan dimensi, data transaksi yang dipartisi menjadi baik "fakta", yang umumnya data transaksi numerik, atau "dimensi", yang merupakan informasi referensi yang memberikan konteks untuk fakta. Misalnya, transaksi penjualan dapat dipecah menjadi fakta seperti jumlah produk yang dipesan dan harga yang dibayarkan untuk produk, dan masuk ke dimensi seperti tanggal order, nama pelanggan, nomor produk, agar kapal-to dan tagihan-ke lokasi , dan penjual bertanggung jawab untuk menerima pesanan.

Keuntungan utama dari pendekatan dimensi adalah bahwa data warehouse lebih mudah bagi pengguna untuk memahami dan digunakan. Selain itu, pengambilan data dari data warehouse cenderung beroperasi sangat cepat. Dimensi struktur yang mudah dipahami bagi pengguna bisnis, karena struktur dibagi menjadi pengukuran / fakta dan konteks / dimensi. Fakta terkait dengan proses bisnis organisasi dan sistem operasional sedangkan dimensi sekitar mereka mengandung konteks tentang pengukuran (Kimball, Ralph 2008).
Kelemahan utama dari pendekatan dimensi adalah:
1.      Dalam rangka mempertahankan keutuhan fakta dan dimensi, loading data warehouse dengan data dari sistem operasional yang berbeda adalah rumit, dan
2.      Sulit untuk memodifikasi struktur data warehouse jika organisasi mengadopsi pendekatan dimensi perubahan cara di mana perusahaan ini beroperasi.

Dalam pendekatan normalisasi, data di gudang data disimpan berikut, untuk gelar, database aturan normalisasi. Tabel dikelompokkan bersama-sama dengan bidang studi yang mencerminkan kategori umum data (misalnya, data pelanggan, produk, keuangan, dll). Struktur normalisasi membagi data ke dalam entitas, yang menciptakan beberapa tabel dalam database relasional. Ketika diterapkan di perusahaan besar hasilnya adalah puluhan tabel yang dihubungkan oleh sebuah web bergabung. Selanjutnya, setiap perusahaan yang dibuat telah diubah menjadi tabel fisik yang terpisah ketika database diimplementasikan (Kimball, Ralph 2008). Keuntungan utama dari pendekatan ini adalah bahwa hal itu mudah untuk menambahkan informasi ke dalam database. Kelemahan dari pendekatan ini adalah bahwa, karena jumlah tabel yang terlibat, mungkin sulit bagi pengguna baik untuk:
1.      bergabung data dari sumber yang berbeda menjadi informasi yang bermakna dan kemudian
    
2.       mengakses informasi tanpa pemahaman yang tepat dari sumber data dan struktur data dari data warehouse.

Perlu dicatat bahwa kedua dinormalisasi - model dan dimensi dapat direpresentasikan dalam diagram relasi entitas baik sebagai kandungan bergabung tabel relasional. Perbedaan antara dua model adalah tingkat normalisasi.

Pendekatan-pendekatan ini tidak saling eksklusif, dan ada pendekatan lain. Dimensi pendekatan dapat melibatkan normalisasi data ke gelar (Kimball, Ralph 2008).

Dalam Informasi Berbasis Bisnis (Wiley 2010),  Robert Hillard mengusulkan sebuah pendekatan untuk membandingkan dua pendekatan yang didasarkan pada kebutuhan informasi dari masalah bisnis. Teknik ini menunjukkan bahwa model normalisasi menyimpan informasi jauh lebih dari setara dimensi mereka (bahkan ketika bidang yang sama digunakan dalam kedua model) tetapi ini informasi tambahan datang pada biaya kegunaan. Teknik ini mengukur kuantitas informasi dalam hal Entropi Informasi dan kegunaan dalam hal ukuran Data Dunia Kecil transformasi .

Top-down vs bottom-up metodologi desain

Bottom-up desain

Ralph Kimball, seorang penulis terkenal tentang data pergudangan, adalah seorang pendukung pendekatan untuk desain data warehouse yang ia gambarkan sebagai bottom-up.

Di bottom-up mart pendekatan data yang pertama kali diciptakan untuk menyediakan kemampuan pelaporan dan analisis untuk proses bisnis yang spesifik. Meskipun penting untuk dicatat bahwa dalam metodologi Kimball, proses bottom-up adalah hasil dari analisis bisnis awal berorientasi top-down proses bisnis yang relevan untuk dimodelkan.

Data mart mengandung, terutama, dimensi dan fakta. Fakta dapat berisi baik data atom dan, jika perlu, diringkas data. Data mart tunggal sering teladan area bisnis yang spesifik seperti "Penjualan" atau "Produksi." Ini data mart akhirnya dapat diintegrasikan untuk membuat sebuah gudang data yang komprehensif. Integrasi data mart dikelola melalui penerapan apa yang Kimball panggilan "data warehouse bus arsitektur" gudang data arsitektur bus terutama implementasi dari "bus", koleksi dimensi conformed dan fakta conformed,. Yang adalah dimensi yang dibagi (dengan cara tertentu) antara fakta dalam dua atau lebih data mart.

Integrasi data mart di gudang data terpusat pada dimensi conformed (yang berada di "bus") yang mendefinisikan integrasi mungkin "titik" antara data mart. Integrasi aktual dari dua atau lebih pasar data kemudian dilakukan dengan proses yang dikenal sebagai "Bor di". Sebuah bor-seluruh karya-karya pengelompokan (meringkas) data sepanjang kunci-kunci (shared) dimensi conformed setiap fakta berpartisipasi dalam "bor di" diikuti dengan bergabung pada tombol ini (diringkas) fakta dikelompokkan.

Mempertahankan manajemen ketat terhadap arsitektur data warehouse bus merupakan dasar untuk menjaga integritas data warehouse. Tugas manajemen yang paling penting adalah membuat dimensi memastikan antara data mart konsisten. Dengan kata Kimball, ini berarti bahwa dimensi "sesuai".

Beberapa menganggapnya keuntungan dari metode Kimball, bahwa data warehouse akhirnya menjadi "segmented" ke sejumlah pasar data logis mandiri (sampai dengan dan termasuk Bus) dan konsisten, bukan model terpusat besar dan seringkali kompleks. Nilai bisnis bisa dikembalikan secepat data mart pertama dapat dibuat, dan metode memberikan sendiri baik untuk pendekatan eksplorasi dan iteratif untuk membangun gudang data. Sebagai contoh, upaya data warehousing mungkin mulai di departemen "Penjualan", dengan membangun mart Sales-data. Setelah menyelesaikan Penjualan-data mart, bisnis ini kemudian dapat memutuskan untuk memperluas kegiatan pergudangan ke dalam, katakanlah, "Produksi departemen" menghasilkan mart Data produksi. Persyaratan untuk data mart Penjualan dan Produksi mart data yang akan diintegrasi, adalah bahwa mereka berbagi "Bus" yang sama, yang akan, bahwa tim data warehousing telah membuat upaya untuk mengidentifikasi dan menerapkan dimensi conformed di bus, dan bahwa data mart individu link yang informasi dari bus. Catatan bahwa ini tidak memerlukan kesadaran 100% dari awal usaha pergudangan data, tidak ada rencana induk diperlukan dimuka. Mart Sales-data baik karena (diasumsikan bahwa bus selesai) dan produksi data mart dapat dibangun hampir independen dari mart data penjualan (tapi tidak terlepas dari Bus).

Jika integrasi melalui bus tercapai, data warehouse, melalui dua data mart, tidak hanya akan dapat memberikan informasi spesifik bahwa data individu mart yang dirancang untuk melakukan, dalam contoh ini baik "Penjualan" atau "Produksi" informasi , tetapi dapat memberikan terintegrasi Penjualan-Produksi informasi, yang, sering, adalah nilai bisnis penting. Integrasi (mungkin) dicapai dalam fleksibel dan berulang mode.
Desain top-down

Bill Inmon, salah satu penulis pertama pada subyek pergudangan data, telah mendefinisikan data warehouse sebagai repositori terpusat untuk seluruh perusahaan.  Inmon adalah salah satu pendukung terkemuka dari pendekatan top-down untuk desain data warehouse, di mana data warehouse dirancang menggunakan model data perusahaan dinormalisasi. "Atom" data, yaitu, data pada tingkat terendah detail, disimpan dalam gudang data. Dimensi data mart yang berisi data yang diperlukan untuk proses bisnis tertentu atau departemen spesifik diciptakan dari gudang data. Dalam visi Inmon gudang data adalah pusat dari "Pabrik Informasi Perusahaan" (CIF), yang menyediakan kerangka logis untuk menyampaikan business intelligence (BI) dan kemampuan manajemen bisnis.

Inmon menyatakan bahwa data warehouse adalah:

1. Subyek berorientasi
    Data dalam data warehouse diatur sehingga semua elemen data yang berhubungan dengan acara dunia nyata atau objek yang sama dihubungkan bersama-sama.
2. Non-volatile
    Data dalam data warehouse tidak pernah over-tertulis atau dihapus - sekali berkomitmen, data yang statis, read-only, dan dipertahankan untuk pelaporan masa depan.
3. Terintegrasi
    Data warehouse berisi data dari sebagian besar atau seluruh sistem operasional organisasi dan data ini dibuat konsisten.
4. Time-varian
    Untuk Sebuah sistem operasional, data yang disimpan berisi nilai saat ini.

Metodologi desain top-down menghasilkan pemandangan dimensi yang sangat konsisten data di data mart mart karena semua data yang diambil dari repositori terpusat. Desain top-down juga terbukti tahan terhadap perubahan bisnis. Membangkitkan mart data baru dimensi terhadap data yang disimpan di gudang data adalah tugas relatif sederhana. Kerugian utama dengan metodologi top-down adalah bahwa itu merupakan proyek yang sangat besar dengan lingkup yang sangat luas. Biaya di muka untuk mengimplementasikan data warehouse dengan menggunakan metodologi top-down adalah signifikan, dan durasi waktu dari awal proyek ke titik bahwa pengguna akhir mengalami keuntungan awal sangat besar. Selain itu, metodologi top-down bisa fleksibel dan tidak responsif terhadap perubahan kebutuhan departemen selama fase implementasi.
Hybrid desain

Data warehouse (DW) solusi sering mirip hub dan berbicara arsitektur. Legacy sistem makan DW / solusi BI sering termasuk manajemen hubungan pelanggan (CRM) dan solusi enterprise resource planning (ERP), menghasilkan sejumlah besar data. Untuk mengkonsolidasikan model ini berbagai data, dan memfasilitasi ekstrak mengubah beban (ETL) proses, solusi DW sering menggunakan sebuah toko data operasional (BPO). Informasi dari BPO kemudian dipecah ke dalam DW sebenarnya. Untuk mengurangi redundansi data, sistem yang lebih besar akan sering menyimpan data dengan cara yang normal. Data mart untuk laporan tertentu maka dapat dibangun di atas solusi DW.

Penting untuk dicatat bahwa database DW dalam larutan hibrida disimpan pada bentuk normal ketiga untuk menghilangkan redundansi data. Sebuah database relasional biasa namun, tidak efisien untuk laporan intelijen bisnis di mana pemodelan dimensi adalah lazim. Kecil data mart dapat berbelanja untuk data dari gudang konsolidasi dan menggunakan, data disaring spesifik untuk tabel fakta dan dimensi diperlukan. DW efektif menyediakan satu sumber informasi dari mana data mart dapat membaca, menciptakan solusi yang sangat fleksibel dari sudut pandang BI. Arsitektur hibrida memungkinkan DW yang akan diganti dengan solusi manajemen data master mana operasional, informasi tidak statis bisa berada.

Data Vault komponen Modeling mengikuti hub dan berbicara arsitektur. Gaya pemodelan adalah desain hybrid, yang terdiri dari yang terbaik dari praktik berkembang biak dari kedua bentuk normal 3 dan skema bintang. Model data Vault bukan bentuk normal benar ke-3, dan istirahat beberapa aturan yang mendikte 3NF diikuti. Meskipun demikian, arsitektur top-down dengan bottom up desain. Data Vault model diarahkan untuk menjadi benar sebuah gudang data. Hal ini tidak diarahkan untuk menjadi pengguna akhir dapat diakses, yang ketika dibangun, masih memerlukan penggunaan data mart atau bintang skema area pelepasan berbasis untuk tujuan bisnis.
Data warehouse dibandingkan sistem operasional

Sistem operasional yang dioptimalkan untuk pelestarian integritas data dan kecepatan pencatatan transaksi bisnis melalui penggunaan normalisasi database dan model entity-relationship. Perancang sistem operasional umumnya mengikuti aturan Codd normalisasi database untuk menjamin integritas data. Codd ditetapkan lima aturan semakin ketat normalisasi. Desain database sepenuhnya normal (yaitu orang memuaskan semua lima aturan Codd) sering mengakibatkan informasi dari sebuah transaksi bisnis yang disimpan dalam puluhan hingga ratusan tabel. Database relasional yang efisien dalam mengelola hubungan antara tabel ini. Database telah sangat cepat memasukkan / update kinerja karena hanya sejumlah kecil data dalam tabel tersebut dipengaruhi setiap kali transaksi diproses. Akhirnya, dalam rangka meningkatkan kinerja, data yang lebih tua biasanya secara periodik dibersihkan dari sistem operasional.

Gudang data yang dioptimalkan untuk kecepatan analisis data. Sering data dalam gudang data denormalised melalui model dimensi berbasis. Juga, untuk mempercepat pengambilan data, data data warehouse sering disimpan beberapa kali-dalam bentuk yang paling rinci dan dalam bentuk diringkas disebut agregat. Data warehouse Data dikumpulkan dari sistem operasional dan diselenggarakan di gudang data bahkan setelah data telah dibersihkan dari sistem operasional.
Evolusi digunakan organisasi

Istilah-istilah ini mengacu pada tingkat kecanggihan dari data warehouse:

1. Offline operasional gudang data
    Data warehouse dalam tahap evolusi diperbarui pada siklus waktu yang teratur (biasanya harian, mingguan atau bulanan) dari sistem operasional dan data disimpan dalam sebuah pelaporan data berorientasi terpadu
2. Offline data warehouse
    Gudang data pada tahap ini akan diperbarui dari data dalam sistem operasional secara teratur dan data data warehouse disimpan dalam sebuah struktur data yang dirancang untuk memfasilitasi pelaporan.
3. Pada data warehouse waktu
    Online Terpadu Data Warehousing mewakili waktu data riil gudang tahap data dalam gudang diperbarui untuk setiap transaksi yang dilakukan pada data sumber
4. Terpadu data warehouse
    Ini gudang data merakit data dari berbagai bidang bisnis, sehingga pengguna dapat mencari informasi yang mereka butuhkan di sys lain



Sumber : WIKIPEDIA
From     :  Google

No comments:

Post a Comment