Saat ini kita akan membahas tentang apa itu data science dan data warehouse, kita akan membahas secara bertahap agar bisa dimengerti oleh orang yang baru mengenal apa itu data science.
Data Science
Pertama kita akan masuk pada penjelasan apa itu data science, dikutip dari IBM data science:
Maksudnya data science adalah pendekatan pemecahan masalah dengan menggunakan tinjauan berbagai sudut pandang ilmu untuk memperoleh wawasan dari volume besar yang telah dikumpulkan.
Big Data
Jika membicarakan tentang data science maka tidak terlepas dari yang namanya big data, karena data science mengacu pada volume besar.
Jadi apa itu big data, dikutip dari sas.com big data adalah:
Maksudnya kutipan diatas adalah big data menggambarkan data yang sangat besar mau itu terstruktur maupun tidak terstruktur.
Jika dikutip dari Oracle, Big data adalah kumpulan data yang sangat bervariasi, jumlahnya terus bertambah dan perkembangannya sangat cepat. definisi ini juga disebut sebagai 3V (Variety, Volumes, Velocity).
Seiring berjalannya waktu definisi 3V bertambah 2V lagi yaitu nilai dari kumpulan data (Value) dan Keakuratan data (Veracity), yang kemudian menjadi 5V.
Masih banyak versi tentang V yaitu 10V, 14V, dan 17V. Namun kali ini kita hanya akan menampilkan beberapa saja dari versi V tersebut.
Data Warehouse
Selanjutnya kita masuk pada pembahasan data warehouse, dikutip dari Oracle:
Menurut Oracle data warehouse adalah tipe dari sistem data management yang di desain untuk mengaktifkan dan mendukung aktivitas bisnis intellejen (BI), terutama untuk urusan analitik.
Ada konsep dan langkah-langkah yang bisa diikuti, diambil dari artikel yang ditulis oleh Nicole Janeway Bills tentang data warehouse pada website towardsdatascience.com ada beberapa guide yang bisa diikuti untuk mengerti apa itu data warehouse:
- Architecting the Data Warehouse
- Enchancing Performance and Adjusting Size
- Related Data Storage Options
- Working with Big Data
- Extract, Transform, Load (ETL)
- Getting Data out of the Warehouse
- Data Archiving
Architecting the Data Warehouse
Dalam pengembangan dimension model untuk data warehouse terdapat 3 tahapan yaitu:
- Business Model : generalisasi data berdasarkan persyaratan bisnis.
- Logical Model : Menentukan datasets dan tipe kolom yang digunakan.
- Physical Model : Menampilkan blueprint nyata tentang relational data warehouse.
Struktur pada data warehouse biasanya dikenal sebagai star schema, yang digambarkan berupa kumpulan fact table yang menyimpan pengamatan dan events dan dimension table yang menyimpan detail informasi dari fact table.
Selain menggunakan star schema kita juga bisa menggunakan snowflake schema untuk mengelola data. Perbedaannya adalah setiap dimension akan di normalisasi.
Enchancing Performance and Adjusting Size
Untuk lebih mengerti tentang cara struktur data, Perancang data warehouse biasanya terbiasa dengan cara meningkatkan performance. Enchancing performance artinya kita meningkatkan kinerja dari data warehouse kita. Untuk meningkatkan kinerja data warehouse kita biasanya digunakan teknik, salah satu tekniknya adalah membuat clustered index pada data yang biasa diambil.
Adjusting size artinya kita mengatur ukuran pada penyimpanan data kita atau data warehouse kita. Contohnya kita memiliki data tentang suatu barang maka informasi pada data itu bisa kita pisahkan menjadi 2 tabel yaitu tabel daftar barang dan detaill barang. Mengatur ukuran juga bisa membantu meningkatkan kinerja pada data warehouse.
Related Data Storage Options
Pada tahap ini kita akan mengorganisir data-data yang kita punya menjadi kumpulan data yang lebih kecil dan sesuai dengan yang diperlukan, agar lebih mudah untuk dikelola dan digunakan.
Working with Big Data
Untuk menangani big data kita bisa menggunakan alat pihak ketiga yang bernama Apache Hadoop. Apache Hadoop digunakan untuk mengelola data besar dan bervariasi, Apache Hadoop umum digunakan di kalangan data scientist.
Apache Hadoop juga memiliki kelemahan, Apache Hadoop lemah dalam kecepatan eksekusi query, Semakin kompleks query yang dibuat semakin lambat eksekusinya, Hadoop juga lemah terhadap keamanannya.
Extract, Transform, Load (ETL)
Extract atau penyaringan data, Transform atau mengubah data seperti melakukan perhitungan, dll, Load atau memasukkan data ke dalam data warehouse.
ETL termasuk kedalam source-to-target-mapping yang artinya adalah beberapa instruksi perubahan untuk merubah struktur dan isi data dari asal ke struktur dan isi data dari target.
Getting Data out of the Warehouse
Setelah semua persiapan pada data warehouse sudah siap maka selanjutnya adalah mengambil data yang telah disimpan, namun ada beberapa tips untuk mengoptimalkan query yang dibuat dalam pengambilan data:
- Jangan membuat query yang kompleks karena akan berpangaruh pada kinerja
- Mencoba menggunakan query yang bersifat hirarki
- Mengerti tentang mekanisme dari query JOIN
- Sebelum eksekusi query, kita harus memiliki rencana eksekusi
Data Archiving
Terakhir adalah Data Archiving, Data Archiving adalah strategy dimana kita bisa menyimpan history atau riwayat data yang sudah tidak dipakai agar bisa dipakai lagi suatu hari nanti.
Summary
Sekian untuk pembahasan data science dan data warehouse semoga artikel ini bermanfaat dan sampai jumpa pada artikel selanjutnya.
Nama : Dimas Bagas Saputro
NIM : 6706192089
Kelas : D3RPLA-43-01
Leave a Reply