Data Science: Pengertian, Fungsi, Pilar, Proses, dan Contoh Penerapannya

Table of Contents
Pengertian Data Science atau ilmu data
Data Science (Ilmu Data)

Pengertian Data Science

Data science (ilmu data) adalah disiplin ilmu yang khusus mempelajari data. Subjek bahasan data science meliputi semua proses data, mulai dari pengumpulan data, analisis data, pengolahan data, manajemen data, kearsipan, pengelompokan data, penyajian data, distribusi data, hingga cara mengubah data menjadi kesatuan informasi yang dapat dipahami semua orang.

Data science merupakan kombinasi dari ilmu sains dan ilmu sosial. Ilmu-ilmu yang menjadi penunjang utama dalam ilmu data terdiri dari matematika, statistika, ilmu komputer, sistem informasi, manajemen, ilmu informasi, termasuk juga ilmu komunikasi dan ilmu perpustakaan, kearsipan, dan dokumentasi. Bahkan ilmu ekonomi, terutama ilmu bisnis, juga berperan penting dalam ilmu data.

Tujuannya adalah untuk mengekstrak sebuah pengetahuan atau informasi dari data. Biasanya, orang-orang yang mahir dalam bidang data science menggunakan algoritma machine learning atau pemelajaran mesin. Hal ini berguna dalam mengolah teks, gambar, video, audio, dan lain-lain untuk menghasilkan sistem kecerdasan buatan.

Sistem kecerdasan buatan ini dapat dirancang untuk melakukan berbagai tugas yang terlalu sulit untuk kecerdasan manusia. Hasil data yang diolah sistem kecerdasan buatan akan dapat dimanfaatkan oleh analis dan pengguna dalam bisnis untuk merancang strategi yang tepat untuk menyelesaikan suatu masalah atau mencapai sebuah tujuan.

Fungsi Data Science

Data science adalah ilmu yang penting, karena bisnis kecil maupun besar sangat bergantung pada data. Jika perusahaan tidak mampu mengolah data, bisnis tidak akan memiliki pedoman untuk strategi operasi yang efektif dan efisien untuk mendapat keuntungan.

Saat ini, perusahaan-perusahaan di seluruh dunia semakin menyadari pentingnya data science, kecerdasan buatan, dan machine learning. Jika sebuah bisnis ingin berkompetisi dan tetap relevan, ia harus mampu mengimplementasi data science.

Hal Varian, seorang ahli ekonom Google dan dosen Ilmu Komputer, Bisnis, dan Ekonomi UC Berkeley, mengatakan bahwa kemampuan mengambil, memahami, memroses, dan menyaring nilai dari suatu data serta memvisualisasikannya adalah keahlian yang semakin penting di dekade yang akan datang.

Tentu saja, orang yang memiliki pemahaman data science yang baik akan menjadi berharga dan banyak dicari.

Pilar Data Science

Data science bisa digunakan untuk berbagai ilmu. Namun, terdapat tiga pilar penting yang mendukungnya di antaranya,
1. Bisnis
Seorang data scientist yang mengolah data berdasarkan ilmu data science harus bisa mengolah data menjadi informasi yang bisa dipahami untuk membantu perancangan strategi guna menyelesaikan masalah bisnis.

Untuk bisa melakukan ini, keahlian data science pun harus disertai pemahaman bisnis sehingga penyelesaian yang diusulkan berdasarkan data mungkin untuk dilakukan sebuah bisnis untuk mencapai tujuannya.

2. Matematika dan statistika
Data science sangat membutuhkan ilmu matematika, karena data harus diolah secara kuantitatif. Banyak permasalahan dalam bisnis yang dapat diselesaikan dengan membuat model analitik dengan dasar matematika. Untuk membuatnya, dibutuhkan pemahaman matematika yang mendalam.

Misalnya, algoritma untuk merancang machine learning sebagai salah satu aplikasi ilmu data science sangat lekat dengan matematika. Statistik untuk data science adalah hal yang tak kalah penting. Tidak hanya mengerti statistika klasik, seorang data scientist juga perlu memahami statistika Bayes.

3. Teknologi
Tentu saja, data science tidak bisa lepas dari teknologi dan kreativitas serta kecerdasan dalam menggunakan keahlian teknis untuk menyelesaikan suatu permasalahan. Data science adalah keilmuan yang menggunakan data dalam jumlah besar dan algoritma yang rumit, sehingga butuh keahlian ilmu komputer yang mendalam.

Seorang data scientist perlu menguasai bahasa pemrograman seperti SQL, Phyton, R, SAS, Java, Scala, Julia, dan masih banyak lagi. Seorang data scientist harus mampu berpikir layaknya algoritma dalam memecahkan permasalahan yang paling sulit sekalipun.

Proses Data Science

Menurut Towards Data Science, menjelaskan proses data science dapat dirangkum dalam lima poin OSEMN di antaranya,
1. Obtain
Langkah pertama untuk memulai sebuah proyek data science adalah obtain, yaitu mendapatkan atau mengumpulkan data. Data dikumpulkan dari sumber-sumber data. Kemudian digunakan kemampuan teknis seperti MySQL untuk memroses datanya.

Jika menggunakan Python atau R, Anda bisa langsung membaca data dari sumbernya secara langsung ke program data science yang digunakan. Untuk mengambil data dari sumber, dibutuhkan kemahiran bermacam-macam sesuai dengan tipe dan ukuran file yang didapatkan.

2. Scrub
Setelah data dikumpulkan, hal selanjutnya yang harus dilakukan dalam tahap proses data science adalah scrubbing data. Scrubbing data adalah proses pembersihan atau filter data. Jika ada data yang tidak penting atau tidak relevan, harus disingkirkan.

Pada tahap ini, dilakukan juga standardisasi format data.Dari format bermacam-macam di tahap pertama, seluruh data dikonversi ke satu format yang sama. Setelah itu, jika ada data yang kurang atau hilang, harus dilakukan penyesuaian agar dapat diproses.

Proses scrubbing juga meliputi penyatuan dan pemisahan kategori data tergantung kebutuhan. Pada dasarnya, tahap scrubbing merupakan proses mengatur, merapikan data, serta membuang apa pun yang tidak diperlukan, dan mengganti data yang hilang serta menstandardisasi seluruh formatnya.

3. Explore
Pada tahap ini, penggalian dan pemeriksaan data dilakukan. Pertama-tama, semua data harus diperiksa propertinya, karena tipe data yang berbeda memerlukan perlakuan yang berbeda pula. Kemudian, statistik deskriptif harus dihitung untuk dapat mengekstrak fitur dan menguji variabel yang signifikan.

Terakhir, visualisasi data digunakan untuk mengidentifikasi pola dan tren signifikan dalam data yang sudah Anda dapatkan. Dengan begitu, bisa diperoleh gambaran yang lebih jelas dengan grafik agar pentingnya data dapat lebih dipahami.

4. Model
Setelah memastikan tahap scrub dan explore sudah dilakukan maksimal, maka Anda dapat lanjut ke tahap data science selanjutnya, yaitu model. Pada tahap ini, dibuat model data untuk mencapai tujuan yang diinginkan.

Pada tahap ini, digunakan regresi dan prediksi untuk memperkirakan nilai di waktu mendatang serta melakukan klasifikasi dan pengelompokan grup nilai dari data.

5. Interpret
Tahap terakhir dalam proses data science adalah interpretasi data. Interpretasi data adalah proses penting di mana dilakukan interpretasi model dan data. Output dari pengolahan data yang diinterpretasi harus bisa dipahami oleh orang-orang awam yang tidak mengerti istilah teknis.

Presentasinya bertujuan untuk menjawab persoalan bisnis berdasarkan data yang diperoleh. Pada tahap interpretasi data, kemampuan komunikasi yang baik juga sangat dibutuhkan untuk menyampaikan poin-poin pentingnya secara efektif pada semua orang yang berkepentingan.

Contoh Penerapan Data Science

Ilmu ini dapat ditemukan penerapannya dalam berbagai sektor industri, mulai dari bidang kesehatan hingga e-commerce untuk keperluan bisnis. Berikut beberapa contoh penerapan data science dalam era modern di antaranya,
1. Bidang kesehatan
Menurut laman Built In, ilmu data science pertama kali dikenalkan pada dunia lewat industri kesehatan pada tahun 2008. Pada tahun tersebut, Google menemukan bahwa mereka dapat memetakan wabah flu secara real time dengan melacak data lokasi pada pencarian terkait flu.

Peta dari CDC (Centers for Disease Control and Prevention) yang ada dari kasus flu yang didokumentasikan, FluView, diperbarui hanya sekali seminggu. Hasilnya, Google dengan cepat meluncurkan alat pesaing dengan pembaruan berita yang lebih up-to-date, yakni Google Flu Trends.

2. Bidang finansial
Contoh penerapan data science berikutnya adalah untuk keperluan fraud detection pada bidang finansial. Kebanyakan bank dan perusahaan berbasis finance kini menggunakan data science untuk mengklasifikasikan, mengelompokkan, dan menyegmentasikan data yang mungkin menandakan pola penipuan.

Hal ini diperlukan guna menghindari terjadinya proses kriminalisasi berkelanjutan di dalam sistem milik perusahaan. Sistem pakar dalam perusahaan finansial juga bisa mengkodekan data yang mampu mendeteksi penipuan dalam bentuk-bentuk yang tak terduga.

3. Bidang olahraga profesional
Ilmu ini ternyata sering digunakan untuk keperluan rekrutmen pemain muda yang berpotensi menjadi bintang. Salah satu contoh penerapannya adalah pada tim baseball Oakland Athletics. Mereka menggunakan statistik dalam gim yang sering diabaikan tim lain untuk memprediksi potensi pemain dan membentuk tim yang kuat dengan harga murah.

4. Bidang e-commerce
Contoh penerapan data science pada bidang e-commerce untuk berbagai keperluan dynamic pricing. Penetapan harga ini dibentuk oleh suatu perusahaan e-commerce untuk menyegmentasikan pelanggan atau konsumen secara tepat.

Dynamic pricing ini juga diperlukan agar setiap kelompok pelanggan dapat ditawari produk dengan harga yang sesuai dengan kebutuhan mereka. Penghitungan dynamic pricing pada suatu perusahaan biasanya melihat dari berbagai macam kategori data, seperti lead time, review properti, dan fasilitas yang disediakan produk.

Baca Juga: Data Scientist: Pengertian, Skill, dan Tugasnya

Dari berbagai sumber

Download

Aletheia Rabbani
Aletheia Rabbani “Barang siapa yang tidak mampu menahan lelahnya belajar, maka ia harus mampu menahan perihnya kebodohan” _ Imam As-Syafi’i

Post a Comment