Tekno

Data Science: Pengertian – Sejarah dan Ruang Lingkupnya

Data Science bukan tentang membuat model yang rumit. Ini bukan tentang membuat visualisasi yang mengagumkan. Ini bukan tentang menulis kode, Data Science adalah tentang menggunakan data untuk menciptakan dampak sebesar mungkin bagi perusahaan Anda.

Sekarang dampak dapat dilihat dalam bentuk banyak hal. Bisa berupa insight, berupa data produk, atau berupa rekomendasi produk bagi suatu perusahaan.

Nah untuk melakukan hal tersebut maka diperlukan alat bantu seperti membuat model yang rumit atau visualisasi data atau penulisan kode.

Namun intinya sebagai seorang data scientist, tugas Anda adalah memecahkan masalah perusahaan yang sebenarnya menggunakan data dan untuk jenis alat apa yang Anda gunakan, mereka tidak peduli.

Apa itu Data Science?

Sekarang ada banyak kesalahpahaman tentang data science dan alasannya adalah karena ada ketidaksejajaran yang sangat besar antara apa yang populer untuk dibicarakan, dan apa yang dibutuhkan di industri. Jadi oleh karena itu, mari kita perjelas.

Perusahaan-perusahaan itu sangat menekankan pada penggunaan data untuk meningkatkan produk mereka. Jadi inilah pendapat saya tentang ilmu data.

Sejarah Data Science

Sebelum Data Science, populer terlebih dahulu istilah data mining dalam sebuah artikel yang disebut from data mining to knowledge discovery in databases pada tahun 1996 yang merujuk pada keseluruhan proses menemukan informasi yang berguna dari data.

Pada tahun 2001, William S. Cleveland ingin membawa data mining ke level yang lebih tinggi. Dia melakukannya dengan menggabungkan computer science dengan data mining. Pada dasarnya dia membuat statistik lebih teknis, yang dia percaya akan memperluas kemungkinan data mining dapat menghasilkan kekuatan yang kuat untuk inovasi.

Sekarang Anda dapat memanfaatkan kekuatan komputasi untuk statistik dan dia menyebutnya kombo data science. Pada saat ini, bermula ketika web 2.0 muncul di mana situs web tidak lagi hanya pamflet digital, tetapi sarana untuk pengalaman bersama di antara jutaan pengguna Ini adalah situs web seperti MySpace pada tahun 2003, Facebook pada tahun 2004 dan Youtube pada tahun 2005.

Sekarang kita dapat berinteraksi dengan situs web ini, artinya kita dapat memberikan kontribusi untuk memberikan komentar, like, upload, dan share, meninggalkan jejak kita di lanskap digital. Internet membantu menciptakan dan membentuk ekosistem yang sekarang kita kenal dan cintai.

Dan coba tebak? Itu banyak sekali data, begitu banyak data. Itu menjadi terlalu banyak untuk ditangani dengan penggunaan teknologi tradisional. Jadi biasa disebut Big Data. Hal itu membuka banyak kemungkinan dalam menemukan wawasan menggunakan data.

Namun juga berarti bahwa pertanyaan paling sederhana memerlukan infrastruktur data yang canggih hanya untuk mendukung penanganan data.

Dalam data science, biasanya membutuhkan komputasi paralel seperti MapReduce, Hadoop, dan Spark. Jadi, kebangkitan big data pada tahun 2010 memicu munculnya ilmu data untuk mendukung kebutuhan bisnis untuk mendapatkan wawasan dari kumpulan data tak terstruktur mereka yang sangat besar.

Kemudian sebuah artikel berjudul journal of data science menggambarkan ilmu data hampir seperti segala sesuatu yang berkaitan dengan pengumpulan, analisis, dan pemodelan data. Namun yang terpenting adalah aplikasinya, semua jenis aplikasi. Ya, semua jenis aplikasi seperti Machine Learning.

Pada tahun 2010 dengan berlimpahnya data baru, memungkinkan untuk melatih mesin dengan pendekatan berbasis data daripada pendekatan berbasis pengetahuan. Semua makalah asli tentang mesin vektor dengan dukungan Neural Network berulang hingga menjadi layak.

Sesuatu yang dapat mengubah cara kita hidup dan bagaimana kita mengalami hal-hal di dunia. Deep Learning tidak lagi menjadi konsep akademis dalam hal ini, tetapi menjadi kelas bagian dari Machine Learning yang kenyataanya berguna yang akan memengaruhi kehidupan kita sehari-hari.

Jadi, Machine Learning dan Artificial Intelligence mendominasi media yang membayangi setiap aspek lainnya (aspek yang paling menonjol) dari data science seperti analisis eksplorasi, eksperimentasi, dan keterampilan yang biasa kita sebut Business Inteligence.

Jadi sekarang masyarakat umum menganggap data science sebagai penelitian yang berfokus pada Machine Learning dan Artificial Intelligence tetapi industri ini mempekerjakan data scientist sebagai analis. Jadi ada ketidaksesuaian di sana, alasannya karena ketidakselarasannya sebagian besar ilmuwan data yang mungkin dapat menangani masalah yang lebih teknis.

Tetapi perusahaan besar seperti Google, Facebook, dan Netflix memiliki begitu banyak cara untuk meningkatkan produk mereka sehingga mereka tidak memerlukan Machine Learning lanjutan atau pengetahuan statistik untuk menemukan dampak ini dalam analisis mereka.

Hirarki kebutuhan Data Mining

gambar 1. hirarki kebutuhan data mining

jadi ini adalah bagan yang sangat berguna yang memberi tahu Anda kebutuhan data science. berikut ini adalah penjelasan dari hirarki kebutuhan data science:

  • Di bagian bawah piramida, anda jelas harus mengumpulkan beberapa jenis data untuk menjadi dapat menggunakan data itu. Jadi mengumpulkan penyimpanan, mengubah semua upaya rekayasa data ini cukup penting dan sebenarnya cukup baik untuk ditangkap media.
  • Karena data yang besar (Big Data) mari berbicara tentang betapa sulitnya menganalisis semua data ini. Berbicara tentang komputasi paralel yang artinya seperti Hadoop dan Spark hal-hal seperti itu. Kita tahu tentang ini, sekarang yang kurang diketahui adalah hal-hal ini berada di antara aggregate/label.
  • Dari Bagian Testing sampai Planning, dan ternyata ini adalah salah satu hal terpenting untuk perusahaan karena Anda mencoba memberi tahu perusahaan, apa yang harus dilakukan dengan produk Anda. Menggunakan data, wawasan apa yang dapat memberi tahu apa yang terjadi pada pengguna.
  • kemudian metrics, ini penting karena apa yang terjadi dengan produk saya ?. Anda tahu metrik ini akan memberi tahu Anda apakah Anda berhasil atau tidak.
  • kemudian juga anda tentu saja sedang melakukan testing. Eksperimen yang memungkinkan Anda mengetahui, versi produk mana yang terbaik. Jadi hal-hal ini sebenarnya sangat penting tetapi mereka tidak begitu diliput di media.
  • apa yang diliput di media berada di bagian AI dan Deep Learning, Anda tahu tetapi ketika Anda memikirkannya untuk sebuah perusahaan, untuk industri, sebenarnya tidak prioritas tertinggi atau setidaknya bukan hal yang menghasilkan hasil paling banyak untuk jumlah, tetapi upaya yang paling rendah, itulah sebabnya AI dan deep learning berada di atas hierarki kebutuhan dan hal-hal ini mungkin menjelaskan bahwa pengujian analitik penting untuk industri. Jadi, itulah mengapa mempekerjakan banyak ilmuwan data yang melakukan itu.

Apa yang sebenarnya dilakukan oleh data scientist

Jadi, apa yang sebenarnya dilakukan oleh data scientist?. Well, itu tergantung pada perusahaan, berdasarkan ukurannya. Jadi untuk memulai, misalkan anda memiliki perusahaan kecil, Anda kekurangan sumber daya. jadi Anda hanya bisa memiliki satu data scientist.

Sehingga sebagai satu-satunya data scientist, dia untuk melakukan segalanya. jadi Anda mungkin mengerjakan semua ini. Mungkin dia tidak akan melakukan AI atau DL karena itu bukan prioritas saat ini. tetapi dia mungkin melakukan semua ini.

dia harus menyiapkan seluruh infrastruktur data. Dia bahkan mungkin harus menulis beberapa kode perangkat lunak untuk menambahkan logging dan kemudian dia harus melakukan analitik sendiri, lalu dia harus membuat metrik sendiri, dan dia harus melakukan pengujian A / B sendiri.

Itu sebabnya untuk sebuah startup, jika mereka membutuhkan data scientist, ini semua bergantung pada besar kecilnya suatu perusahaan.

ini akan menyebabkan/menghadirkan sumber daya yang berbeda. Semakin besar suatu perusahaan maka data scientist mendapatkan dukungan dari software engineer dan data engineer dalam melakukan tugasnya dan menjadi lebih mudah dan efektif.

Penutup

Menjadi data scientist yang baik bukanlah tentang seberapa canggih model Anda. Ini tentang seberapa besar dampaknya bagi Anda dapat mengerjakan pekerjaan Anda, Anda bukan pemecah data, anda pemecah masalah, anda ahli strategi.

Perusahaan akan memberi Anda masalah yang paling ambigu dan sulit. Dan mereka berharap anda mampu memandu perusahaan ke arah yang benar.


Suma Anggoro

Suma Anggoro Cipto was born in Magelang, 01 february 1996. At the University of Singaperbangsa, Karawang, Suma learned to work on web-based and desktop application projects. by applying the java, php, html programming language that can be connected to the sql/mysql database. Recently he finished a research paper on improving network connection. Suma is currently finishing his Bachelor of Information Technology and hopes to join a department in the near future.