Data besar adalah berita besar hari ini Tetapi sebagian besar organisasi hanya mengumpulkan data rim yang besar, sehingga membuat mereka memiliki data penyimpanan yang tidak terstruktur - atau "gelap" - yang tidak banyak berguna bagi siapa pun.

Dengan potensi manfaat dari data besar, sangat penting bagi kita untuk menemukan cara yang lebih baik untuk mengumpulkan, menyimpan dan menganalisis data agar bisa memanfaatkannya dengan sebaik-baiknya.

Cerita tentang sukses data besar telah memicu investasi signifikan dalam inisiatif data yang besar. Hal ini telah mendorong banyak organisasi untuk mengumpulkan sejumlah besar data eksternal dan internal ke dalam apa yang disebut "danau data". Ini adalah repositori yang berisi data dalam format apa pun, terstruktur, seperti database, atau tidak terstruktur, seperti email atau audio dan video.

Akibatnya, pertumbuhan jumlah data yang dihasilkan, dikumpulkan dan disimpan berlanjut pada tingkat eksponensial.

Tapi menurut yang baru IBM belajar, lebih dari 80% dari semua data tidak aktif, tidak terkelola, sering tidak terstruktur, kurang memiliki metadata yang berarti, dan bahkan tidak diketahui oleh organisasi. Proporsi data gelap ini diperkirakan akan mencapai 93% oleh 2020.


grafis berlangganan batin


Sebagai contoh, data yang dihasilkan dari perangkat on-board kendaraan dapat diharapkan mencapai data 350MB setiap detiknya. Darimana semua data ini masuk dan siapa yang menggunakannya?

Organisasi juga bisa menghasilkan data internal yang signifikan. Misalnya, a Studi terbaru menemukan bahwa perusahaan dengan karyawan 1,500 memiliki sekitar 2.5 juta spreadsheet, yang masing-masing hanya digunakan oleh rata-rata orang 12.

Terlebih lagi, ada bukti dari berbagai data tidak terstruktur seperti versi dokumen, catatan proyek dan email yang tertinggal dari proses organisasi dan kemudian disimpan dalam server data.

Gunakan atau hilang

Pelajaran yang didapat dari penelitian selama bertahun-tahun dalam penggunaan sistem informasi menunjukkan bahwa asumsi bahwa "lebih baik" ketika menyangkut data tidak berdasar.

Bahkan dalam proyek TI tradisional yang mengikuti analisis dan siklus hidup desain yang dibuat dengan hati-hati, misalignment antara nilai yang dirasakan dan aktual telah menjadi masalah yang sangat sulit, yang seringkali menyebabkan tingkat pengembalian investasi yang buruk.

Dalam proyek data besar, data seringkali dapat digunakan secara eksternal dengan sedikit atau tanpa pengetahuan tentang skema, kualitas, atau utilitas yang diharapkannya. Dengan demikian risiko melakukan investasi yang tidak akan memberikannya sangat meningkat.

Pepatah lama "menggunakannya atau hilang" sama sekali tidak usang, dan membawa perhatian kembali pada tujuan bagaimana kita menggunakan data besar. Organisasi mungkin menyimpan data untuk berbagai alasan, termasuk peraturan retensi data, namun nilai masa depan yang dirasakan biasanya merupakan alasan utama.

Meski penyimpanannya relatif murah, mengingat volume data yang berasimilasi, perawatan dan konsumsi energi Pusat data tidak sepele. Selanjutnya, ada biaya dan risiko yang terkait dengan keamanan data yang tidak terkelola seperti itu.

Dengan demikian, menentukan tujuan sangat penting untuk memastikan bahwa investasi data besar ditargetkan pada masalah yang berarti, dan pengumpulan dan penyimpanan data dapat dibenarkan dengan baik.

Pendekatan seperti desain pemikiran, yang mendorong orang untuk menggunakan pemikiran terfokus solusi kreatif, terbukti sangat sukses dalam rumusan masalah asli untuk data besar.

Apa itu Design Thinking?

Bila diterapkan dengan tepat, pemikiran desain dapat melengkapi ilmuwan data untuk menyatukan keinginan (kebutuhan pelanggan) dan viabilitas (nilai bisnis) dengan kelayakan teknologi, dan dengan demikian membimbing mereka untuk mengembangkan solusi yang berarti.

Sampah masuk sampah keluar

Bila kesenjangan antara pembuatan dan penggunaan data menjadi lebih besar, maka semakin besar kemungkinan kualitas data menurun. Ini berarti sebuah organisasi harus menggunakan banyak usaha untuk membersihkan data lama jika ingin menggunakannya hari ini.

Menurut Ilmuwan Data Kepala AS DJ Patil:

Data super berantakan, dan pembersihan data akan selalu benar-benar 80% dari pekerjaan. Dengan kata lain, data adalah masalahnya.

Awal tahun ini, sekelompok pemimpin pemikiran global dari komunitas riset database menggariskan tantangan besar dalam mendapatkan nilai dari data besar. Pesan utamanya adalah kebutuhan untuk mengembangkan kapasitas untuk "memahami bagaimana kualitas data tersebut mempengaruhi kualitas wawasan yang kita dapatkan darinya".

Prinsip emas "sampah masuk, sampah keluar" masih benar dalam konteks data besar. Tanpa pengetahuan yang dapat dipercaya secara ilmiah yang memberikan kemampuan untuk mengevaluasi secara efisien karakteristik kualitas dasar data, ada risiko yang signifikan dari organisasi dan pemerintah yang mengumpulkan volume besar dari data kepadatan rendah, atau berinvestasi pada produk data return-on-investment yang rendah.

Selain itu, kurangnya pengetahuan tentang data yang mendasari (distribusi, semantik dan nuansa lainnya) dapat mengakibatkan perangkap analitis, dimana analisis data dapat menyebabkan kesimpulan yang keliru dan mungkin berbahaya.

Eksplorasi data muncul sebagai pendekatan yang menjanjikan untuk memberdayakan pengguna dengan kemampuan eksplorasi untuk menyelidiki kualitas data dan mendapatkan kesadaran akan kekurangan data dalam hal penggunaan yang mereka maksudkan, dan melakukannya sebelum mereka berinvestasi dalam pembersihan dan tugas pembersihan data yang mahal.

Pencarian pencerahan dari data banjir akan menghabiskan energi dan investasi masyarakat berbasis data di masa yang akan datang. Padahal ada kekuatan yang sangat besar dalam skala data, ketika dibiarkan tanpa pengawasan akan mendorong organisasi ke dalam jurang data gelap.

Semua ini menggarisbawahi meningkatnya kebutuhan akan ilmuwan data terlatih yang memiliki kemampuan untuk mengartikulasikan tujuan bisnis, ilmiah, atau sosial yang tepat, dan menyelaraskannya dengan upaya teknologi untuk pengumpulan data, penyimpanan, kurasi dan analisis.

Percakapan

Tentang Penulis

Shazia Sadiq, Profesor, Teknik Data dan Pengetahuan, Universitas Queensland

Artikel ini awalnya diterbitkan pada Percakapan. Membaca Artikel asli.

Buku terkait

at Pasar InnerSelf dan Amazon