Bagaimana Twitter Memberi Ilmuwan Sebuah Jendela Menjadi Kebahagiaan dan Kesehatan Manusia

Sejak peluncuran publik 10 bertahun-tahun yang lalu, Twitter telah digunakan sebagai platform jejaring sosial di antara teman, layanan pesan cepat untuk pengguna smartphone dan alat promosi untuk perusahaan dan politisi.

Tapi itu juga menjadi sumber data yang tak ternilai bagi para periset dan ilmuwan - seperti saya - yang ingin mempelajari bagaimana manusia merasa dan berfungsi dalam sistem sosial yang kompleks.

Dengan menganalisis tweets, kami dapat mengamati dan mengumpulkan data tentang interaksi sosial jutaan orang "di alam liar," di luar percobaan laboratorium terkontrol.

Ini memungkinkan kita untuk mengembangkan alat untuk memantau emosi kolektif dari populasi besar, Menemukan tempat paling bahagia di Amerika Serikat dan masih banyak lagi.

Jadi bagaimana, tepatnya, apakah Twitter menjadi sumber unik bagi ilmuwan sosial komputasi? Dan apa yang memungkinkan kita untuk menemukan?


grafis berlangganan batin


Kado terbesar Twitter bagi para periset

Pada bulan Juli 15, 2006, Twittr (seperti yang kemudian diketahui) di depan umum diluncurkan sebagai "layanan mobile yang membantu kelompok teman memunculkan pikiran acak seputar SMS." Kemampuan untuk mengirim teks kelompok karakter 140 gratis mendorong banyak pengadopsi awal (termasuk saya sendiri) untuk menggunakan platform ini.

Seiring berjalannya waktu, jumlah pengguna meledak: dari 20 juta di 2009 menjadi 200 juta di 2012 dan 310 juta hari ini. Alih-alih berkomunikasi langsung dengan teman, pengguna hanya akan memberi tahu pengikut mereka bagaimana perasaan mereka, menanggapi berita secara positif atau negatif, atau membuat lelucon.

Bagi periset, kado terbesar Twitter telah menjadi bekal dalam jumlah besar data terbuka. Twitter adalah salah satu jejaring sosial utama pertama yang menyediakan sampel data melalui sesuatu yang disebut Application Programming Interfaces (APIs), yang memungkinkan periset untuk mengaitkan Twitter dengan jenis tweet tertentu (misalnya, tweet yang mengandung kata-kata tertentu), serta informasi pengguna .

Hal ini menyebabkan ledakan proyek penelitian memanfaatkan data ini. Saat ini, pencarian Google Cendekia untuk "Twitter" menghasilkan enam juta klik, dibandingkan dengan lima juta untuk "Facebook." Perbedaannya sangat mencolok mengingat Facebook memiliki kira-kira lima kali lebih banyak pengguna sebagai Twitter (dan dua tahun lebih tua).

Kebijakan data dermawan Twitter pasti menghasilkan publisitas gratis yang sangat baik bagi perusahaan, karena studi ilmiah menarik didapat oleh media mainstream.

Mempelajari kebahagiaan dan kesehatan

Dengan data sensus tradisional yang lamban dan mahal untuk dikumpulkan, data open feed seperti Twitter memiliki potensi untuk menyediakan jendela real-time untuk melihat perubahan pada populasi besar.

Universitas Vermont Lab Cerita Komputasi didirikan di 2006 dan mempelajari masalah matematika terapan, sosiologi dan fisika. Sejak 2008, Lab Story telah mengumpulkan miliaran tweet melalui umpan "Gardenhose" dari Twitter, sebuah API yang mengalirkan sampel acak 10 persen dari semua tweet publik secara real time.

Saya menghabiskan tiga tahun di Lab Cerita Komputasi dan beruntung menjadi bagian dari banyak penelitian menarik menggunakan data ini. Sebagai contoh, kami mengembangkan sebuah hedonometer yang mengukur kebahagiaan Twittersphere secara real time. Dengan berfokus pada tweet geolokal yang dikirim dari ponsel cerdas, kami dapat melakukannya peta tempat paling membahagiakan di Amerika Serikat. Mungkin tidak mengejutkan, kami temukan Hawaii menjadi negara yang paling membahagiakan dan anggur yang menumbuhkan Napa sebagai kota terindah untuk 2013. 

Peta 13 juta tweet AS yang geolokasi dari 2013, diwarnai oleh kebahagiaan, dengan merah menunjukkan kebahagiaan dan biru yang menunjukkan kesedihan. PLOS ONE, Author disediakanPeta 13 juta tweet AS yang geolokasi dari 2013, diwarnai oleh kebahagiaan, dengan merah menunjukkan kebahagiaan dan biru yang menunjukkan kesedihan. PLoS ONE, Penulis yang diberikan.Studi ini memiliki aplikasi yang lebih dalam: Mengaitkan penggunaan kata Twitter dengan demografi membantu kami memahami pola sosioekonomi di kota-kota. Misalnya, kita bisa menghubungkan penggunaan kata dengan faktor kesehatan seperti obesitas, jadi kita membangun a leksikokalimeter untuk mengukur "konten kalori" dari posting media sosial. Tweet dari wilayah tertentu yang menyebutkan makanan berkalori tinggi meningkatkan "kandungan kalori" wilayah tersebut, sementara tweet yang menyebutkan aktivitas olahraga menurunkan metrik kita. Kami menemukan bahwa ukuran sederhana ini berkorelasi dengan metrik kesehatan dan kesejahteraan lainnya. Dengan kata lain, tweets dapat memberi kami gambaran singkat, tepat pada waktunya, tentang kesehatan keseluruhan kota atau wilayah.

Dengan memanfaatkan kekayaan data Twitter, kita juga bisa Lihatlah pola pergerakan harian orang-orang dengan detail yang belum pernah terjadi sebelumnya. Memahami pola mobilitas manusia, pada gilirannya, memiliki kapasitas untuk mengubah pemodelan penyakit, membuka bidang baru epidemiologi digital.

Untuk penelitian lain, kami melihat apakah pelancong mengekspresikan kebahagiaan yang lebih besar di Twitter daripada mereka yang tinggal di rumah (jawabannya: mereka melakukannya) dan jika Orang-orang bahagia cenderung bersatu dalam jaringan sosial (lagi, mereka lakukan). Memang, Positif tampaknya dipanggang dalam bahasa itu sendiri, dalam artian kita memiliki kata-kata yang lebih positif daripada kata-kata negatif. Ini tidak terjadi hanya di Twitter tapi juga di berbagai media yang berbeda (misalnya, buku, film dan surat kabar) dan bahasa.

Studi ini - dan ribuan lainnya menyukai mereka dari seluruh dunia - hanya mungkin berkat Twitter.

The 10 tahun ke depan

Jadi, apa yang bisa kita harapkan dari Twitter selama tahun 10 berikutnya?

Beberapa karya yang paling menarik saat ini melibatkan penghubungan data media sosial dengan model matematis untuk memprediksi fenomena tingkat populasi seperti wabah penyakit. Periset sudah memiliki beberapa keberhasilan dalam meningkatkan model penyakit dengan data Twitter untuk meramalkan influenza, terutama FluOutlook platform yang dikembangkan oleh Northeastern University dan Institute for Scientific Interchange.

Masih ada sejumlah tantangan yang tersisa. Data media sosial mengalami rasio "signal-to-noise" yang sangat rendah. Dengan kata lain, tweet yang relevan dengan penelitian tertentu sering kali ditenggelamkan oleh "noise" yang tidak relevan.

Karena itu, kita harus terus sadar akan apa yang telah dijuluki "Keangkuhan data besar"Saat mengembangkan metode baru dan tidak terlalu percaya diri akan hasil kami. Terhubung dengan ini harus menjadi tujuan untuk menghasilkan prediksi "kotak kaca" yang dapat ditafsirkan dari data ini (berlawanan dengan prediksi "kotak hitam", di mana algoritma tersembunyi atau tidak jelas).

Data media sosial sering (cukup) dikritik karena menjadi kecil, sampel tidak representatif dari populasi yang lebih luas. Salah satu tantangan utama bagi para peneliti adalah mencari tahu bagaimana memperhitungkan data miring tersebut dalam model statistik. Sementara lebih banyak orang menggunakan media sosial setiap tahunnya, kita harus terus mencoba memahami bias dalam data ini. Misalnya, data masih cenderung membengkokkan individu yang lebih muda dengan mengorbankan populasi yang lebih tua.

Baru setelah mengembangkan metode koreksi bias yang lebih baik, peneliti dapat membuat prediksi yang sepenuhnya percaya diri dari tweet.

Tentang Penulis

Lewis Mitchell, Dosen Matematika Terapan, University of Adelaide

Artikel ini awalnya diterbitkan pada Percakapan. Membaca Artikel asli.

Buku terkait

at Pasar InnerSelf dan Amazon