Bagaimana Teman Anda di Twitter Bisa Memberi Anda Menjawab Anonimitas Anda

Saat Anda menjelajah internet, pengiklan online melacak hampir setiap situs yang Anda kunjungi, mengumpulkan sejumlah informasi tentang kebiasaan dan preferensi Anda. Saat Anda mengunjungi situs berita, mereka mungkin melihat Anda penggemar novel bola basket, opera dan misteri, dan karenanya memilih iklan yang disesuaikan dengan selera Anda.

Pengiklan menggunakan informasi ini untuk menciptakan pengalaman yang sangat dipersonalisasi, namun biasanya mereka tidak tahu persis siapa Anda. Mereka hanya mengamati jejak digital Anda, bukan identitas Anda sendiri, dan Anda mungkin merasa bahwa Anda telah mempertahankan tingkat anonimitas.

Tapi, di koran saya coauthored dengan Ansh Shukla, Sharad Goel dan Arvind Narayanan, kami menunjukkan bahwa catatan penjelajahan web anonim ini sebenarnya bisa dikaitkan dengan identitas dunia nyata.

Untuk menguji pendekatan kami, kami membangunnya website dimana orang bisa menyumbangkan sejarah penjelajahan mereka untuk keperluan penelitian ini. Kami kemudian mencoba untuk melihat apakah kami dapat menghubungkan riwayat mereka kembali ke profil Twitter mereka dengan hanya menggunakan data yang tersedia untuk umum. Tujuh puluh dua persen orang yang kami coba deanonymize diidentifikasi dengan benar sebagai kandidat teratas dalam hasil pencarian, dan 81 persen termasuk di antara kandidat 15 teratas.

privacy2 2 8Screenshot dari situs deanonymization.

Ini adalah, sepengetahuan kami, demonstrasi deanonymization skala terbesar sampai saat ini, karena pengguna tersebut memilih pengguna yang benar dari ratusan juta pengguna Twitter yang mungkin ada. Selain itu, metode kami hanya mengharuskan seseorang mengeklik tautan yang muncul di umpan media sosial mereka, bukan berarti mereka mengeposkan konten apa pun - sehingga orang yang berhati-hati dengan apa yang mereka bagi di internet masih rentan terhadap serangan ini.


grafis berlangganan batin


Cara kerjanya

Pada tingkat tinggi, pendekatan kita didasarkan pada pengamatan sederhana. Setiap orang memiliki jaringan sosial yang sangat khas, terdiri dari keluarga dan teman-teman dari sekolah, pekerjaan dan berbagai tahap kehidupan mereka. Sebagai konsekuensinya, kumpulan tautan di umpan Facebook dan Twitter Anda sangat berbeda. Mengeklik tautan ini akan menghasilkan tanda kirim di riwayat penjelajahan Anda.

Dengan melihat kumpulan halaman web yang dikunjungi seseorang, kami dapat memilih umpan media sosial yang serupa, menghasilkan daftar kandidat yang kemungkinan menghasilkan riwayat penjelajahan web. Dengan cara ini, kita dapat mengikat identitas dunia nyata seseorang ke rangkaian tautan yang hampir lengkap yang pernah mereka kunjungi, termasuk tautan yang tidak pernah diposkan di situs media sosial apa pun.

Melaksanakan strategi ini melibatkan dua tantangan utama. Yang pertama adalah teoritis: Bagaimana Anda mengukur seberapa mirip umpan media sosial tertentu dengan riwayat penjelajahan web tertentu? Salah satu cara mudah adalah dengan mengukur fraksi link dalam riwayat penjelajahan yang juga muncul di feed. Ini bekerja dengan cukup baik dalam praktik, tapi terlalu banyak memberi persamaan pada makanan yang banyak, karena ini hanya mengandung lebih banyak tautan. Kami malah mengambil pendekatan alternatif. Kami memberi model perilaku penjelajahan web yang bergaya dan probabilistik, dan kemudian menghitung kemungkinan pengguna dengan umpan media sosial tersebut menghasilkan riwayat penjelajahan yang diamati. Lalu kita pilih media social feed yang paling mungkin.

Tantangan kedua melibatkan identifikasi makanan yang paling mirip secara real time. Di sini kita beralih ke Twitter, karena umpan Twitter (berbeda dengan Facebook) sebagian besar bersifat publik. Namun, meski umpannya bersifat publik, kita tidak bisa hanya membuat salinan Twitter lokal yang dengannya kita dapat menjalankan kueri kami. Sebagai gantinya kami menerapkan serangkaian teknik untuk secara dramatis mengurangi ruang pencarian. Kami kemudian menggabungkan teknik caching dengan perayapan jaringan on-demand untuk menyusun umpan calon yang paling menjanjikan. Pada set kandidat yang dikurangi ini, kami menerapkan ukuran kesamaan untuk menghasilkan hasil akhir. Dengan riwayat penjelajahan, biasanya kita dapat melakukan seluruh proses ini dalam waktu 60.

Metode kami lebih akurat bagi orang yang browsing Twitter lebih aktif. Sembilan puluh persen peserta yang telah mengklik 100 atau lebih banyak tautan di Twitter bisa disesuaikan dengan identitas mereka.

Banyak perusahaan memiliki sumber daya pelacak untuk melakukan serangan seperti ini, meski tanpa persetujuan dari peserta. Kami berusaha untuk menghilangkan identitas masing-masing peserta eksperimen kami dengan hanya menggunakan bagian-bagian sejarah penjelajahan mereka yang dapat dilihat oleh perusahaan pelacak tertentu (karena perusahaan memiliki pelacak pada halaman tersebut). Kami menemukan bahwa beberapa perusahaan memiliki sumber daya untuk mengidentifikasi peserta secara akurat.

privasi 2 8Studi deanonymisasi lainnya

Beberapa penelitian lain telah menggunakan jejak kaki yang tersedia untuk umum guna menghilangkan data sensitif.

Mungkin studi yang paling terkenal sepanjang garis ini dilakukan oleh Latanya Sweeney di Universitas Harvard di 2002. Dia menemukan itu 87 persen orang Amerika dikenali secara unik berdasarkan kombinasi kode pos, jenis kelamin dan tanggal lahir mereka. Ketiga atribut tersebut tersedia di kedua data pendaftaran pemilih publik (yang dia beli seharga US $ 20) dan data medis anonim (yang didistribusikan secara luas, karena orang mengira datanya tidak dikenal). Dengan menghubungkan sumber data ini, dia menemukan catatan medis gubernur Massachusetts.

Dalam 2006, Netflix mengadakan kontes untuk meningkatkan kualitas rekomendasi filmnya. Mereka merilis kumpulan data orang yang tidak dianonimkan, dan menawarkan $ 1 juta kepada tim yang dapat memperbaiki algoritma rekomendasi mereka dengan 10 persen. Ilmuwan komputer Arvind Narayanan dan Vitaly Shmatikov melihat bahwa film yang ditonton orang sangat berbeda, dan kebanyakan orang di dataset dikenali secara unik berdasarkan sebagian kecil film mereka. Dengan kata lain, berdasarkan pilihan film Netflix dan ulasan IMDB, para periset dapat menentukan pengguna Netflix mana sebenarnya.

Dengan bangkitnya media sosial, semakin banyak orang berbagi informasi yang nampaknya tidak berbahaya, namun sebenarnya banyak mengungkapkan informasi pribadi. Sebuah studi yang dipimpin oleh Michal Kosinski di University of Cambridge menggunakan Facebook yang suka memprediksi orang orientasi seksual, pandangan politik dan sifat kepribadian.

Tim lain, dipimpin oleh Gilbert Wondracek di Vienna University of Technology, membangun "mesin deanonymization" yang menemukan kelompok mana yang menjadi bagian jaringan sosial Xing, dan menggunakannya untuk mengetahui siapa mereka - karena kelompok yang menjadi bagian Anda cukup sering untuk mengidentifikasi secara unik. kamu.

Apa yang bisa kamu lakukan

Sebagian besar serangan ini sulit dipertahankan, kecuali jika Anda berhenti menggunakan internet atau berpartisipasi dalam kehidupan publik.

Bahkan jika Anda berhenti menggunakan internet, perusahaan masih bisa mengumpulkan data tentang Anda. Jika beberapa teman Anda mengunggah kontak telepon mereka ke Facebook, dan nomor Anda ada di semua daftar kontak mereka, maka Facebook dapat membuat prediksi tentang Anda, walaupun Anda tidak menggunakan layanan mereka.

Cara terbaik untuk mempertahankan algoritma deanonymizing seperti kita adalah membatasi kumpulan orang yang memiliki akses ke data penjelajahan anonim Anda. Ekstensi browser seperti Ghostery blokir pelacak pihak ketiga Itu berarti, walaupun perusahaan yang situs webnya Anda kunjungi akan tahu bahwa Anda mengunjungi mereka, perusahaan periklanan yang menampilkan iklan di halaman mereka tidak akan dapat mengumpulkan data penjelajahan Anda dan mengumpulkannya di beberapa situs.

Jika Anda seorang webmaster, Anda dapat membantu melindungi pengguna dengan membiarkan mereka menjelajahi situs Anda HTTPS. Browsing menggunakan HTTP memungkinkan penyerang untuk mendapatkan riwayat penjelajahan Anda dengan mengendus lalu lintas jaringan, yang memungkinkan mereka melakukan serangan ini. Banyak situs web telah beralih ke HTTPS; ketika kami mengulangi percobaan deanonymization kami dari perspektif sniffer lalu lintas jaringan, hanya 31 persen peserta yang dapat menerima deanonymized.

Namun, sangat sedikit yang bisa Anda lakukan untuk melindungi diri dari serangan deanonymization secara umum, dan mungkin tindakan terbaik adalah menyesuaikan harapan seseorang. Tidak ada yang pribadi di era digital ini.

Tentang Penulis

Jessica Su, Ph.D. Siswa di Stanford, Stanford University

Artikel ini awalnya diterbitkan pada Percakapan. Membaca Artikel asli.

Buku terkait

at Pasar InnerSelf dan Amazon