Bagaimana Model Penargetan Facebook Cambridge Analytica Benar-benar Berfungsi

Bagaimana Model Penargetan Facebook Cambridge Analytica Benar-benar BerfungsiSeberapa akurat Anda dapat diprofilkan online? Andrew Krasovitckii / Shutterstock.com

Peneliti yang karyanya berada di pusat Analisis data Facebook-Cambridge Analytica dan gejolak iklan politik telah mengungkapkan bahwa metodenya bekerja seperti itu Netflix digunakan untuk merekomendasikan film.

Dalam sebuah email kepada saya, ilmuwan Universitas Cambridge Aleksandr Kogan menjelaskan bagaimana model statistiknya memproses data Facebook untuk Cambridge Analytica. Keakuratan yang dia klaim menunjukkan itu bekerja juga menetapkan metode penargetan pemilih berdasarkan demografi seperti ras, usia dan jenis kelamin.

Jika dikonfirmasi, akun Kogan akan berarti pemodelan digital yang digunakan Cambridge Analytica hampir tidak bola kristal virtual beberapa telah mengklaim. Namun angka-angka yang Kogan sediakan juga tampil apa yang - dan tidak - sebenarnya mungkin by menggabungkan data pribadi dengan pembelajaran mesin untuk tujuan politik.

Mengenai satu perhatian publik utama, meskipun, nomor Kogan menunjukkan bahwa informasi tentang kepribadian pengguna atau "psikografis“Hanyalah bagian sederhana dari bagaimana model yang ditargetkan warga. Itu bukan model kepribadian yang benar-benar berbicara, tetapi lebih dari itu yang meringkas demografi, pengaruh sosial, kepribadian dan segala sesuatu menjadi benjolan berkorelasi besar. Pendekatan perendaman-semua-korelasi-dan-panggilan-kepribadian ini tampaknya telah menciptakan alat kampanye yang berharga, bahkan jika produk yang dijual tidak cukup seperti yang ditagih.

Janji penargetan kepribadian

Di bangun dari wahyu yang konsultan kampanye Trump Cambridge Analytica digunakan data dari 50 juta pengguna Facebook untuk menargetkan iklan politik digital selama pemilihan presiden AS 2016, Facebook memiliki kehilangan miliaran dalam nilai pasar saham, pemerintah di kedua sisi Atlantik memiliki investigasi terbuka, dan baru lahir gerakan sosial memanggil pengguna untuk #DeleteFacebook.

Namun pertanyaan kunci tetap tidak terjawab: Apakah Cambridge Analytica benar-benar mampu secara efektif menargetkan pesan kampanye kepada warga berdasarkan karakteristik kepribadian mereka - atau bahkan “setan batin, ”Sebagai perusahaan whistleblower diduga?

Jika ada yang tahu apa yang dilakukan Cambridge Analytica dengan data Facebooknya yang sangat besar, Aleksandr Kogan dan Joseph Chancellor. Dulu Riset Ilmu Global awal mereka yang mengumpulkan informasi profil dari Pengguna Facebook 270,000 dan puluhan juta teman mereka menggunakan aplikasi tes kepribadian yang disebut "thisisyourdigitallife."


Dapatkan Yang Terbaru Dari Diri Sendiri


Bagian dari penelitian saya sendiri berfokus pada pemahaman Mesin belajar metode, dan buku saya yang akan datang membahas bagaimana perusahaan digital menggunakan model rekomendasi untuk membangun audiensi. Saya memiliki firasat tentang bagaimana model Kogan dan Kanselir bekerja.

Jadi saya mengirim email ke Kogan untuk bertanya. Kogan masih a peneliti di Universitas Cambridge; kolaboratornya Kanselir sekarang bekerja di Facebook. Dalam tampilan luar biasa sopan santun akademik, Kogan menjawab.

Tanggapannya membutuhkan beberapa membongkar, dan beberapa latar belakang.

Dari Hadiah Netflix hingga “psikometrik”

Kembali ke 2006, ketika masih merupakan perusahaan DVD-oleh-mail, Netflix menawarkan sebuah hadiah $ 1 juta kepada siapa saja yang mengembangkan cara yang lebih baik untuk membuat prediksi tentang peringkat film pengguna daripada perusahaan yang sudah ada. Pesaing top mengejutkan adalah seorang pengembang perangkat lunak independen menggunakan nama samaran Simon Funk, yang pendekatan dasarnya pada akhirnya dimasukkan ke dalam semua entri tim teratas. Funk mengadaptasi teknik yang disebut "dekomposisi nilai singular, ”Mengondensasi peringkat pengguna film menjadi serangkaian faktor atau komponen - pada dasarnya satu set kategori yang disimpulkan, peringkat berdasarkan kepentingan. Seperti Funk dijelaskan dalam posting blog,

“Jadi, misalnya, sebuah kategori mungkin mewakili film aksi, dengan film dengan banyak aksi di bagian atas, dan film lambat di bagian bawah, dan juga pengguna yang menyukai film aksi di bagian atas, dan mereka yang lebih memilih film lambat di bawah."

Faktor adalah kategori buatan, yang tidak selalu seperti jenis kategori yang akan muncul pada manusia. Itu faktor paling penting dalam model Netflix awal Funk didefinisikan oleh pengguna yang menyukai film seperti "Pearl Harbor" dan "The Wedding Planner" sementara juga membenci film seperti "Lost in Translation" atau "Eternal Sunshine of the Spotless Mind." Modelnya menunjukkan bagaimana pembelajaran mesin dapat menemukan korelasi di antara kelompok-kelompok orang-orang, dan kelompok-kelompok film, bahwa manusia itu sendiri tidak akan pernah terlihat.

Pendekatan umum Funk menggunakan 50 atau 100 faktor paling penting bagi pengguna dan film untuk membuat tebakan yang layak tentang bagaimana setiap pengguna akan menilai setiap film. Metode ini, sering disebut pengurangan dimensi atau faktorisasi matriks, bukanlah hal baru. Para peneliti ilmu politik telah menunjukkan hal itu teknik serupa menggunakan data suara roll-call dapat memprediksi suara anggota Kongres dengan akurasi 90 persen. Dalam psikologi, “Lima besar”Model juga telah digunakan untuk memprediksi perilaku dengan mengelompokkan bersama pertanyaan kepribadian yang cenderung dijawab sama.

Namun, model Funk adalah kemajuan besar: Ini memungkinkan teknik untuk bekerja dengan baik dengan kumpulan data yang sangat besar, bahkan mereka yang memiliki banyak data yang hilang - seperti dataset Netflix, di mana pengguna biasa menilai hanya beberapa lusin film dari ribuan di perusahaan Perpustakaan. Lebih dari satu dekade setelah kontes Hadiah Netflix berakhir, Metode berbasis SVD, atau model terkait untuk data implisit, masih menjadi alat pilihan untuk banyak situs web untuk memprediksi apa yang akan dibaca, ditonton, atau dibeli oleh pengguna.

Model-model ini dapat memprediksi hal lain juga.

Facebook tahu jika Anda seorang Republikan

Di 2013, peneliti Universitas Cambridge Michal Kosinski, David Stillwell dan Thore Graepel menerbitkan sebuah artikel tentang daya prediksi data Facebook, menggunakan informasi yang dikumpulkan melalui tes kepribadian online. Analisis awal mereka hampir identik dengan yang digunakan pada Hadiah Netflix, menggunakan SVD untuk mengkategorikan kedua pengguna dan hal-hal yang mereka "suka" ke dalam faktor 100 teratas.

Makalah ini menunjukkan bahwa model faktor yang dibuat dengan "suka" Facebook pengguna saja 95 persen akurat dalam membedakan responden hitam dan putih, 93 persen akurat dalam membedakan pria dari wanita, dan 88 persen akurat dalam membedakan orang yang diidentifikasi sebagai pria gay dari pria yang diidentifikasi sebagai straight. Bahkan bisa membedakan dengan benar Republik dari Demokrat 85 persen dari waktu. Itu juga berguna, meskipun tidak akurat, untuk memprediksi skor pengguna pada tes kepribadian "Big Five".

Ada kemarahan publik sebagai tanggapan; dalam beberapa minggu Facebook punya membuat pengguna suka pribadi secara default

Kogan dan Kanselir, juga peneliti Universitas Cambridge pada saat itu, mulai menggunakan data Facebook untuk penargetan pemilu sebagai bagian dari kerja sama dengan perusahaan induk Cambridge Analytica, SCL. Kogan mengundang Kosinski dan Stillwell untuk bergabung dengan proyeknya, tetapi itu tidak berhasil. Kosinski dilaporkan mencurigai Kogan dan Kanselir mungkin reverse-engineered Facebook "suka" model untuk Cambridge Analytica. Kogan membantah ini, mengatakan proyeknya "membangun semua model kami menggunakan data kami sendiri, dikumpulkan menggunakan perangkat lunak kami sendiri. "

Apa yang sebenarnya dilakukan Kogan dan Kanselir?

Ketika saya mengikuti perkembangan dalam cerita, menjadi jelas bahwa Kogan dan Kanselir memang mengumpulkan banyak data mereka sendiri melalui aplikasi aplikasikal ini. Mereka pasti bisa membangun model SVD prediktif seperti yang ditampilkan dalam penelitian yang dipublikasikan oleh Kosinski dan Stillwell.

Jadi saya mengirim email ke Kogan untuk menanyakan apakah itu yang dia lakukan. Agak mengherankan saya, dia membalasnya.

"Kami tidak benar-benar menggunakan SVD," tulisnya, mencatat bahwa SVD dapat berjuang ketika beberapa pengguna memiliki lebih banyak "suka" daripada yang lain. Sebaliknya, Kogan menjelaskan, "Teknik ini adalah sesuatu yang sebenarnya kami kembangkan sendiri ... Ini bukan sesuatu yang berada di domain publik." Tanpa membahas lebih detail, Kogan menggambarkan metode mereka sebagai "multi-langkah co-kejadian pendekatan."

Namun, pesannya melanjutkan untuk mengkonfirmasi bahwa pendekatannya memang mirip dengan SVD atau metode faktorisasi matriks lainnya, seperti dalam kompetisi Netflix Prize, dan model Facebook Kosinki-Stillwell-Graepel. Pengurangan dimensi data Facebook adalah inti dari modelnya.

Seberapa akuratkah itu?

Kogan menyarankan model yang tepat yang digunakan tidak terlalu penting, meskipun - yang penting adalah keakuratan prediksinya. Menurut Kogan, "korelasi antara prediksi dan skor aktual ... sekitar [30 persen] untuk semua dimensi kepribadian." Sebagai perbandingan, skor Lima Besar seseorang sebelumnya adalah tentang 70 hingga 80 persen akurat dalam memprediksi nilai mereka ketika mereka mengulang tes.

Klaim akurasi Kogan tidak dapat diverifikasi secara independen, tentu saja. Dan siapa pun di tengah-tengah skandal berprofil tinggi mungkin memiliki insentif untuk mengecilkan kontribusinya. Di dalam dirinya penampilan di CNN, Kogan menjelaskan kepada Anderson Cooper yang semakin tidak percaya bahwa, pada kenyataannya, model-model itu sebenarnya tidak bekerja dengan baik.

Aleksandr Kogan menjawab pertanyaan di CNN.

Bahkan, akurasi klaim Kogan tampaknya agak rendah, tetapi masuk akal. Kosinski, Stillwell, dan Graepel melaporkan hasil yang sebanding atau sedikit lebih baik, seperti memiliki beberapa studi akademis lainnya menggunakan jejak kaki digital untuk memprediksi kepribadian (meskipun beberapa studi tersebut memiliki lebih banyak data daripada sekadar "suka" Facebook). Sangat mengherankan bahwa Kogan dan Kanselir akan mengalami kesulitan dalam merancang model kepemilikan mereka sendiri jika solusi off-the-shelf akan tampak sama akuratnya.

Yang penting, meskipun, akurasi model pada skor kepribadian memungkinkan perbandingan hasil Kogan dengan penelitian lain. Model yang dipublikasikan dengan akurasi setara dalam memprediksi kepribadian semuanya jauh lebih akurat dalam menebak demografi dan variabel politik.

Misalnya, model-model SVD-SVD-Stillwell-Graepel yang serupa adalah 85 persen akurat dalam menebak afiliasi pihak, bahkan tanpa menggunakan informasi profil selain suka. Model Kogan memiliki akurasi yang sama atau lebih baik. Menambahkan sejumlah kecil informasi tentang teman atau demografi pengguna kemungkinan akan meningkatkan akurasi ini di atas 90 persen. Tebak tentang jenis kelamin, ras, orientasi seksual, dan karakteristik lainnya mungkin lebih dari 90 persen akurat juga.

Secara kritis, tebakan ini akan sangat bagus untuk pengguna Facebook yang paling aktif - orang-orang yang modelnya terutama digunakan untuk menargetkan. Pengguna dengan sedikit aktivitas untuk menganalisis kemungkinan besar tidak ada di Facebook.

Ketika psikografis sebagian besar adalah demografi

Mengetahui bagaimana model yang dibangun membantu menjelaskan pernyataan Cambridge yang tampaknya bertentangan tentang peran - atau ketiadaan - Bahwa profil kepribadian dan psikografi dimainkan dalam pemodelannya. Mereka semua secara teknis konsisten dengan apa yang dijelaskan Kogan.

Model seperti Kogan akan memberikan perkiraan untuk setiap variabel yang tersedia pada setiap kelompok pengguna. Itu artinya secara otomatis memperkirakan skor Big Five personality untuk setiap pemilih. Tetapi skor kepribadian ini adalah output dari model, bukan input. Semua model tahu bahwa kesukaan Facebook tertentu, dan pengguna tertentu, cenderung dikelompokkan bersama.

Dengan model ini, Cambridge Analytica dapat mengatakan bahwa itu mengidentifikasi orang dengan keterbukaan rendah terhadap pengalaman dan neurotisisme tinggi. Tetapi model yang sama, dengan prediksi yang sama persis untuk setiap pengguna, bisa secara akurat mengklaim mengidentifikasi orang-orang Republik yang kurang berpendidikan lebih tua.

Informasi Kogan juga membantu memperjelas kebingungan tentang apakah Cambridge Analytica benar-benar menghapus barangnya data Facebook, ketika model dibangun dari data sepertinya masih beredar, Dan bahkan sedang dikembangkan lebih lanjut.

PercakapanInti dari model reduksi dimensi adalah secara matematis merepresentasikan data dalam bentuk yang lebih sederhana. Seolah-olah Cambridge Analytica mengambil foto beresolusi sangat tinggi, mengubah ukurannya menjadi lebih kecil, dan kemudian menghapus aslinya. Foto itu masih ada - dan selama ada model Cambridge Analytica, data itu juga efektif.

Tentang Penulis

Matthew Hindman, Associate Professor of Media and Public Affairs, Universitas George Washington

Artikel ini awalnya diterbitkan pada Percakapan. Membaca Artikel asli.

Buku terkait

{amazonWS: searchindex = Buku; kata kunci = privasi online; maxresult = 3}

enafarzh-CNzh-TWnltlfifrdehiiditjakomsnofaptruessvtrvi

ikuti InnerSelf di

facebook-icontwitter-iconrss-icon

Dapatkan Terbaru Dengan Email

{Emailcloak = off}