Satu Alasan Beberapa Studi Ilmiah Mungkin Salah

Ada krisis replikatif dalam sains - tidak diketahui "false positive" adalah bahkan melingkupi jurnal penelitian teratas kami.

Sebuah positif palsu adalah klaim bahwa ada efek pada kenyataannya tidak. Tidak ada yang tahu berapa proporsi surat kabar yang diterbitkan mengandung hasil yang salah atau dilebih-lebihkan, tapi ada tanda bahwa proporsinya tidak kecil.

Ahli epidemiologi John Ioannidis memberikan penjelasan terbaik untuk fenomena ini dalam sebuah makalah terkenal di 2005, yang secara provokatif berjudul "Mengapa sebagian besar hasil penelitian yang dipublikasikan salah". Salah satu alasan yang diberikan oleh Ioannidis terhadap begitu banyak hasil palsu telah disebut "p hacking ", yang timbul dari tekanan peneliti merasa mencapai signifikansi statistik.

Apa arti statistik itu?

Untuk menarik kesimpulan dari data, peneliti biasanya mengandalkan pengujian signifikansi. Secara sederhana, ini berarti menghitung "p nilai ", yang merupakan probabilitas hasil seperti kita jika memang tidak ada efeknya. Jika p Nilai cukup kecil, hasilnya dinyatakan signifikan secara statistik.

Secara tradisional, a p nilai kurang dari .05 adalah kriteria signifikansi. Jika Anda melaporkan a p<05, pembaca cenderung percaya bahwa Anda telah menemukan efek yang nyata. Namun, mungkin sebenarnya tidak ada efek dan Anda telah melaporkan positif palsu.


grafis berlangganan batin


Banyak jurnal hanya akan menerbitkan studi yang dapat melaporkan satu atau beberapa efek yang signifikan secara statistik. Mahasiswa pascasarjana dengan cepat belajar mencapai mitos p

Tekanan ini untuk mencapainya pp hacking

Iming-imingnya p peretasan

Menggambarkan p hacking, inilah contoh hipotetisnya.

Bruce baru saja menyelesaikan PhD dan telah mendapatkan hibah bergengsi untuk bergabung dengan salah satu tim peneliti teratas di bidangnya. Percobaan pertamanya tidak berjalan dengan baik, tapi Bruce dengan cepat memperbaiki prosedur dan menjalankan studi kedua. Ini terlihat lebih menjanjikan, tapi tetap saja tidak memberi p nilai kurang dari .05.

Yakin bahwa dia menyukai sesuatu, Bruce mengumpulkan lebih banyak data. Dia memutuskan untuk menjatuhkan beberapa hasil, yang terlihat jelas jauh.

Dia kemudian memperhatikan bahwa salah satu tindakannya memberikan gambaran yang lebih jelas, jadi dia memusatkan perhatian pada hal itu. Beberapa tweak lagi dan Bruce akhirnya mengidentifikasi efek yang sedikit mengejutkan tapi sangat menarik yang bisa diraih p

Bruce berusaha sekuat tenaga untuk menemukan efeknya tahu sedang mengintai di suatu tempat. Dia juga merasakan tekanan untuk memukul p

Hanya ada satu tangkapan: sebenarnya tidak ada efeknya. Terlepas dari hasil statistik yang signifikan, Bruce telah menerbitkan false positive.

Bruce merasa ia menggunakan wawasan ilmiahnya untuk mengungkapkan efek mengintai saat ia mengambil berbagai langkah setelah memulai studinya:

  • Dia mengumpulkan data lebih lanjut.
  • Dia menjatuhkan beberapa data yang sepertinya menyimpang.
  • Dia menjatuhkan beberapa tindakannya dan memusatkan perhatian pada yang paling menjanjikan.
  • Dia menganalisis datanya sedikit berbeda dan membuat beberapa tweak lagi.

Masalahnya adalah bahwa semua pilihan ini dibuat setelah melihat datanya Bruce mungkin, secara tidak sadar, telah cherrypicking - memilih dan mengutak-atik sampai dia mendapatkan yang sulit dipahami pp

Ahli statistik memiliki pepatah: jika Anda menyiksa data dengan cukup, mereka akan mengakuinya. Pilihan dan tweak yang dilakukan setelah melihat datanya adalah praktik penelitian yang patut dipertanyakan. Dengan menggunakan ini, sengaja atau tidak, untuk mencapai hasil statistik yang tepat adalah p peretasan, yang merupakan salah satu alasan penting yang dipublikasikan, hasil statistik yang signifikan mungkin merupakan kesalahan positif.

Berapa proporsi hasil yang dipublikasikan yang salah?

Ini adalah pertanyaan bagus, dan sangat sulit. Tidak ada yang tahu jawabannya, yang kemungkinan berbeda di bidang penelitian yang berbeda.

Upaya besar dan mengesankan untuk menjawab pertanyaan psikologi sosial dan kognitif dipublikasikan di 2015. Dipimpin oleh Brian Nosek dan rekan-rekannya di Center for Open Science, Proyek Replikasi: Psikologi (RP: P) Kelompok peneliti 100 di seluruh dunia masing-masing melakukan replikasi yang hati-hati terhadap salah satu hasil 100 yang dipublikasikan. Secara keseluruhan, kira-kira 40 direplikasi dengan cukup baik, sedangkan di sekitar kasus 60, studi replikasi diperoleh efek yang lebih kecil atau lebih kecil.

Studi replikasi 100 RP: P melaporkan efek yang rata-rata hanya setengah dari ukuran efek yang dilaporkan oleh penelitian asli. Replikasi yang dilakukan dengan hati-hati mungkin memberikan perkiraan yang lebih akurat daripada kemungkinannya p studi asli yang diretas, jadi kami dapat menyimpulkan bahwa studi awal menilai efek sebenarnya dengan rata-rata dua faktor. Itu mengkhawatirkan!

Bagaimana cara menghindari p peretasan

Cara terbaik untuk menghindari p hacking adalah untuk menghindari membuat pilihan atau tweak setelah melihat datanya. Dengan kata lain, hindari praktik penelitian yang patut dipertanyakan. Dalam kebanyakan kasus, cara terbaik untuk melakukannya adalah dengan menggunakan preregistration.

Pendaftaran ulang mengharuskan Anda mempersiapkan terlebih dahulu rencana penelitian terperinci, termasuk analisis statistik yang akan diterapkan pada data. Kemudian Anda mendaftarkan kembali rencana tersebut, dengan cap tanggal, di Open Science Framework atau beberapa registry online lainnya.

Kemudian Lakukan penelitian, analisa data sesuai dengan rencananya, dan laporkan hasilnya, apapun itu. Pembaca dapat memeriksa rencana preregister dan dengan demikian yakin bahwa analisis tersebut telah ditentukan sebelumnya, dan tidak p diretas Preregistration adalah ide baru yang menantang bagi banyak peneliti, namun cenderung menjadi jalan masa depan.

Perkiraan bukan p nilai-nilai

Godaan untuk p hack adalah salah satu kelemahan besar mengandalkan p nilai. Lain adalah bahwa pagak seperti mengatakan efek ada atau tidak.

Tapi dunia tidak hitam dan putih. Untuk mengenali banyak warna abu-abu, jauh lebih baik digunakan perkiraan daripada p nilai. Tujuannya dengan memperkirakan adalah memperkirakan ukuran suatu efek - yang mungkin kecil atau besar, nol, atau bahkan negatif. Dalam hal estimasi, hasil positif palsu adalah perkiraan yang lebih besar atau jauh lebih besar daripada nilai sesungguhnya dari sebuah efek.

Mari kita belajar hipotetis tentang dampak terapi. Studi tersebut mungkin, misalnya, memperkirakan bahwa terapi memberi rata-rata penurunan 7-point pada kecemasan. Misalkan kita hitung dari data kita a interval kepercayaan - berbagai ketidakpastian dari perkiraan terbaik - dari [4, 10]. Ini menunjukkan bahwa perkiraan 7 kami kemungkinan besar berada dalam kisaran 3 pada skala kegelisahan dari efek sebenarnya - jumlah rata-rata manfaat terapi sebenarnya.

Dengan kata lain, interval kepercayaan menunjukkan seberapa tepat perkiraan kami. Mengetahui perkiraan dan interval kepercayaan itu jauh lebih informatif daripada apapun p nilai.

Saya mengacu pada perkiraan sebagai salah satu "statistik baru". Teknik itu sendiri bukanlah hal baru, namun menggunakannya sebagai cara utama untuk menarik kesimpulan dari data agar banyak peneliti menjadi yang baru, dan sebuah langkah maju yang besar. Ini juga akan membantu menghindari distorsi yang disebabkan oleh p hacking

Tentang Penulis

Geoff Cumming, Profesor Emeritus, La Trobe University

Artikel ini awalnya diterbitkan pada Percakapan. Membaca Artikel asli.

Buku terkait:

at Pasar InnerSelf dan Amazon