Berapa jumlah sampel yang harus digunakan?

Dalam penelitian kuantitatif di Psikologi, salah satu pertanyaan yang paling banyak ditanyakan adalah berapa jumlah sampel yang ideal untuk penelitian saya. Di beberapa literatur dijelaskan cara menentukan jumlah sampel minimal dari suatu populasi yang diketahui. Yang paling populer, misalnya dengan melihat tabel Krejcie, tabel Isaac, atau rumus Slovin, meskipun beberapa peneliti juga meragukan referensi dari cara tersebut. Masalahnya, di Psikologi sebagian besar penelitian tidak diketahui jumlah populasinya dan penelitian hanya difokuskan pada variabel. Apalagi pada penelitian eksperimen, besarnya sampel tidak ditentukan oleh besarnya populasi. Hal ini menyulitkan peneliti untuk menentukan berapa jumlah sampel minimal yang dibutuhkan.

Beberapa peneliti juga menetapkan cara yang kurang tepat untuk menentukan jumlah sampel, misalkan dengan mengatakan gunakan sampel sebanyak-banyaknya, atau menggunakan standar yang tidak jelas asal-usulnya, misalkan yang penting di atas 30. Beberapa juga menggunakan alasan praktis sebagai pertimbangan pemilihan jumlah sampel, seperti ketersediaan waktu dan dana. Padahal dalam penelitian kuantitatif, jumlah sampel sangat berpengaruh terhadap penyimpulan hasil penelitian kita. Penentuan jumlah sampel juga tidak bisa dilepaskan dari isu metodologi, isu etik, dan isu sumber daya yang dimiliki untuk menjalankan penelitian. Idealnya, sampel tidak boleh terlalu kecil, namun juga jangan berlebihan.

Masalah dengan jumlah sampel yang terlalu kecil dan terlalu besar

Jumlah sampel yang terlalu kecil akan menyebabkan kekuatan uji statistik (statistical power) yang rendah. Hal tersebut berdampak pada kemungkinan terjadinya kesalahan tipe II (type II error) dimana hipotesis nol diterima secara tidak benar, atau dengan kata lain penelitian gagal mengidentifikasi perbedaan atau efek signifikan yang sebenarnya ada. Kesalahan tipe II ini disebut juga false negative dimana sebenarnya ada efek signifikan, namun oleh analisis statistik disimpulkan tidak ada karena kurangnya power. Hal ini tentu akan berpengaruh besar terhadap penyimpulan hasil analisis kita.

Sementara itu sampel yang terlalu besar juga membawa masalah tersendiri bagi peneliti, terutama berkaitan dengan isu etik dan sumber daya penelitian. Sampel yang besar tentu akan memakan banyak waktu dan biaya. Dalam penelitian eksperimen, sampel besar tentu juga harus diawasi ketat oleh isu etik dimana akan semakin banyak orang yang akan dikenakan perlakuan/intervensi eksperimen. Bayangkan jika eksperimen tersebut adalah eksperimen tentang suatu psikoterapi yang belum teruji dan bisa jadi justru membuat subjek menjadi tidak nyaman. Sampel yang terlalu besar juga akan membuat hasil analisis cenderung signifikan, sehingga terkesan intervensi yang diberikan berdampak besar meskipun dengan effect size yang kecil, yang secara klinis tidak terlalu berpengaruh.

Menentukan jumlah sampel

Untuk menentukan jumlah sampel ideal, peneliti harus memahami tiga konsep penting dalam analisis statistik, yakni kriteria signifikansi, kekuatan uji statistik (statistical power), dan besaran efek (effect size). Penjelasan lengkap ketiga konsep tersebut saya bahas di tulisan ini. Tapi pada intinya, untuk bisa menentukan jumlah sampel yang ideal, kita harus bisa menentukan tiga paramater tersebut sebelum mengambil data.

Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 5% (α = 0.05) terhadap terjadinya kesalahan Tipe I (Cohen, 1988). Toleransi terhadap kesalahan Tipe I dilambangkan dengan p, sehingga nilai p di bawah 0,05 (di bawah batas toleransi) dianggap sebagai temuan yang signifikan dan sebaliknya. Sementara itu, sebagian besar penelitian Psikologi dan humaniora juga memberikan toleransi 20% terjadinya kesalahan Tipe II, sehingga penelitian-penelitian tersebut memiliki kekuatan uji statistik sebesar 80% (Cohen, 1990). Tentu saja, peneliti bisa mengubah standar ini, misal peneliti melakukan penelitian yang cukup beresiko, peneliti dapat memperketat patokan dengan menaikkan kriteria signifikansi menjadi p < 0,01. Namun secara ringkas, uji statistik di bidang Psikologi pada umumnya menginginkan kriteria signifikansi dengan p < 0,05 dan kekuatan uji statistik di atas 80%.

Jika kriteria signifikansi dan kekuatan uji statistik sudah bisa ditentukan, lalu bagaimana menentukan besaran efek? Pertanyaan ini seperti masalah ayam dan telur, bagaimana bisa kita menentukan besaran efek jika kita sendiri belum mengambil data. Ada dua strategi yang dapat digunakan. Pertama, menggunakan data set lain untuk memprediksi besaran efek. Misalnya, peneliti dapat melakukan studi awal untuk mendapatkan perkiraan kasar besaran efek. Atau, peneliti dapat menggunakan hasil dari studi terkait, yang sudah dipublikasikan oleh peneliti lain yang melakukan penelitian pada topik yang sama.

Cara kedua adalah menggunakan penilaian klinis untuk menentukan besaran efek terkecil yang dianggap relevan. Misalnya, dalam penelitian eksperimen dengan desain pre-post dengan menggunakan analisis paired sample t-test, jika peneliti merasa penting untuk mendeteksi adanya efek kecil sekalipun, peneliti dapat memilih nilai 0,2. Klasifikasi besaran efek dapat dilihat pada tabel di bawah.

Catatan:
Jika kita analisis uji beda (t-test) menggunakan SPSS, maka dia tidak bisa mengeluarkan nilai Cohen's d secara otomatis, kita perlu menghitung manual dari nilai mean dan SD di output yang ada. Gunakan JASP jika ingin langsung tahu nilai Cohen's d.

Jika peneliti sudah menetapkan kriteria signifikansi, kekuatan uji statistik, dan besaran efek, maka peneliti dapat menghitung besaran sampel dengan rumus berikut.
Uji beda dua kelompok

Korelasi

Keterangan:

ni = besaran sampel

z = skor z dari distribusi normal di bawah probabilitas

d = besaran efek d
r = besaran efek r

Sebagai contoh, penelitian ingin menguji beda kelompok kontrol dan kelompok eksperiman. Jika penelitian sebelumnya menemukan besaran efek sebesar 0,5, maka peneliti dapat menentukan parameter kriteria signifikansi, α = 0,05, two-tailed dan power, 1-β = 0,80 dan mengharapkan besaran efek sebesar 0,5. Dengan demikian dapat dihitung Z1-α/2 = 1,960 dan Z1-β = 0,842 (menggunakan tabel distribusi normal) sehingga diperoleh besaran sampel 2*((1,960+0,842)/0,5)^2 = ~ 64 partisipan per kelompok.

Bagi yang enggan menghitung manual, tenang saja, sekarang ini sudah banyak kalkulator untuk menghitung formula tersebut, baik secara online maupun menggunakan software. Salah satu kalkulator online dapat dibuka di website ini. Di situ kita tinggal memasukkan jenis tes kita (uji beda atau korelasi), jenis hipotesis (two-tails atau one-tail), besaran efek, kriteria signiifikansi, dan kekuatan uji statistik. Misalkan dengan data yang tadi, ketika kita klik submit, maka kalkulator akan menghitung besarnya sampel ideal untuk penelitian kita. Untuk menghitung dengan software G*Power akan saya jelaskan pada tulisan ini.

Catatan:
Dalam penelitian untuk mencapai generalisasi, selain pertimbangan besaran sampel tersebut, peneliti juga harus mempertimbangkan aspek representasi. Ukuran sampel besar belum tentu merepresentasikan populasi yang diteliti. Oleh karena itu, sampel yang dilibatkan dalam prosedur ini perlu merepresentasikan populasi sehingga nilai statistik yang diperoleh sampel dapat menggambarkan parameter populasi.

Referensi:

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. United State of America: Lawrence Erlbaum Associates.

Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45(12), 1304- 1312. doi: 10.1037/0003-066X.45.12.1304