Zebua

Archive for the ‘Data Processing’ Category

DATA CLEANING DENGAN PRINSIP “CAU”

In Data Processing, Quantitative, Research Procedure on Maret 31, 2008 at 1:26 am

Setelah kegiatan pengumpulan data melalui angket/kuesioner maka proses selanjutnya pada sebuah survei adalah mengolah data tersebut menjadi informasi. Mengolah data berarti melakukan koding, tabulasi dan analisis-analisis statistika yang relevan. Adalah suatu syarat mutlak yang tidak bisa ditawar-tawar bahwa data yang siap olah harus “bersih”, telah divalidasi sehingga kecil peluang akan menghasilkan informasi yang menyesatkan. C.A. Moser dalam bukunya “Survey Methods in Social Investigation” mengemukakan prinsip-prinsip sederhana yang harus dipegang pada saat “bersih-bersih” data yaitu : Completeness, Accuracy, dan Uniformity yang disingkat dalam sebuah akronim, “CAU”!

Completeness

Hal pertama yang harus diperiksa pada sebuah kuesioner adalah kelengkapan. Apakah responden telah mengisi setiap pertanyaan pada kuesioner, tidak ada yang terlewat? Terutama pertanyaan-pertanyaan yang dapat/harus dijawab oleh seluruh responden, alias tidak mengandung syarat. Misalnya usia, jenis kelamin, pekerjaan, pendidikan, alamat, dll. Atau pertanyaan-pertanyaan yang ditujukan untuk mengsegmentasi responden. Misalnya dengan menggunakan metode VALSTM. Metode ini mengharuskan responden untuk merespon seluruh pertanyaan yang diukur menggunakan skala Likert, jika ada satu saja pertanyaan yang tidak direspon akan menggugurkan seluruh pertanyaan lainnya (baca : tidak dapat dianalisis).

Ketidaklengkapan pada sebuah kuesioner umumnya disebabkan oleh faktor non sampling error secara spesifik oleh faktor no response error. No response error terjadi karena responden menolak untuk menjawab, mungkin karena pertanyaan yang terlalu personal, kelelahan (respondent fatigue), atau responden tidak memahami pertanyaan. Jika masih dimungkinkan segera dilakukan konfirmasi kepada responden yang bersangkutan, jika konfirmasi tidak mungkin dilakukan berarti pertanyaan tersebut dapat dikategorikan sebagai missing value, dan ditangani dengan tehnik-tehnik khusus. Karena jika asal diisi sendiri oleh surveyor atau peneliti itu berarti memanipulasi data.

Accuracy

Setelah kelengkapan diperiksa selanjutnya adalah memeriksa keakuratan jawaban-jawaban responden. Keakuratan tidak sama dengan kejujuran. Kejujuran adalah “hak” responden. Tidak mudah medeteksi ketidakjujuran responden. Jika usia sebenarnya seorang responden adalah 40 tahun namun dia menuliskan 30 tahun, maka kita harus menerimanya sebagai “kebenaran” sejauh kita tidak bisa mengklarifikasinya. Sedangkan keakuratan terkait dengan konsistensi dan “kewajaran” dari jawaban-jawaban responden. Mengecek konsistensi lebih mudah daripada mengecek apakah jawaban responden wajar atau tidak.

Misalnya dalam sebuah kusioner ada pertanyaan “apakah anda seorang perokok?”, jika ya “berapa batang rokok yang Anda hisap kemarin?”. Ternyata pada saat diperiksa, responden menjawab “tidak” tetapi memilih pilihan jawaban “a. 1-5 batang” pada pertanyaan selanjutnya. Jelas ini tidak akurat! Alias tidak konsisten. Kemungkinan besar dia sebenarnya adalah perokok, namun salah memilih jawaban pada pertanyaan sebelumnya. Tapi bagaimana jika misalnya seorang yang mengaku pekerjaannya adalah seorang office boy namun berpenghasilan 10 juta rupiah perbulan, alamak hebat kali, kalah gaji senior manager perusahaan menengah! Jawaban ini sepertinya ngga masuk akal, alias ngawur, tapi bagaimana jika seandainya memang demikian, si office boy ternyata punya pabrik tahu :-P Sulit bukan? Karena menilai kewajaran jawaban responden dibutuhkan kepekaan yang tinggi. Jika survei dilakukan secara face to face berarti kita sangat mengandalkan sensitifitas surveyor yang secara reflek mengkonfirmasi kepada responden jika “radarnya” mendeteksi ketidakwajaran pada jawaban responden. Kepekaan surveyor dapat dihasilkan oleh briefing yang baik dan jam terbang yang tinggi. Bagaimana jika dilakukan secara tidak langsung, mail survei misalnya? Ya “terima nasib” karena itu memang kelemahan dari survei yang dilakukan secara swadiri (self administer).

Uniformity

Hal terakhir yang harus diperiksa adalah memastikan surveyor memiliki interpretasi yang sama/seragam terhadap pertanyaan dan instruksi pada kuesioner. Pemahaman yang baik dan seragam terhadap pertanyaan dan instruksi pada kuesioner akan mereduksi bahkan mengeliminasi faktor ketidaklengkapan dan ketidakakuratan. Misalnya dalam sebuah survei ritel (audit ritel), surveyor harus memahami dengan baik kode-kode yang telah disepakati. Jika si penjual mengaku menjual merek “X” namun surveyor tidak melihat fisik barang tersebut dia harus menuliskan kode “TAF”, alias tidak ada fisik. Atau si penjual tidak menjual merek “Y” padahal produk tersebut sangat laris dan dicari banyak orang maka surveyor harus menuliskan “TA” alias tidak ambil. Atau kita mencurigai sebuah produk telah lama ditarik dari pasaran namun surveyor melihat fisiknya maka dia harus menuliskan “AF” alias ada fisik.

Atau contoh lainnya, jika responden mengaku berlangganan sebuah majalah (membayar di muka untuk beberapa edisi sekaligus) maka responden harus dipastikan tidak menjawab pertanyaan apakah dia mengalami kesulitan atau tidak saat mencari majalah tersebut di kios, karena sebagai pelanggan dia tidak perlu harus ke kios karena akan diantarkan ke kediamannya!

Jadi jangan lupa “CAU” agar data tak kacau :-)

MISSING DIISI TAK BERARTI MANIPULASI

In Data Processing on Desember 10, 2007 at 1:16 am

Adalah amat sangat jarang suatu penelitian yang menggunakan metode survei bebas dari “musibah” missing value! Missing value dapat diartikan sebagai data atau informasi yang “hilang” atau tidak tersedia mengenai subjek penelitian pada variabel tertentu akibat faktor non sampling error. Faktor non sampling error yang dimaksud adalah interviewer recording error, respondent inability error, dan respondent unwillingness error. Interviewer recording error terjadi akibat kealpaan petugas pengumpul data (pewawancara), misalnya ada sejumlah pertanyaan yang terlewatkan. Respondent inability error terjadi akibat ketidakmampuan responden dalam memberikan jawaban akurat, misalnya karena tidak memahami pertanyaan, bosan atau kelelahan (respondent fatigue) akhirnya responden mengosongkan sejumlah pertanyaan atau berhenti mengisi kuesioner di tengah jalan. Unwillingness respondent error tejadi karena responden tidak berkenan memberikan jawaban yang akurat, misalnya pertanyaan soal penghasilan, usia, berat badan, pengalaman melakukan pelanggaran hukum, dll. Seperti halnya pada respondent inability error, responden bisa mengosongkan jawaban atau menghentikan proses pengisian kuesioner.

Missing value sebenarnya bukanlah suatu kejadian luar biasa jika jumlah kasus-nya “kecil”. Tapi hingga saat ini belum ada ukuran baku mengenai jumlah kasus missing value pada sebuah survei yang dikategorikan “awas”, misalnya jika telah melebihi 10% dari jumlah sampel. Namun bukan berarti tidak ada sama sekali indikator untuk mendeteksi tingkat bahaya missing value. Ada dua hal biasanya dijadikan sebagai indikator missing value telah berpotensi “membabak-belurkan” data. Pertama adalah missing value muncul secara berlebihan pada variabel pokok alias variabel kunci yang menjadi bagian dari model penelitian. Kedua adalah missing value membentuk pola tertentu alias tidak random. Untuk indikator pertama dapat dengan mudah dideteksi dengan mengacu pada disain penelitian khususnya kerangka teori/konsep. Indikator kedua agak ruwet karena melibatkan perhitungan statistika, yaitu missing value analysis, pada program SPSS analisis ini tersedia pada menu Analyze.

Lalu apa yang seharusnya dilakukan terhadap missing value? Cara gampangnya tinggal dihapus saja kasus atau variabel yang dijangkiti “wabah” missing value. Kalau cuma 1-2 kasus bolehlah, tapi jika mencapai 50%, atau yang terkena adalah variabel kunci seperti yang disebutkan di atas, mungkin pembumihangusan kasus atau variabel bukanlah tindakan cerdas! Tindakan bijaksana dan ideal yang dapat dilakukan adalah mengkonfirmasi ulang pada responden. Namun bagaimana jika responden ternyata tidak dapat ditemui atau menolak mentah-mentah karena merasa terganggu? Ada cara lain, yaitu dengan mengisi kasus atau variabel yang mengalami missing value. Walah, apa-apaan ini??? Bukankah ini tindakan manipulatif, melanggar etika penelitian yaitu aspek scientific misconduct?

Eiits. Tunggu dulu! Jika dilakukan secara ilmiah, khususnya dengan memperhatikan prinsip-prinsip yang berlaku dalam ilmu statistika maka tindakan mengisi missing value ini tidak melanggar etika penelitian. Tehnik yang jamak dilakukan adalah mengisi missing value dengan nilai ukuran pemusatan (central tendency measurement) yaitu mean alias rata-rata, median alias nilai tengah, dan modus alias nilai frekuensi tertinggi. Yang paling tenar di antara ketiganya adalah nilai rata-rata. Nilai rata-rata pengisi missing value ini diperoleh dari nilai rata-rata variabel yang mengandung missing value, misalnya rata-rata usia mahasiswa sebuah perguruan tinggi adalah 22,3 dan ada 9 kasus missing value, maka ke-9 missing value tersebut akan digantikan oleh nilai 22,3.

Sesederhana itukah, apakah tidak ada persyaratan sama sekali? Sebenarnya ada namun bukan sesuatu yang mutlak! Sebaiknya sebelum “memanipulasi” data perlu dipastikan bahwa data tersebut diperoleh dari sampel yang ditarik secara random, kemudian sesuaikan nilai ukuran pemusatan dengan ukuran yang digunakan oleh variabel. Ukuran nominal paling tepat menggunakan modus, ukuran ordinal sangat sesuai menggunakan median, dan ukuran interval hingga rasio paling pas menggunakan rata-rata.

SELAMAT “MEMANIPULASI” DATA :-P