Apakah kelemahan mengaitkan nilai yang hilang dengan min?

Apakah kelemahan mengaitkan nilai yang hilang dengan min?
Apakah kelemahan mengaitkan nilai yang hilang dengan min?
Anonim

Min imputasi mengherotkan hubungan antara pembolehubah Tetapi min imputasi juga memesongkan perhubungan multivariate dan mempengaruhi statistik seperti korelasi. Sebagai contoh, panggilan berikut kepada PROC CORR mengira korelasi antara pembolehubah Orig_Height dan pembolehubah Berat dan Umur.

Mengapakah menggunakan min untuk kehilangan data adalah idea yang tidak baik?

Min mengurangkan varians data Melalui lebih mendalam ke dalam matematik, varians yang lebih kecil membawa kepada selang keyakinan yang lebih sempit dalam taburan kebarangkalian[3]. Ini tidak membawa kepada apa-apa selain memperkenalkan berat sebelah kepada model kami.

Mengapa nilai yang hilang menjadi masalah?

Data yang hilang menimbulkan pelbagai masalah. Pertama, ketiadaan data mengurangkan kuasa statistik, yang merujuk kepada kebarangkalian bahawa ujian akan menolak hipotesis nol apabila ia palsu. Kedua, data yang hilang boleh menyebabkan berat sebelah dalam anggaran parameter. Ketiga, ia boleh mengurangkan keterwakilan sampel.

Mengapa imputasi min buruk?

Masalah 1: Min imputasi tidak mengekalkan hubungan antara pembolehubah. Benar, mengira min mengekalkan min data yang diperhatikan. Jadi jika data hilang sepenuhnya secara rawak, anggaran min kekal tidak berat sebelah.

Adakah anda perlu menggantikan data yang hilang dengan min?

Mata data Outliers akan memberi kesan yang ketara pada min dan oleh itu, dalam kes sedemikian, tidak disyorkan untuk menggunakan min untuk menggantikan nilai yang hilang. Menggunakan nilai min untuk menggantikan nilai yang hilang mungkin tidak menghasilkan model yang hebat dan oleh itu akan diketepikan.