آنالیز آماری
شناسایی داده پرت (Outlier data)
- توضیحات
- بازدید: 0
یک داده پرت مشاهدهای است که در فاصله غیر طبیعی با دیگر دادهها در یک نمونهبرداری تصادفی در جامعه قرار گیرد. در واقع تصمیم این که کدام داده غیر طبیعی است بر عهده کسی است که کار تجزیه و تحلیل دادهها را انجام میدهد. قبل از حذف داده پرت ضروری است که کار شناسایی داده های طبیعی انجام شود.
شناسایی دادههای پرت به دلایل زیر دارای اهمیت است:
1- داده پرت میتواند به دلیل ثبت اشتباه داده یا به دلیل خطای آزمایشی ایجاد شود. داده پرت پس از شناسایی میتواند در صورت امکان تصحیح و یا حذف شود. معمولا هنگامی که داده پرت ناشی از خطای آزمایشی باشد، حذف میشود.
2- در برخی موارد، ممکن نیست که تعیین کنیم داده پرت بطور اشتباه وارد شده است. داده پرت میتواند به دلیل تنوع تصادفی هم ایجاد شود. در هر دو صورت معمولاً داده پرت به راحتی حذف نمیشود و نیاز است روش آماری به منظور شناسایی داده پرت انجام شود.
روشهای شناسایی داده پرت
پیشنهاد میشود که قبل از انجام روشهای آماری به منظور شناسایی دادههای پرت ابتدا آزمون نرمال بودن دادهها را انجام دهید. اگر پس از آنالیزهای آماری مشخص شد که دادهها دارای توزیع نرمال نیستند، سپس اقدام به شناسایی دادههای پرت کنید. زیرا ممکن است وجود حتی یک داده پرت منجر به عدم توزیع نرمال در دادهها شده باشد.
به منظور شناسایی دادههای پرت روشهای مختلفی وجود دارد:
برای ادامه دانلود کنید (PDF, 334KB).