آنالیز آماری

شناسایی داده پرت (Outlier data)

outlier data 2یک داده پرت مشاهده‌ای است که در فاصله غیر طبیعی با دیگر داده‌ها در یک نمونه‌برداری تصادفی در جامعه قرار گیرد. در واقع تصمیم این که کدام داده غیر طبیعی است بر عهده کسی است که کار تجزیه و تحلیل داده‌ها را انجام می‌دهد. قبل از حذف داده پرت ضروری است که کار شناسایی داده های طبیعی انجام شود.

شناسایی داده‌های پرت به دلایل زیر دارای اهمیت است:

1- داده پرت می‌تواند به دلیل ثبت اشتباه داده یا به دلیل خطای آزمایشی ایجاد شود. داده پرت پس از شناسایی می‌تواند در صورت امکان تصحیح و یا حذف شود. معمولا هنگامی که داده پرت ناشی از خطای آزمایشی باشد، حذف می‌شود.

2- در برخی موارد، ممکن نیست که تعیین کنیم داده پرت بطور اشتباه وارد شده است. داده پرت می‌تواند به دلیل تنوع تصادفی هم ایجاد شود. در هر دو صورت معمولاً داده پرت به راحتی حذف نمی‌شود و نیاز است روش آماری به منظور شناسایی داده پرت انجام شود.

روش‌های شناسایی داده پرت

پیشنهاد می‌شود که قبل از انجام روش‌های آماری به منظور شناسایی داده‌های پرت ابتدا آزمون نرمال بودن داده‌ها را انجام دهید. اگر پس از آنالیزهای آماری مشخص شد که داده‌ها دارای توزیع نرمال نیستند، سپس اقدام به شناسایی داده‌های پرت کنید. زیرا ممکن است وجود حتی یک داده‌ پرت منجر به عدم توزیع نرمال در داده‌ها شده باشد.

به منظور شناسایی داده‌های پرت روش‌های مختلفی وجود دارد:

برای ادامه دانلود کنید (PDF, 334KB).