outlier data 2یک داده پرت مشاهده‌ای است که در فاصله غیر طبیعی با دیگر داده‌ها در یک نمونه‌برداری تصادفی در جامعه قرار گیرد. در واقع تصمیم این که کدام داده غیر طبیعی است بر عهده کسی است که کار تجزیه و تحلیل داده‌ها را انجام می‌دهد. قبل از حذف داده پرت ضروری است که کار شناسایی داده های طبیعی انجام شود.

شناسایی داده‌های پرت به دلایل زیر دارای اهمیت است:

1- داده پرت می‌تواند به دلیل ثبت اشتباه داده یا به دلیل خطای آزمایشی ایجاد شود. داده پرت پس از شناسایی می‌تواند در صورت امکان تصحیح و یا حذف شود. معمولا هنگامی که داده پرت ناشی از خطای آزمایشی باشد، حذف می‌شود.

2- در برخی موارد، ممکن نیست که تعیین کنیم داده پرت بطور اشتباه وارد شده است. داده پرت می‌تواند به دلیل تنوع تصادفی هم ایجاد شود. در هر دو صورت معمولاً داده پرت به راحتی حذف نمی‌شود و نیاز است روش آماری به منظور شناسایی داده پرت انجام شود.

روش‌های شناسایی داده پرت

پیشنهاد می‌شود که قبل از انجام روش‌های آماری به منظور شناسایی داده‌های پرت ابتدا آزمون نرمال بودن داده‌ها را انجام دهید. اگر پس از آنالیزهای آماری مشخص شد که داده‌ها دارای توزیع نرمال نیستند، سپس اقدام به شناسایی داده‌های پرت کنید. زیرا ممکن است وجود حتی یک داده‌ پرت منجر به عدم توزیع نرمال در داده‌ها شده باشد.

به منظور شناسایی داده‌های پرت روش‌های مختلفی وجود دارد:

برای ادامه دانلود کنید (PDF, 334KB).

outlier data

 

ابتدا یک صفحه اکسل باز کنید و همانند شکل زیر ستون‌های A تا G را نام گذاری کنید.

ستون اول محل وارد کردن داده‌ها است. ستون دوم داده‌های پرت را مشخص خواهد کرد. ستون سوم و چهارم به ترتیب چارک اول و سوم را محاسبه خواهد کرد. ستون پنجم IQR یا فاصله میان چارکی را نشان می‌دهد و ستون‌های ششم و هفتم به ترتیب بزرگترین و کوچکترین مقدار را محاسبه خواهد کرد.