مشاهدات پرت تحلیلهای آماری را مشکل میسازند. هنگام تحلیل دادهها، گاهی اوقات مقادیری دور از بقیه دادهها پیدا میکنید چنین مقادیری مشاهدات پرت نامیده میشود.
هنگامی که شما با یک مشاهده پرت روبهرو میشوید ممکن است وسوسه شوید که آن را حذف کنید. در ابتدا از خود این سوالها را بپرسید :
آیا این مقدار را به طور صحیح وارد کامپیوتر شده؟ اگر خطایی در وارد کردن دادهها دارد آن را تصحیح کنید.
آیا در رابطه با این مقدار خطای آزمایشی وجود دارد؟
آیا آن مشاهده از یک تنوع زیستی سبب شده است ؟ اگر هر مقدار، از یک شخص مختلف بیاید آن مشاهده ممکن است یک مقدار صحیح باشد و علت آن مشاهده علت فردی است که با دیگران تفاوت دارد.
بعد از پاسخ منفی به این سوالها، شما باید تصمیم بگیرید که با این مشاهدات چه کار کنید ؟
که 2 احتمال وجود دارد:
یک امکان این است که آن مشاهده پرت از شانس ناشی شود در این مورد شما باید آن مقدار را در تحلیل نگه دارید که آن مقدار از جامعهای میآید که دیگر مقادیر آمدهاند بنابراین باید محاسبه شود.
امکان دیگر آن است که مشاهده پرت از یک خطا ناشی شود (مانند صفره یا سوراخی در فیلتر). وقتی یک مقدار نادرست در تحلیل وارد شود نتیجه بی اعتبار خواهد بود و آن مقدار از جامعه متفاوت از بقیه میآید که گمراه کننده است و باید از دادهها حذف شود.
مسأله این است که شما هرگز مطمئن نیستید که کدام از این امکانها درست است.
به طور آشکار هیچ محاسبات ریاضی به شما نخواهد گفت که آن مشاهده پرت از جامعه همانند یا مختلف از بقیه دادهها میآید اما محاسبات آماری میتواند به این سوال پاسخ دهد. اگر مقادیر واقعاً همه نمونه گرفته شده از یک توزیع باشند شانسی که یک مقدار دور از بقیه دادهها باشد چیست؟ اگر این احتمال کوچک باشد شما نتیجهگیری خواهید کرد که با احتمال زیاد مشاهده پرت یک مقدار نادرست است و شما برای حذف آن توجیه و دلیل دارد.
آمار شناسان چندین روش را برای شناسایی نقاط پرت تدبیر کردهاند. همه روشها در ابتدا معلوم میکنند که این شاهدات پرت چقدر از بقیه نقاط دور هستند. این با محاسبه اختلاف بین مشاهده پرت و میانگین مقادیر باقی مانده و سپس تقسیم بر انحراف معیار که استاندارد کردن آن است بدست میآید.
سپس مقدار p-value را برای این سوال مقایسه میکنیم. که اگر مقدار p- value کوچک باشد شما نتیجه میگیرد که انحراف مشاهده پرت از بقیه نقاط معنی دار است.
پس وقتی در منابع مشاهدات پرت جستجو میکنیم در ابتدا باید بررسی کنیم که در ثبت و وارد کردن دادهها خطایی نباشد. برای کاهش رخداد در خطای ثبت دادهها از برنامهای استفاده کنید که امکان اجرای محاسبات روی چندین ستون اعداد را برقرار کند مانند EXCEL و SAS نیز مخصوصاً ابزار خوبی برای این هدف است و دلیل دیگر برای مشاهدات پرت حادثههایی هستند که به ندرت رخ میدهند مانند یک روز 70 درجه در ژانویه در OREGON
چرا مشاهدات پرت مسأله و مشکل هستند ؟
روشهای در حال توسعه بر جستجوی مشاهدات پرت و فهمیدن این که تحلیلهای آماری را پیچیده میکنند بخش مهمی از تمام تحلیل را در برمیگیرد.
برای مثال با حضور مشاهده پرت در هر آزمون آماری میانگین و انحراف معیار تحریف میشود. برآورد ضرایب رگرسیون که مجموع مربعات خطا را مینیمم میکند بسیار تحت تأثیر مشاهده پرت است.
چندین عامل تأثیر گذار از مشاهدات پرت عبارت است از :
اریبی با تحریف برآوردها
زیاد نشدن مجموع توان دومها
تحریف p-value
نتیجهگیری غلط
مثال زیر ممکن است خیلی بزرگ به نظر بیاید اما دادههای حقیقی با این مشخصات وجود دارند. اما نتایج به روشنی ثابت میکنند که مشکلات ناشی از مقدارهای غیر عادی در کمین هستند.
Median mean variance %95confiedence interval for mean
(0.45,11.5)
|
20
|
6
|
5
|
12
|
9
|
5
|
3
|
1
|
Real Data
|
(-36.63 ,91.83)
|
2676.8
|
27.6
|
5
|
120
|
9
|
5
|
3
|
1
|
Data Error
|
4 داده اول در هر سطر همانند هم هستند. هر چند در سطر دوم پنجمین عدد اختلاف زیادی در مقایسه با سطر بالای خود دارد.
توجه کنید که حضور مشاهده پرت در میانه تغییری ایجاد نکرده است (میانه قوی نامیده میشود) و توجه کنید که مشاهده پرت به شدت میانگین و واریانس و فاصله اطمینان 95% برای میانگین را تحریف کرده است.
نتایج مشابه در رگرسیون، آنالیز واریانس یا هر روش دیگر به کار برده شده چگونه یک مشاهده پرت را کشف کنیم؟
بررسی و کمک چشمی :
این روش بررسی توزیع مقادیر دادهها به وسیله سطوح یک متغیر است این روش همیشه باید یکی از اولین قدمها در تحلیل باشد و این روش مشاهدههای پرت واضح را به سرعت آشکار میکند.
برای دادههای پیوسته و فاصلهها، روش دیداری به عنوان نمودار نقطهای و نمودار پراکنش روشهای خوبی برای بررسی اینکه مشاهده پرت است میتواند باشد.
یک boxplot ابزار مفید دیگری برای کشف مشاهده پرت است.
آزمونهای یک متغیری حضور مشاهده پرت را بررسی میکنند اگر چه بسیاری از آنها فقط برای بررسی حضور یک مشاهده پرت طراحی شدهاند.
محاسبه IQR : inter – quartile
که این روش در یک boxplot برای تشخیص مشاهده پرت استفاده میشود. استفاده یک boxplot روش بسیار اثر بخش است مخصوصاً وقتی که با یک مجموعه دادههای زیاد و دادههای پیوسته به کاربرده شود.
یک راه برای انجام داده محاسبات IQR استفاده PRO cuniuariate با استفاده از نرم افزار SAS است که q1 (اولین چارک) و q3 (سومین چارک) میتواند در یک فایل خروجی ذخیره شود.
اگر مشاهدهای خارج از باشد به عنوان مشاهده پرت است.
مشاهدات پرت چند متغیری میتواند در یک تحلیل ناشناخته بمانند. آزمونهای تک متغیری برای مشاهدات پرت چند متغیری طراحی نشدهاند.
برای دو مقدار دادههای x2,x1 ، یکی از آن ممکن است به وسیله آزمونهای تک متغیری رسیدگی شود (همان طور که در بالا توضیح داده شد)
اگر چه ترکیب دو مقدار آنها در فضای دو بعدی میتوانند خارج از پیرامون دادهها واقع شود.
با مشاهدات پرت چه باید کرد؟
به طور مؤثر کار با مشاهدات پرت در دادههای عددی میتواند نسبتاً مشکل و باطل باشد هر چند این دادهها میتوانند کاملاً صحیح باشند، ولی اگر آنها هم خارج از محدوده دادهها باشند باعث اشتباه در محاسبات میشوند.
بعضی از روشهای ممکن برای کار کردن با مشاهدات پرت در زیر آورده شده است :