داده های پرت و زائد
وجود داده های پرت در بین داده ها موجب بروز مشکلاتی در تحلیلها خواهد شد. این داده های پرت موجب بدست آمدن غیر صحیح برآوردها می شود.همچنین وجود داده های پرت در نرمال بودن یا نبودن داده ها نیز بسیار موثر است و یکی از راه های نرمال سازی داده ها بررسی داده های پرت است.
راه های بررسی داده های پرت:
-
رسم نمودار باکس پلات
-
محاسبه نمره z استاندارد داده ها .اگر نمره z داده ها به اندازه ۲٫۵ انحراف معیار بالاتر یا پایینتر از میانگین باشد می توان گفت داده پرت است.
-
در رگرسیون با فعال کردن گزینه casewise diagnostics می توان این موضوع را بررسی کرد.
-
در واقع داده پرت یعنی فاصله خیلی کم یا خیلی زیاد از میانگین کل داده ها است.