روش های ترمیم داده های مفقود : دلایل گوناگونی برای بروز داده های مفقود وجود دارد . اگر عدم پاسح دهی به برخی از ماده ها به دلیل خستگی، نامساعد بودن هوا، بروز صدای مهیب در حین پاسخ دهی به پرس نامه یا چیزهای از این قبیل باشند ، اصطلاحا گفته می شود که مفقود بودن داده ها کاملا متاثر از عوامل تصادفی بوده است .

به عبارت دیگر در حالت Missing completely at random عدم پاسخ دهی به یک پرسش ارتباطی با ارزش مفهومی آن پرسش و یا دیگر متغییر ها ندارد.

اما حالت دیگری وجود دارد که به آن مفقود شدن تصادفی (Missing at random) گفته می شود .

هنگامی می توان گفت که داده ها به صورت تصادفی مفقود شده اند که فقدان داده ها (پاسخ ندادن) پس از کنترل یک متغییر دیگر، با ارزش آن پرسش خاص بستگی نداشته باشد.

به طور مثال افراد افسرده تمایل کمتری به گزارش درامد خود دارند. در چنین حالتی ، گزارش درامد با افسردگی مرتبط می شود .

همچنین ممکن است افراد افسرده از درامد کمتری هم برخوردار باشند.

بدین لحاظ هنگامی که نرخ بالایی از داده های مفقود در افراد افسرده پیش آید ، میانگین درامد موجود آنها کمتر از هنگامی خواهد بود که داده های کامل در اختیار داشته باشیم.

به هر حال اگر در میان افراد افسرده احتمال گزارش درامد با سطح درامد آنها رابطه نداشته باشد، اصطلاحا گفته می شود که با داده های مفقود تصادفی سروکار داریم.

در نمونه های دیگر ، فرض کنید که یک پژوهشگر قصد مقایسه ی درامد قومیت های گوناگون را دارد.

اگر ارتباط قومیت با درامد به دلیل سطح متفاوت سواد آن قومیت باشد ، انتحاب آزمودنی های با سواد هم سطح از تمام قومیت ها باعث فقدان رابطه و همچنین توزیع یکنواخت عدم گزارش درامد در قومیت های گوناگون می شود .

بنابر این ، به این گونه داده های مفقود داده های مفقود تصادفی گفته می شود.

در سومین حالت به داده های مفقود، داده های مفقود غیر تصادفی (Missing not at random) گفته می شود.

اگر داده ها مفقود و یا تصادفی کامل نباشند ، اصطلاحا به آنها داده های مفقود غیر تصادفی گفته می شود.

به طور مثال اگر در مطالعه سلامت روان ، افرادی که افسردگی در آنها تشخیص داده شده است حالت سلامت روانی خود را گزارش ندهند، با داده های غیرتصادفی روبرو می شویم.

روش های گوناگونی برای ترمیم داده های مفقود وجود دارد که در زیر به طور اجمالی به آنها پرداخته می شود.

Listwise Deletion : روش حذف فهرست داده های مفقود که به آن تحلیل موارد کامل (Complete case analyzc) نیز گفته می شود.

هر آزمودنی را که حتی یکی از پرسش های پژوهش را جواب نداده باشد، از تحلیل کنار می گذارد.

به عبارت دیگر داده های افرادی تحلیل میشود که فاقد داده های مفقود هستند .

در این شیوه ی ترمیمی غالبا حجم نمونه به میزان قابل ملاحظه ای کاهش پیدا میکند و در صورت وجود داده های مفقود غیر تصادفی ، نتایج پژوهش سوگیرانه می شوند.

شایان ذکر است که اگر الگوی داده های مفقود تصادفی کامل باشند، روش تحلیل موارد کامل نتایج سوگیرانه به وجود نمی آورد، هرچند که از توان آزمون به دلیل کاهش حجم نمونه کاسته می شود.

Pariwise Deletion : حذف زوجی یکی از شیوه های متداول برخورد با داده های مفقود است.

در این روش طبیعتا متغییرهایی که فاقد داده مفقود هستند با حجم نمونه های کامل تحلیل می شوند اما اگر با متغییرهایی تلافی کردند که دارای داده های مفقود هستند ، به تعداد داده های مفقود از حجم نمونه کاسته می شود.

به طور مثال اگر یک آزمودنی درامد و رضایت خود از زندگی را بیان کند ولی سن خود را گزارش ندهد ، داده های این فرد در محاسبه همبستگی میان درامد و رضایت از زندگی وارد می شود، اما هنگامی که ارتباط میان متغییرهای مذکور با سن آزمودنی ها محاسبه می شود، داده های فرد مذکور در تحلیل وارد نمی شود.

اشکال اساسی روش حذف زوجی این است که پارمترهای محاسبه شده ی مدل بر اساس مجموعه های متفاوتی از داده ها قرار می گیرد و همچنین حجم نمونه ها محتلف و خطاهای استاندارد گوناگون از معایب این روش هستند.

Expectation Maximum Algorithm : روش پیشینه کردن پیش بینی صحیح یکی از موثر ترین روش های ترمیم داده های مفقود است.

به عقیده ی شافر (1997) اگر ما از داده های مفقود اطلاع داشتیم، ارزیابی و تخمین زدن پارامترهای مدل تحلیلی سر راست بود. همیچین اگر از پارامترهای مدل داده ها آگاه باشیم ، پیش بینی غیر سوگیرانه ی ارزشهای مفقود امکانپذیر است.

بدین لحاظ هنگامی که با داده های مفقود سروکار داریم ، هم باید آن داده ها را پیش بینی کنیم و هم پارامترهای مدل را تخمین بزنیم. فرآیند کار در روش پیشینه کردن پیش بینی صحیح بدین قرار است ، ابتدا بر اساس داده های موجود ( صرف نظر از داده های مفقود) پارامترها (واریانس، کوواریانس و میانگین) تخمین زده می شوند.

سپس بر اساس این پارمترها، جایگزین های مناسب برای داده ها ی مفقود تخمین زده می شود. هنگامی که داده های مفقود تکمیل شدند، مجدداً پارامترهای جدیدی از داده های کامل محاسبه شده و این پارامترهای جدید مبنای بازنگری مجدد داده های جایگزین شده قرار می گیرند و این فرایند به همین شیوه ادامه پیدا تا به یک راه حل باثباتی در تثبیت داده های مفقود برسد .

از آنجا که احتمال کم انگاشتن واریانس خطا وجود دارد، شیوه ی پیشینه کردن پیش بینی صحیح ، اندکی بر خطاهای واریانس می افزاید و برای دستیابی به یک راه حل با ثبات ، شیوه ی تخمین زدن داده های مفقود و ارزیابی محدود آنهای را مکرراً آزمون میکند .

مفروضه EM estimation بر این اصل استوار است که الگوی داده های مفقود تنها با داده های مشاهده شده ارتباط دارد. بنابر این به کمک داده های دیگر و ارتباط منطقی که میان داده ها وجود دارد ، میتوان ارزش مفقود را پیش بینی کرد.

به هرحال روش EM بر شیوه ی رگرسیون در جایگزینی داده های مفقود ارجحیت دارد. نکته مهم : بیشتر رویکردهای موجود در زمینه ی ترمیم داده های مفقود، از شیوه های درون آزمودنی مانند دگرسیون استفاده می کنند، به عبارت دیگر ، بر حسب نمره ی یک فرد در یک متغییر ، ثمره ی آزمودنی را در متغییر مفقود پیش بینی می کند .

چون در این روش ها کل نمونه های مبنای محاسبه‌ی پارامتر های لازم جهت پیش بینی داده های مفقود قرار می گیرد. به نظر می رسد خطای پیش بینی در مقایسه با هنگامی که محسابه ی پارامترها از گروه همگن داده ها به دست می آید، افزایش چشمگیری خواهد داشت .

روش پیشنهادی نویسنده که تایید چندین متخصص آماری ترمیم داده های مفقود را کسب نموده است ، به قرار زیر است :

1- ابتدا داده های مفقود به روش پبش بینی حداکثر درست نمایی اصلاح نمایید.

2- داده های ترمیم شده به وسیله ی تحلیل خوشه ای را به چند مقوله ی همگن تقسیم کنید . به نظر می رسد انتخاب سه تا حداکثر تفاوت بین گروهی و کمینه کردن تفاوت های درون گروهی کافی باشد . البته این گانه زنی هرگز نمی تواند جایگزین یک برنامه نویسی اماری دقیق جهت کمینه کردن واریانس خطا در زیر گروها باشد.

3- در آخرین مرحله جهت جایگزین کردن داده های مفقود روش پیش بینی حداکثر درست نمایی را بر روی هر کدام از زیر گروه های حاصل از تحیلیل خوشه ای به کار گیرید. در این ر.ش با توجه به تقسیم کل نمونه به چندین زیر گروه احتمال کاهش خطای پیش بینی در نمره های جایگزین شده مستدل و معقول به نظر می رسد.

فایل داده های اولیه ( حاوی داده های مفقود) و فایل داده های اصلاح شده به روش پیش بینی حداکثر درست نمایی که مبنای خوشه بندی قرار گرفته است.

باید در محیط SPSS و تحت یکفایل قرار گیرند تا مرحله ی سوم جایگزین کردن داده های مفقود بر روی هر کدام از زیر گروه ها امکان پذیر شود.

روش رگرسیونی در پیش بینی داده های مفقود کاربرد رگرسیونی و معادله ی حاصل از آن در جایگزین سازی داده های مفقود مزایای بهتری در مقایسه با کاربرد میانگین دارد.

در شیوه ی رگرسیونی، آن دسته از متغییرهایی (ماده های پرسش نامه) که داده ی مفقود ندارند ، بعنوان متغییر های پیش بین (x) و متغییر هایی که ارزش مفقود دارند (y) در نظر گرفته می شوند .

پژوهشگر می تواند متغییرهای پیش بین مهم و معنی دار را خودش انتخاب کند و یا این امر را در اختیار SPSS قرار دهد تا برای داده های مفقود ارزش های پیش بینی شده ی مناسبی انتخاب کند.

در ادامه ایده ی کاربرد رگرسیونی برای انتخاب ارزش های مفقود در یک مثال نشان داده می شود.

فرض کنید این دو ماده ی عزت نفس را در یک دامنه ی پنج گزینه ای از تعداد آزمودنی پرسیده باشیم :

 

 

منطق زیربنایی کاربرد رگرسیون در پیش بینی ارزش های مفقود از وجود روابط تابعی میان متغییر ها سرچشمه می گیرد.

اگر میان عبارت "من فرد مثبتی هستم" با عبارت " من فرد موفقی هستم" همبستگی قابل قبولی وجود داشته باشد، می توان از یکی از این ماده ها برای پیش بینی ارزش مفقود در ماده های دیگر استفاده کرد.

طبیعی است هرچه همبستگی میان ماده ها بیشتر باشد ، نمره ی پیش بینی شده ی دقیق تری می توان برای فرد در متغییر مفقود پیش بینی کرد.

در شکل 47 و 48 ویژگی های کادرهای مربوط به تحلیل ارزش های مفقود نشان داده شده است و سپس مراحل جایگزین سازی داده های مفقود به روش رگرسیونی توضیح داده می شود.

 

 

مراحل رگرسیونی خطی برای جایگزینی داده های مفقود بدین صورت است:

- از سربرگ Analyze گزینه ی Missinf Value Analyze را انتخاب کنید.

- ماده های پرسش نامه عزت نفس یا افسردگی (ترجیحا ماده ها مربوط به یک آزمون معین باشند) را تماماَ به کمک فلش موشواره و مربع فلش داربالایی در جعبه ی Quantitave - variable منتقل کنید.

پیش گزینه SPSS به نحوی تنظیم شده است که تمام متغییرهای موجود در جعبه موجود در variable Quantitave را در پیش بینی داده های مفقود دخالت می دهد .

- اگر مایل هستید که درصد ارزش های مفقود به تفکیک یک متغییر مقوله ای ، مانند جنسیت در خروجی SPSS ارایه شود متغییر جنس را از جعبه ی سمت چپ به جعبه Categorical variable منتقل کنید و سپس بر گزینه Desuriptive از کادر ارتباطی 47 کلیک کنید و مربع سمت چپ عبارت Crosstabulation of categorical and indicator variables را علامت دار نمایید .

با توجه به این که زنان و مردان دارای تشابهات درون گروهی ویژه خودشان هستند، تحلیل درصد داده های مفقود آنها به تفکیک مطلوب است .

- مربع سمت راست Regression را علامت دار و روی گزینه ی Regression که در زیر گزینه EM اسن کلیک کنید تا دومین کادر مربوط در دسترس قرار گیرد.

- برای اینکه یک فایل جدید همراه با داده های جیایگزین شده در اختیار شما قرار گیرد مریع سمت راست Save completed data را علامت دار نمایید و در جعبه Data set نامی برای فایل جدید انتخاب کنید .

- با کلیک بر گزینه ی Continue از کادر ارتباطی دوم و کلیک بر روی گزینه OK از کادر نخست خارج شوید تا فایل جدید به همراه داده های جایگزین شده در محیط SPSS در دسترس قرار گیرد.

روش جایگزین سازی داده های مفقود که توضیح داده شد ، انتخاب متغییرهای پیش بین و ملاک را بر عهده ی SPSS واگذار می کند .

اما اگر پژوهشگر میخواهد در تعیین متغییرهای پیش بین و ملاک تصمیم گیری کند ، باید علاوه بر دنبال کردن مراحل فوق بر گزینه ی Variables از نخستین کادر ارتباطی تحلیل داده های داده های مفقود (شکل 47) کلیک کرده و در کادر ارتباطی جدید، که در شکل49 نمایش داده شده است ، گزینه ی Select variable را علامت دار نماید و ماده های پیش بین را در جعبه  Predictor Variable و متغییر ملاک را در جعبه ی Predictor Variable قرار دهد و با کلیک بر گزینه ی Continue از این کادر خارج شود.

توجه داشته باشید که اگر در متغییر های پیش بین داده های مفقود وجود داشته باشد، مشکلی برای پیش بینی مقادیر داده های مفقود در متغییرهای ملاک رخ نمی دهد ولی ارزش های مفقود در متغییر های پیش بین کماکان باقی می مانند .

بنابراین اگر همه ی ماده ها دارای ارزش مفقود باشند ، چاره ای جز تبعیت از روش پیش گزیده ی SPSS که در ابتدا مطرح شد نداریم . در شکل 49 کادر ارتباطی تعیین متغییر های پیش بین و ملاک ارائه شده است .

 

 

به طور کلی تجزیه و تحلیل ارزش های مفقود کمک می کند تا به مشکلات گوناگونی که داده های ناکامل ایجاد می کنند ، پاسحخ داده شود .

اگر آزمودنی های داری ارزش های مفقودی هستند به گونه ی منظمی متفاوت از آنهایی باشند که ارزش مفقودی در داده هایشان نیست ، نتایج جایگزینی ارزش های مفقود ممکن است گمراه کننده شود .

بر آورد های دگرسیونی برای ارزش های مفقود بر این مفروضه ی اساسی مبتنی است که توزیع ارزش های مفقود ارتباطی به ارزش ماهیتی داده ها ندارد، به عبارت ساده تر، این فرض بر این اصل متکی است که توزیع داده های مفقود از الگوی تصادفی پیروی می کند.

اگر این مفروضه درست باشد، شیوه های بر آورد همبستگی و کوواریانس نا اریب خواهد بود .

در غیر این صورت در داده های پیش بینی شده سوگیری رخ خواهد داد .

فرض کنید پژوهشگری بر این عقیده باشد که به دلیل طولانی بودن ماده های پرسش نامه ، آزمودنی ها خسته شده اند و برخی از گزینه ها را به طور سرسری بی پاسخ گذاشته اند .

واژه سرسری حائز اهمیت است ، چرا که این موضوع نشان می دهد که پژوهشگر دلیلی پیدا نکرده است ...

ادامه دارد ...


 

برای دریافت متن کامل این مقاله آموزشی بسته آموزش تحلیل آماری با spss را تهیه کنید:

شما با این بسته می توانید تحلیل آماری با spss و amos را کامل و آسان بیاموزید

و قطعا قادر می شوید کارهای آماری را حودتان انجام دهید

چگونه؟

بسته آموزشی تجزیه تحلیل آماری با SPSS و AMOS

از صفر تا صد آموزش  spss

آموزش مباحث اساسی AMOS

آموزش به زبان ساده ، موضوعی و گام به گام همراه با تصویر

33 پکیج (1378 صفحه تصویری)+ به همراه همه مقالات آموزشی این سایت درباره spss

لطفا و خواهشا برای سوال های آماری و رفع اشکال تماس نگیرید

هر آنچه لازم باشد در این بسته آموزشی آمده است.


هر سوالی دارید بپرسید:
انتخاب جدیدترین موضوعات روانشناسی، مشاوره و علوم تربیتی و انجام تخصصی پروپوزال:
شماره تماس: 09011853901

 دانلود رایگان کتاب بانک موضوع پایان نامه در کانال تلگرام