روش دو نیمه کردن[۱۱۹]
این روش برای اندازه ­گیری همسانی درونی در یکبار اجرای آزمون جهت بررسی روابط بین دو نیمه همان آزمون به کار می­رود. روش کار به این قرار است، ابتدا آزمون واحدی بر روی گروهی از آزمودنی­ها اجرا می­ شود. سپس آن را با بهره گرفتن از روش­های موجود (فرد و زوج، از وسط دو نیمه کردن، زیر مجموعه­های جور شده تصادفی) به دو نیمه که از نظر محتوای آزمون و مشخصه­های آماری سوال معادل هستند، تقسیم می­ کنند (میلر، ۲۰۱۰).

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

الف) دو نیمه کردن متداول
در صورت یکسانی واریانس دو نیمه، ضریب همبستگی دو نیمه محاسبه می­ شود. این ضریب، اعتبار یکی از دو نیمه آزمون است. برای محاسبه ضریب اعتبار کل آزمون از فرمول پیشگویی اسپیرمن – براون استفاده می­ شود.
: ضریب اعتبار دو نیمه آزمون (همبستگی دو نیمه آزمون)
: ضریب اعتبار کل آزمون
ب) روش رولون[۱۲۰]
در صورت عدم یکسانی واریانس دو نیمه آزمون، می­توان ضریب اعتبار آزمون را با بهره گرفتن از واریانس
تفاوت نمرات دو نیمه آزمون حساب کرد. این روش بیان می­ کند که چقدر از واریانس مشاهده شده ناشی از واریانس تفاوت نمرات بین دو نیمه (که ناشی از خطا قلمداد می­ شود) است.
می توان این معادله را برحسب کواریانس دو نیمه آزمون نیز نوشت:
ج) روش گوتمان[۱۲۱]
این روش نیز مستلزم یکسانی واریانس دو نیمه نمی ­باشد و از لحاظ ریاضی با معادله رولون برابر ولی از نظر محاسبه ساده­تر است.
= ۲
: واریانس نمرات یک نیمه آزمون
: واریانس نمرات نیمه دیگر آزمون
واریانس نمرات کل آزمون (مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱، ص ۱۴۶ و ۱۴۸).
روش ضریب آلفا[۱۲۲]
ضریب آلفا، کلی­ترین روش پیدا کردن برآورد­های اعتبار از طریق همسانی درونی است. به گفته­ی یانگ و گرین[۱۲۳]­­­(۲۰۱۱)، ضریب آلفا تقریباً به­ طور فراگیری برای سنجش اعتبار مقیاس­ها در روانشناسی به کار می­رود و برای تأیید اعتبار یک مقیاس، مقبول­ترین ضریب گزارش شده است. محققان جهت سنجش اعتبار بر اساس یکبار اجرای مقیاس هم برای داده ­های دو ارزشی و هم برای داده های چند ارزشی می­توانند ضریب آلفا را محاسبه کنند. همچنین، اظهار داشتند که محققان باید تحلیل­های مقدماتی(از قبیل مدلسازی معادله ساختاری) جهت اطلاع از ساختار درونی یک مقیاس اجرا کنند قبل از اینکه برآورد همسانی درونی از اعتبار انتخاب شود. تحلیل­های مقدماتی ممکن است محققان را به انتخاب ضریب آلفا منجر کند یا نکند. برای مثال اگر تشخیص داده شود که یک اندازه چند بعدی است آنگاه ضریب آلفا نامناسب خواهد بود. همچنین، بیان داشتند مفروضه­های ضریب آلفا (مفروضه کلاسیک نمره – سوال، مفروضه تائو معادل، مفروضه ناهمبستگی خطا) در عمل تا حدی نقض می­شوند، بنابراین دقت ضریب آلفا به عنوان برآوردی از اعتبار مسئله­ساز می­ شود.
فرمول­های محاسباتی ضریب آلفا جهت سنجش اعتبار به قرار زیر است؛
الف) اگر واحد محاسبه ضریب اعتبار، واریانس نمرات هر بخش از آزمون (مثل آزمونی که از تعدادی خرده آزمون تشکیل شده) باشد:
j : تعداد بخش های آزمون
واریانس نمرات کل آزمون
: واریانس نمرات هر بخش آزمون
ب) اگر واحد محاسبه ضریب اعتبار، واریانس سوالات مختلف آزمون باشد:
: تعداد سوالات
: واریانس نمرات هر یک از سوالات
در این حالت اگر سوالات به صورت دو ارزشی باشند، KR20 با ضریب آلفا برابر است.
ج) اگر واحد محاسبه ضریب اعتبار، همبستگی هر سوال آزمون با سوال دیگر باشد:
: میانگین همه ضریب های همبستگی میان سوالات
د) اگر واحد محاسبه ضریب اعتبار، کواریانس میان جفت سوالات باشد:
: میانگین کواریانس میان جفت سوالات
ضریب آلفا مشخصه آماری است که اعتبار یک مقیاس را مبتنی بر همسانی درونی آن می­سنجد. متأسفانه بسیاری از محققان هنگامی که ضریب آلفا را گزارش می­ کنند در بکارگیری واژه اعتبار قصور می­ورزند و به سادگی بیان کرده ­اند که آن یک مشخصه است که همسانی درونی را می­سنجد (گرین و تامپسون[۱۲۴]، ۲۰۰۳، به نقل از یانگ و گرین، ۲۰۱۱). همچنین بعضی محققان اصطلاحات همسانی درونی و همگنی را به طور مترادف به کار می­برند. در بحث ضریب آلفا همسانی درونی، ارتباط میان سوالات (یعنی میانگین همبستگی میان سوالات) است. در حالیکه همگنی به درجه ای که سوالات تک بعدی هستند اشاره دارد. ضریب آلفا درجه­ای که یک مقیاس همگن است را منعکس نمی­کند (کرتینا[۱۲۵]، ۱۹۹۳؛ گرین و همکاران، ۱۹۷۷؛ میلر، ۱۹۹۵؛ اشمیت[۱۲۶]، ۱۹۹۶؛ به نقل از یانگ و گرین، ۲۰۱۱) . علاوه بر این، ضریب آلفا مستقیماً تحت­تأثیر طول مقیاس قرار دارد و به همین دلیل برای داشتن یک قضاوت دقیق، هنگام تفسیر ضریب آلفا طول مقیاس­ها را نیز باید در نظر گرفت.
روش کودر - ریچاردسون[۱۲۷]
یک آزمون را به تعداد سوالات آن می­توان دو نیمه کرد. فرض می­ شود که تمام سوالات آن همتا هستند. کودر و ریچاردسون با این کار توانستند معادلات مختلفی را برای محاسبه اعتبار آزمون ارائه دهند. این روش مستلزم یکبار اجرای آزمون است و در آن همه سوالات آزمون تحلیل می­شوند.
KR20: برابر با میانگین ضرایب اعتبار حاصل از تمام روش­های ممکن دو نیمه کردن آزمون است. به طور کلی روش کودر – ریچاردسون برای محاسبه همسانی درونی آزمون مناسب­تر از روش دو نیمه کردن آزمون است، زیرا بسیاری از مشکلات بالقوه روش دو نیمه کردن (روش­های جداگانه دو نیمه کردن که منجر به برآورد اعتبارهای مختلف می­ شود، نمره­گذاری جداگانه هر نیمه، یکسانی واریانس دو نیمه) را ندارد. شرط استفاده از این روش این است که، همه سوالات باید به صورت صفر و یک نمره گذاری شده باشند.
: تعداد سوالات آزمون
واریانس نمره کل آزمون
: مجموع واریانس های هر یک از سوالات آزمون
مقدار واریانس واقعی تابع مقدار کواریانس سوالات انفرادی آزمون است. مقدار این عبارات کوواریانس نیز تابع همبستگی بین سوالات و انحراف معیار سوالات است. هر چه کوواریانس بین سوالات بیشتر باشد می­توان چنین استنباط کرد که سوالات آزمون یک خصیصه کلی را می­سنجند در نتیجه ضریب اعتبار آزمون بالا خواهد بود.
KR21 : شرط استفاده از این ضریب این است که همه سوالات به صورت صفر و یک نمره­گذاری شده
باشند. شرط دیگر آن است که سطح دشواری همه سوالات آزمون یکسان و متوسط (۵۰/۰) باشد.
: میانگین نمرات کل آزمودنی ها
در صورت برقراری فرض، استفاده از این فرمول بسیار ساده­تر از فرمول است زیرا در استفاده از آن نیازی به محاسبه نسبت پاسخ­های درست برای تک تک سوالات آزمون نیست. در مقایسه با برآورد پایین­تری از ضریب اعتبار به دست می­دهد (مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱؛ آلن و ین، ۱۹۷۹، ترجمه دلاور، ۱۳۸۷).
اعتبار بین مصححان
در اینجا منظور از مصححان افرادی هستند که اوراق امتحانی را تصحیح می­ کنند. برای تعیین اعتبار آزمون­های تشریحی یا به طور کلی آزمون­های ذهنی که نمرات آنها تحت­تأثیر قضاوت مصححان قرار می­گیرد باید از دو یا چند مصحح که مستقلاً پاسخ­های آزمون شوندگان را تصحیح می­ کنند استفاده کرد. اعتبار بین مصححان اشاره به میزان توافق مصححان با یکدیگر در نمره­گذاری مجموعه ­ای از اوراق دارد. همبستگی بین نمرات مصححان مختلف، شاخص اعتبار بین مصححان به حساب می ­آید. هر چه میزان عینیت نمره­گذاری آزمون بیشتر باشد توافق بین مصححان نیز بیشتر می­ شود، در نتیجه اعتبار بین مصححان افزایش می­یابد و بالعکس، افزایش ذهنیت در نمره­گذاری، کاهش اعتبار بین مصححان را به دنبال خواهد داشت. لازم به ذکر است که این نوع اعتبار مربوط به شیوه کار تصحیح­کنندگان اوراق امتحانی است و جدای از اعتبار آزمون که مربوط به سوالات آزمون است، می­باشد. ضریب اعتبار بین مصححان برای ضریب اعتبار نمرات حاصل از اجرای آزمون یک سقف محسوب می­ شود (سیف، ۱۳۹۱، ص ۵۵۹).
اعتبار نمرات اختلاف
هر زمان که صحبت از تفاوت­های درون­فردی و بین­فردی می­ شود، مسئله اعتبار نمرات اختلاف مطرح می­ شود. گاهی اوقات مایلیم بدانیم آیا تفاوت­های مشاهده شده در نمرات یک فرد در آزمون­های مختلف یا پیش­آزمون و پس­آزمون، معتبر است یا خیر؟ به بیان دیگر می­خواهیم بدانیم بین دو نمره چقدر تفاوت وجود داشته باشد که بگوییم این تفاوت­ها از نظر آماری معنادار هستند. نمرات اختلاف حاصل تفاضل دو مجموعه از نمرات هستند و اعتبار این نمرات از اعتبار هر کدام از آزمون­ها به تنهایی کمتر است. این نوع اعتبار، تابع ضریب اعتبار دو آزمون است و به نسبت افزایش ضریب همبستگی بین دو آزمون کاهش می­یابد. اعتبار نمرات اختلاف زمانی صفر می­ شود که میانگین اعتبار دو آزمون با همبستگی بین آنها مساوی باشد و زمانی این اعتبار ۱+ می شود که اعتبار هر کدام از آزمون ها ۱+ باشد که در این حالت میزان همبستگی بین دو آزمون بی­تأثیر است. با فرض اینکه نمرات به صورت نمرات Z یا استاندارد شده هستند، فرمول زیر را می توان برای برآورد اعتبار نمرات اختلاف به کار برد.
= اعتبار نمرات اختلاف
عوامل مؤثر بر اعتبار آزمون
طول آزمون
از کاربردهای جالب CTT این است که با طولانی­تر کردن یک آزمون می­توان بر اعتبار آن افزود، زیرا با طولانی کردن آزمون، واریانس واقعی با آهنگ سریع­تری نسبت به واریانس خطا افزایش پیدا می­ کند. طول آزمون شامل تعداد سوالات، تعداد ارزیابان و نیز تعداد جلسات ارزیابی می­ شود. دفعاتی که اضافه می­ شود باید مشابه باشند، به بیان گویاتر شرایط سنجش و آزمودن با افزایش طول تغییر نکند. جهت افزایش اعتبار از طریق افزایش طول آزمون، ابتدا باید منابع خطا را شناسایی نمود و سپس منبع خطایی که بیشترین نوسان را ایجاد می کند کنترل کرد و در راستای آن منبع خطا، بر طول آزمون افزود. به طور مثال، اگر تفاوت نمره گذاری منبع خطاست، می­توان برتعداد نمره­گذاران افزود. همچنین اگر منبع خطا، نوسان ناشی از سوالات باشد، می­توان بر تعداد سوالات افزود. نکته­ای که باید به آن توجه داشت این است که در افزایش طول آزمون یک سری ملاحظات اقتصادی و عملی (صرف زمان، تلاش، هزینه، خستگی و کسالت آزمودنی­ها) را باید در نظر گرفت. سقف اعتبار آزمون طولانی شده بستگی به اعتبار اولیه دارد. هر چه اعتبار اولیه آزمون کمتر باشد، سرعت افزایش اعتبار بیشتر است(میلر، ۲۰۱۰؛ رین اسکاف، ۲۰۰۱؛ جزوه فلسفی نژاد، ۱۳۹۱).
استاندارد سازی کردن[۱۲۸]

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...