أثر اختلاف طريقة المعادلة وطرق تقدير الدرجات وقواعد صياغة الفقرات على دقة تقدير معالم الفقرات وقدرات الأفراد في ضوء القياس الکلاسيکي والنموذج اللوجستي ثلاثي البارامتر

عبدالله حفني حسن, ياسر

doi:10.21608/mfes.2019.103308

أثر اختلاف طريقة المعادلة وطرق تقدير الدرجات وقواعد صياغة الفقرات على دقة تقدير معالم الفقرات وقدرات الأفراد في ضوء القياس الکلاسيکي والنموذج اللوجستي ثلاثي البارامتر

نوع المستند : المقالة الأصلية

المؤلف

ياسر عبدالله حفني حسن

أستاذ علم النفس التربوي المساعد کلية التربية بقنا - جامعة جنوب الوادي

10.21608/mfes.2019.103308

المستخلص

هدفت الدراسة إلى بحث أثر اختلاف طريقة المعادلة (المتوسط/المتوسط، المتوسط / الانحراف المعياري) وطرق تقدير الدرجات (التقليدية، التجريبية، وطريقة الاحتمال المقترح للإجابة الصحيحة) وقواعد صياغة فقرات الاختبار (المحکم، المخالف) على دقة تقدير معالم الفقرات وقدرات الأفراد في ضوء القياس الکلاسيکي والنموذج اللوجستي ثلاثي البارامتر، وتکونت عينة الدراسة من 1500 طالباً وطالبة تراوحت أعمارهم بين (20.4 – 7,21) سنة، من طلاب کلية التربية جامعة أم القرى بمکة المکرمة، تم اختيارهم بالطريقة العشوائية الطبقية، ولتحقيق أهداف الدراسة والإجابة عن تساؤلاتها قام الباحث بإعداد نموذجي اختبار لمقرر الاختبارات والمقاييس من نوع الاختيار من متعدد ذو الأربعة بدائل، وتم معالجة النتائج وتحليلها باستخدام البرامج الإحصائية SPSS(22) - XCalibre (4.1.7) - IRTEQ ، وتوصل الباحث إلى النتائج التالية: اختلاف التقديرات لکل من النظرية الکلاسيکية والنموذج اللوجستي ثلاثي البارامتر، فمن منظور القياس الکلاسيکي: کان متوسط الصعوبة والتمييز لفقرات الاختبار المحکم البناء أعلى من متوسط صعوبة وتمييز فقرات الاختبار المخالف لقواعد الصياغة، ومن منظور النموذج اللوجستي ثلاثي البارامتر: أظهرت النتائج أن الاختبار المحکم أکثر کفاءة وفاعلية من الاختبار المخالف عند مستويات القدرة المختلفة، وأن فقرات الاختبار المحکم کانت أکثر دقة في تقدير قدرة الأفراد من الاختبار المخالف، وأن تحليل الفقرة في ضوء نظرية الاستجابة للفقرة کان أکثر دقة من النظرية الکلاسيکية في تقدير معلمة الصعوبة والتمييز والتخمين، وکانت أکثر طرق تقدير الدرجات الکلاسيکية ارتباطاً بالنموذج اللوجستي ثلاثي البارامتر في تقدير قدرات الطلاب وصعوبة وتمييز الفقرات، الطريقة التقليدية ثم الطريقة التجريبية ثم طريقة الاحتمال المقترح للإجابة الصحيحة، وأشارت النتائج إلى أن قيم التحيز وجذر متوسط مربع الخطأ، تقل مع ازدياد حجم العينة وطول الاختبار، فکلما زاد حجم العينة، وطول الاختبار زادت دقة المعادلة، وفي ضوء محکي التحيز وجذر متوسط مربع الخطأ، تعتبر طريقة (المتوسط/المتوسط) أکثر دقة في معادلة درجات الاختبارات من طريقة (المتوسط/الانحراف المعياري) وفق النموذج اللوجستي ثلاثي البارامتر.

الكلمات الرئيسية

الموضوعات الرئيسية

علم النفس التربوي

النص الكامل

کلیة التربیة
کلیة معتمدة من الهیئة القومیة لضمان جودة التعلیم
إدارة: البحوث والنشر العلمی ( المجلة العلمیة)
=======

أثر اختلاف طریقة المعادلة وطرق تقدیر الدرجات
وقواعد صیاغة الفقرات على دقة تقدیر معالم الفقرات
وقدرات الأفراد فی ضوء القیاس الکلاسیکی
والنموذج اللوجستی ثلاثی البارامتر

إعــــــــــداد
د/یاسر عبدالله حفنی حسن
أستاذ علم النفس التربوی المساعد
کلیة التربیة بقنا - جامعة جنوب الوادی

 المجلد الخامس والثلاثون – العدد السابع – یولیو 2019م 
http://www.aun.edu.eg/faculty_education/arabic
ملخص الدراسة
هدفت الدراسة إلى بحث أثر اختلاف طریقة المعادلة (المتوسط/المتوسط، المتوسط / الانحراف المعیاری) وطرق تقدیر الدرجات (التقلیدیة، التجریبیة، وطریقة الاحتمال المقترح للإجابة الصحیحة) وقواعد صیاغة فقرات الاختبار (المحکم، المخالف) على دقة تقدیر معالم الفقرات وقدرات الأفراد فی ضوء القیاس الکلاسیکی والنموذج اللوجستی ثلاثی البارامتر، وتکونت عینة الدراسة من 1500 طالباً وطالبة تراوحت أعمارهم بین (20.4 – 7,21) سنة، من طلاب کلیة التربیة جامعة أم القرى بمکة المکرمة، تم اختیارهم بالطریقة العشوائیة الطبقیة، ولتحقیق أهداف الدراسة والإجابة عن تساؤلاتها قام الباحث بإعداد نموذجی اختبار لمقرر الاختبارات والمقاییس من نوع الاختیار من متعدد ذو الأربعة بدائل، وتم معالجة النتائج وتحلیلها باستخدام البرامج الإحصائیة SPSS(22) - XCalibre (4.1.7) - IRTEQ ، وتوصل الباحث إلى النتائج التالیة: اختلاف التقدیرات لکل من النظریة الکلاسیکیة والنموذج اللوجستی ثلاثی البارامتر، فمن منظور القیاس الکلاسیکی: کان متوسط الصعوبة والتمییز لفقرات الاختبار المحکم البناء أعلى من متوسط صعوبة وتمییز فقرات الاختبار المخالف لقواعد الصیاغة، ومن منظور النموذج اللوجستی ثلاثی البارامتر: أظهرت النتائج أن الاختبار المحکم أکثر کفاءة وفاعلیة من الاختبار المخالف عند مستویات القدرة المختلفة، وأن فقرات الاختبار المحکم کانت أکثر دقة فی تقدیر قدرة الأفراد من الاختبار المخالف، وأن تحلیل الفقرة فی ضوء نظریة الاستجابة للفقرة کان أکثر دقة من النظریة الکلاسیکیة فی تقدیر معلمة الصعوبة والتمییز والتخمین، وکانت أکثر طرق تقدیر الدرجات الکلاسیکیة ارتباطاً بالنموذج اللوجستی ثلاثی البارامتر فی تقدیر قدرات الطلاب وصعوبة وتمییز الفقرات، الطریقة التقلیدیة ثم الطریقة التجریبیة ثم طریقة الاحتمال المقترح للإجابة الصحیحة، وأشارت النتائج إلى أن قیم التحیز وجذر متوسط مربع الخطأ، تقل مع ازدیاد حجم العینة وطول الاختبار، فکلما زاد حجم العینة، وطول الاختبار زادت دقة المعادلة، وفی ضوء محکی التحیز وجذر متوسط مربع الخطأ، تعتبر طریقة (المتوسط/المتوسط) أکثر دقة فی معادلة درجات الاختبارات من طریقة (المتوسط/الانحراف المعیاری) وفق النموذج اللوجستی ثلاثی البارامتر.
الکلمات المفتاحیة: طریقة المعادلة، طرق تقدیر الدرجات، قواعد صیاغة الفقرات، معالم الفقرات وقدرات الأفراد، القیاس الکلاسیکی، النموذج اللوجستی ثلاثی البارامتر.

The study aimed at investigating the effect of different functioning Method (Mean & Mean Method, Mean & Sigma Method), Methods of Scoring (the conventional method, the experimental Method and the method of probability assigned to the correct answer), and the rules of crafting items (the well-structured test, the ill structured test) on the accuracy of estimating the parameters of items and the abilities of individuals in the light of Classical Measurement and the three-Parameter Logistic Model. The sample of the study consisted of (1500) male and female students aging from (20.4-21.7) years, from the faculty of Education, at Umm Al-Qura University, who have been chosen stratified randomly. In order to achieve the aims of this study and to answer its questions, the researcher prepared two test modules for the course of tests and measurements of multiple choices type with four alternatives. Data were analyzed through using (SPSS 22, XCalibre 4.1.7, IRTEQ). The results indicated differences between classical theory and three parameters logistic model. The Classical perspective: The difficulty and discrimination mean of well-structured test items was higher than the difficulty and discrimination mean of ill structured test items. Three parameters logistic model perspective: The well-structured test is more efficient and effective than the violated test at different ability levels. The well-structured test is more accurate in estimating the parameters of individuals than the violated test, and the item analysis in the light of item response theory is better than classical theory of the test regarding parameter difficulty, discrimination and guessing. The Conventional method was the most related method to the three parameters logistic model among the other classical methods in estimating the abilities of the students, the difficulty and discrimination of items, then the experimental method, followed by the method of proposed probability of the answer. The results showed that bias values and root mean square errors decreased with the increase of sample size and test duration. The bigger sample size and the longer test, the more accurate the equation becomes. for the effect of three parameter model, in light of bias simulation and Root Mean Square Error, Mean & Mean Method is considered better than Mean & Sigma method in equating test score.
Key Words: Functioning Method, Methods of Scoring, the Rules of Crafting Items, The Parameters of Items and Individuals, Classical Measurement, Three-Parameter Logistic Model.

مقدمة الدراسة:
یعد القیاس والتقویم عنصراً أساسیاً فی العلمیة التعلیمیة والتربویة، وأکثرها تأثیراً فی تقدمها وتطویر مکوناتها ورفع کفاءتها، وتعتبر الاختبارات النفسیة والتربویة من أهم أدوات القیاس النفسی والتربوی، والتی تزود المؤسسات التعلیمیة والتربویة ببیانات کمیة تتیح للتربویین فهم الظاهرة التربویة، وتزود القائمین على العملیة التعلیمیة بمقدار التقدم فی مستوى التحصیل الدراسی للطلاب, ومدى تحقیقهم للأهداف التعلیمیة، وبالتالی یمکن اتخاذ بعض القرارات، التی یعتمد سلامتها على نوع ودقة المعلومة والأسالیب المستخدمة فی تفسیر وتحلیل النتائج التی تزودنها بها تلک الاختبارات.
فالقیاس والتقویم یتضمن إجراءات وطرقا منهجیة لتقریر المدى الذی تعد فیه التفسیرات والإجراءات التی تتخذ ضمن إطار المیدان التربوی والنفسی مبرره وکافیة, وفی هذا المجال هناک إطاران متنافسان فی نظریة القیاس، هما نظریة القیاس الکلاسیکیة ونظریة الاستجابة للمفردة الاختباریة, وتعد کلتا النظریتین غایةً فی الأهمیة فی تقدیم تقییمات مختلفة حول کل من فقرات الاختبار والاختبار ککل (Cappelleri, Jason & Hays, 2014; Coggins, Kim & Briggs, 2017).
وتعد النظریة الکلاسیکیة للاختبارات Classical Test Theory (CTT) من أقدم النظریات، التی استخدمت فی تطویر الاختبارات وبنائها لسنوات طویلة منذ أوائل القرن العشرین، والتی استخدمت فیها العدید من الدراسات فی عملیة بناء وتصمیم مختلف الاختبارات النفسیة والتربویة وتحلیلها وتفسیر البیانات المستمدة منها (Gregory, 2014; Hambelton & Swaminthan, 1985).
وعلى الرغم من أن نظریة القیاس الکلاسیکیة تعتمد على مسلمات بسیطة وتتطابق بسهولة مع بیانات الاختبارات الفعلیة، فإن لدیها جوانب قصور منها انعدام خطیة القیاس، وعدم وجود وحدة ثابتة للقیاس بالإضافة إلى القیاس فی أکثر من بعد، کما أن من أهم مشکلات القیاس الکلاسیکی أن معالم المفردات والأفراد تصبح محکومة بعینة المفحوصین التی طبق علیها الاختبار، فعندما تکون عینة المفحوصین مرتفعة فی مستوى القدرة نحصل على صعوبة منخفضة للمفردات، وإذا کانت عینة المفحوصین منخفضة فی مستوى القدرة نحصل على صعوبة مرتفعة للمفردات، وبالتالی لا یمکن التنبؤ بأداء المفحوصین على مفردة اختباریة معینة (Hambleton & Jones, 1993; Ojerinde, 2013).
وقد أجریت العدید من الدراسات والبحوث من أجل التغلب على جوانب القصور فی النظریة الکلاسیکیة، والوصول إلى قیاس موضوعی یماثل القیاس الفیزیائی، وقد أسفرت هذه الجهود فی ظهور نظریة السمات الکامنة، والتی عرفت فیما بعد بنظریة استجابة المفردة، إذ أنه یمکن التنبؤ بأداء المفحوصین على اختبار نفسی أو تربوی بواسطة سمة أو قدرة تمیز هؤلاء المفحوصین، والتی أطلق علیها السمات الکامنة، وتتمیز هذه النظریة فی أن تقدیر معالم المفردات من صعوبة وتمییز، وتخمین مستقل عن قدرة المفحوصین التی استخدمت فی تقدیر هذه المعالم، وأن تقدیر قدرات المفحوصین یکون مستقلاً عن عینة المفردات المستخدمة فی عملیة التقدیر(Bond & Fox, 2015; Natarajan, 2009).
وتقوم الفکرة الأساسیة لنظریة الاستجابة للمفردة (IRT) Item Response Theory على اشتقاق قیم تقدیریة للسمات التی تنطوی علیها مجموعة من الاستجابات لمجموعة من المفردات، وعادة یفترض أن السمة المقاسة هی قدرة معینة أو خاصیة من خصائص الفرد الذى یختبر بها، بحیث لا توجد علاقة منتظمة بین مستویات السمة المقاسة لدى أفراد مختلفین واحتمالات الاستجابة الصحیحة لمفردات مختلفة (أحمد محمد التقی، 2013؛ صلاح الدین محمود علام, 2005).
وقد تمیزت نظریة الاستجابة للمفردة بقوتها على المستوى التنظیری وقدرتها على إعطاء تقدیرات أفضل للمستویات الحقیقیة للأفراد على متصل السمة، کما أنها توفر تقدیراً للقدرة مستقلاً عن خصائص العینة وبمستوى قیاس یحقق ممیزات القیاس ذی الفئات المتساویة (أمینة محمد کاظم، 1988; صلاح الدین محمود علام، 2005؛ عبدالرحمن عبدالله النفیعی،2012).
وقد انبثق عن نظریة الاستجابة للمفردة مجموعة من النماذج التی جمیعها تهدف إلى تحدید العلاقة بین أداء الفرد فی الاختبار وهو ما یمکن ملاحظته ملاحظة مباشرة وبین السمات أو القدرات التی تکمن وراء هذا الأداء وتفسره، ومن أهم هذه النماذج وأکثرها شیوعاً نموذج راش Rasch Model أحادی البارامتر، ونموذج لورد Lord Model ثنائی البارامتر، ونموذج بیرنبوم Birnbaum Modelثلاثی البارامتر (صلاح الدین محمود علام، 2005؛Magis & Raîche, 2012; Penfield, 2014 ).
ویعد النموذج اللوجستی الثلاثی البارامتر هو النموذج الکامل والحالة العامة بین النماذج البارامتریة الثلاثة السابقة حیث یوصف المنحنى الممیز للمفردة وفق هذا النموذج من خلال ثلاثة بارامترات تشتق ریاضیاً من البیانات الإمبریقیة وهی بارامتر صعوبة الفقرة، وبارامتر التمییز، وبارامتر التخمین، ویتمیز هذا النموذج عن النموذجین الآخرین بمراعاة عامل التخمین وهو ما یتوقع أن یحصل فی کثیر من اختبارات الصح والخطأ أو الاختیار من متعدد مما یمکن أن یؤثر على دقة تقدیر قدرات الطلاب فی هذه الأنواع من الاختبارات (آن أناستازی، سوزانا أوربینا، 2015؛ حمدی یونس أبو جراد، 2017؛ معین سلمان النصراوین، محمد ولید موسى البطش، 2018).
وتعتبر الاختبارات التحصیلیة وسیلة من الوسائل المهمة التی یُعوَل علیها قیاس وتقویم قدرات الطلاب ومعرفة مستواهم التحصیلی والتأکد من مدى تحقق الأهداف التعلیمیة المختلفة، وتعدّ الاختبارات التحصیلیة من نوع الاختیار من متعدد أکثر أشکال التقویم انتشاراً فی التربیة، ومما زاد فی انتشار هذا النوع من الاختبارات وتفوقها على کافة أشکال الفقرات الموضوعیة الأخرى، إذ یمکن بواسطتها قیاس أهداف بسیطة وأخرى مرکبة فی مختلف المواضیع الدراسیة، وعلى اختلاف المراحل التعلیمیة (باسل خمیس أبو فودة، نجاتی أحمد یونس،2012(Campbell, 2015; Slepkov & Godfrey, 2019; .
وتُعد صیاغة فقرات الاختیار من متعدد عملاً فنیاً وإبداعیاً، وثمة من أعتبر ذلک فناً وعلماً فی آن واحد، ولذا یتوجب توزیع قواعد صیاغة الفقرات على معدیّ تلک الفقرات إذا کانوا من غیر المتخصصین، وتکثیف البرامج التدریبیة والتطبیقیة المتعلقة بجودة صیاغة فقرات الاختیار من متعدد وفق الإرشادات الخاصة بها من قِبل خبراء بناء الأسئلة والمتمرسین علیها، ولا یخلو کتاب فی القیاس والتقویم دُوّن من قِبل متخصصی هذا الفن من إرشادات تتعلق بصیاغة فقرات الاختبارات التحصیلیة من نوع الاختیار من متعدد (Aiken & Groth-Marnat, 2006; Breakall, Randles & Tasker, 2019).
ویشیر باسل خمیس أبو فودة (2014) إلى مجموعة من القواعد والإرشادات فی کتابة فقرات اختبار الاختیار من متعدد منها: التأکد من أن الجذر یطرح مشکلة محددة وواضحة، وجعل البدائل قصیرة ما أمکن، وتجنب صیغ النفی، والـتأکد من أن بدائل الإجابة الخطأ تؤلف إجابات معقولة ظاهریاً، وأن تکون جذابة للمفحوصین الذین تنقصهم المعرفة، وأن لا یتضمن الاختبار فقرات تعتمد فی إجابتها على فقرات أخرى، وتجنب الخداع والغموض فی جذر الفقرة وبدائلها، وجعل بدائل الفقرة متساویة فی طولها.
وتأتی أهمیة دراسة قواعد صیاغة فقرات الاختیار من متعدد بالأثر المتوقع لها فی أداء الفرد وهذا ما یراه Hambleton & Swaminathan, (1985) من أن مستوى الأداء على الفقرة أو الاختبار یتوقف على خصائص الفقرة أو الاختبار وعلى خصائص الفرد، ولقد أکد (Gleason, Alley & Baker, 2010; Slepkov & Godfrey, 2019) على ضرورة فحص کل فقرة من أجل تحدید ما إذا کانت الفقرة تتضمن انتهاکاً للقواعد أم لا ؛ مما قد یؤثر ذلک سلباً على الخصائص السیکومتریة للمفردة.
وتعد طرق تقدیر الدرجات Methods of Scoring هی القاعدة التی یعطى فی ضوئها قیماً کمیة تعکس الدرجة المستحقة للطالب فی کل فقرة من فقرات الاختبار، فهی أسالیب وإجراءات تتعلق بتعلیمات تطبیق الاختبار وتصحیحه یتم من خلالها تقدیر درجة المفحوص على کل فقرة من فقرات الاختبار وفق نظام رقمی محدد یختلف من طریقة لأخرى (Lesage, Valcke & Sabbe, 2013; Sočan, 2015) ، وقد اشتملت الدراسة الحالیة على ثلاث طرق لتقدیر درجات فقرات الاختیار من متعدد وهی: الطریقة التقلیدیة، والطریقة التجریبیة، وطریقة الاحتمال المقترح للإجابة الصحیحة.
کما یعد الهدف الأساسی من استخدام طرق تقدیر الدرجات فی الفقرات الموضوعیة هو الوصول إلى أفضل تقدیر لقدرات الأفراد، عن طریق الحصول على أکبر قدر من المعلومات الکمیة، وتقلیل خطأ القیاس إلى أقل حد، وهو ذات الهدف النهائی الذی تهتم به جمیع نظریات القیاس ومنها نظریة استجابة المفردة والتی جاءت کثورة فی مجال القیاس النفسی والتربوی حیث قدمت الحلول للعدید من أوجه القصور فی القیاس الکلاسیکی، کما أصبحت وسیلة أساسیة وشائعة فی بناء وتطویر الاختبارات حیث أنها تقدم بدیلاً عن نظریة القیاس الکلاسیکیة فی تقدیر معالم الأفراد والمفردات بأقل قدر من الخطأ (Ndalichako, & Rogers, 1997; Vanderoost, Janssen, Eggermont, Callens & De Laet, 2018 ).
وتعتبر معادلة الاختبار من أهم تطبیقات القیاس والتقویم، ففی العدید من المواقف الاختباریة تستدعی الحاجة إلى تطبیق عدة صور من الاختبار الواحد بهدف الحفاظ على سریة الاختبار، کما أن بعض اختبارات القبول تحتاج تطبیق صور متعددة من الاختبار ومقارنة الدرجات، التی یحصل علیها المفحوصون المطبق علیهم صوراً من نفس الاختبار (Inal & Anil, 2018; Kolen & Brennan, 2014)، والمقصود بالمعادلة هو تحویل الدرجات على صور الاختبارات إلى مقیاس مشترک موحد، بحیث تصبح القیاسات المستمدة من درجات کل من الصورتین متکافئة بعد إجراء هذا التحویل، وتهدف المعادلة إلى إزالة فروقات الصعوبة؛ بحیث یمکن إجراء مقارنات بین المفحوصین المطبق علیهم نفس الاختبار بشکل متبادل؛ ولذلک یتطلب إجراء معادلة ذات مستوى عالٍ من الدقة.
وهناک العدید من الطرق لإجراء المعادلة، فإما أن تکون الطریقة المستخدمة فی المعادلة تعتمد على النظریة الکلاسیکیة فی القیاس (CTT) أو نظریة استجابة المفردة (IRT)، ولکل منهما طرقها الخاصة فی المعادلة، ففی النظریة الکلاسیکیة تکون من خلال طریقة المعادلة الخطیة Linear Equating، أو طریقة المعادلة المئینیة Equipercentile Equating، أو طریقة المعادلة الانحداریة Regression Equating، أو من خلال معادلة المتوسط الحسابی Mean Equating؛ أما طرق المعادلة التی تعتمد على نظریة استجابة المفردة تکون باستخدام معادلة الدرجات الحقیقیة True-Score Equating، أو باستخدام معادلة درجات القدرة Ability Score Equating، أو باستخدام معادلة الدرجات المشاهدة Observed Score Equating (Angoff, 1987; Kolen & Brennan, 2014; Öztürk-Gübes & Kelecioglu, 2016) .
وقد أشار Zhonghua (2010)أنه عند إجراء المعادلة وفق تصمیم المفردات المشترکة یمکن وضع تقدیرات بارامترات المفردة غیر المعلومة المشتقة من صور الاختبار على مقیاس مشترک من خلال ثلاثة طرق: ربط التدریج المنفصل The linking Separate Calibration (LSC)، التدریج المتلازم The Concurrent Calibration ، تدریج المعلمة الثابتة The Fixed Parameter Calibration (FPC) ، وتعتمد طریقة ربط التدریج المنفصل على التحویل الخطی؛ حیث یمکن حساب معاملا التحویل (A, B) بعدة طرق من أهمها: طریقة المتوسط/ المتوسط، طریقة المتوسط/الانحراف المعیاری.
یتضح مما سبق أن الدراسة الحالیة تُعد محاولة للتعرف على أثر اختلاف طریقة المعادلة وطرق تقدیر الدرجات وقواعد صیاغة الفقرات على دقة تقدیر معالم الفقرات وقدرات الأفراد فی ضوء القیاس الکلاسیکی والنموذج اللوجستی ثلاثی البارامتر، حیث إن هذا المیدان فى حاجة إلى مزید من الدراسات والبحوث، والدراسة الحالیة تعد بمثابة دعوة فى هذا الاتجاه .
مشکلة الدراسة:
شهد منتصف القرن العشرین تطورات جوهریة فی منهجیات القیاس النفسی وطرق تصمیم الاختبارات والمقاییس وتقنیات تحلیل البیانات المستمدة منها، من خلال ظهور ما یسمى بنظریة الاستجابة للمفردة (IRT) التی أعُتبرت بمثابة الثورة والمستقبل الزاهر للقیاس النفسی والتربوی, (Anstasi & Urbena, 2005), حیث قدمت إطاراً مرجعیًّا لبناء المقاییس النفسیة والتربویة، وطریقة تفسیر الدرجات على هذه الاختبارات مقارنة بما قدمته النظریة الکلاسیکیة فی القیاس (Ojerinde, 2013; Van der Linden, 2009; 2010) ، وبذلک تحققت إلى حد بعید الموضوعیة المنشودة للقیاس لمعالجة نواحی القصور التی ظهرت فی أسالیب القیاس المعتمدة على نظریة القیاس التقلیدیة.
وتعد نظریة استجابة الفقرة ثورة فی عالم القیاس النفسی والتربوی وذلک لکونها تراعی عدد من المتغیرات التی أغفلتها نظریة القیاس الکلاسیکی مما أثمر عن قیاس أکثر دقة وموضوعیة فی تقدیر قدرات الأفراد، وقد أکد هذا التفوق عدد من الدراسات التی قارنت بین هاتین النظریتین کدراسات(Adedoyin, 2010; Ainol & Noor, 2006; Ayhan, 2015; Coggins et al., 2017; Hambleton & Jones, 1993; Reise & Revicki, 2015) .
ونظراً للانتشار الواسع لاستخدام اختبارات الاختیار من متعدد، وخاصة فی المجال التعلیمی؛ لما تتمتع به هذه الاختبارات من میزات کثیرة؛ حیث أن هذه الاختبارات لدیها القدرة على شمول المحتوى بشکل جید، وکذلک سهولة التطبیق، وموضوعیة التصحیح، مما جعلها تتمتع بدرجة عالیة من الصدق والثبات، وبالرغم من ذلک إلا أن هذا النوع من الاختبارات تعتمد دقة نتائجه على جودة بناء فقراته الاختباریة وکذلک التقید بقواعد صیاغة فقرات اختبار الاختیار من متعدد Slepkov & Godfrey, 2019)(Lin, 2018; .
ولأهمیة ذلک أُجریت العدید من الأبحاث التی تتعلق بصیاغة فقرات الاختیار من متعدد مثل دراسة (Haladyna, Downing & Rodriguez (2002 ، والتی توصلت إلى إحدى وثلاثین توصیةً تتعلق بصیاغة فقرات الاختیار من متعدد نتیجة مراجعتهم لسبعة وعشرین مرجعاً متخصصاً ومن خلال سبع وعشرین دراسة تجریبیة فی القیاس والتقویم، وکذلک ساهمت بعض الدراسات فی الکشف عن العدید من انتهاکات صیاغة فقرات الاختیار من متعدد مثل دراسةTarrant, Knierim, Hayes & Ware, (2006) والتی شملت مراجعة (2770) فقرة من نوع الاختیار من متعدد فی ضوء تسعة عشر قاعدة، وقد أظهرت النتائج أنَّ ما یقترب من نصف الأسئلة (46.2% ) تقریباً تنتهک القواعد، وأَّن أکثر من (90%) من الأسئلة کُتبت لقیاس مستوى معرفی متدن لدى الطلبة؛ ولذا لابد من دراسة أسئلة الاختیار من متعدد وضبط جوانب القصور، وتقویة نواحی القوة لاسیما عندما یکون القرار المبنی على نتائجها حاسماً وحساساً.
وبمراجعة الدراسات والبحوث السابقة أتضح أن عدداً قلیلاً منها تناول البحث عن أثر انتهاک عدد من القواعد الخاصة ببناء وصیاغة فقرات الاختیار من متعدد على الخصائص السیکومتریة على الاختبار وفقراته (حیدر إبراهیم ظاظا، 2012؛ صبری حسن الطراونة، 2015)، وأن هذه الدراسات التی أُجریت لم تقدم نتائج متسقة تصب فی اتجاه واحد بل کان هناک تبایناً بین الدراسات المختلفة، فقد أکدت دراسات (ابتسام عیسى خصاونة، 2012؛ نضال الشریفین، رانیا الصبح، 2011؛Pachai, DiBattista & Kim, 2015 ) أن هناک فروقاً ذات دلالة إحصائیة فی معاملات صعوبة الفقرات محکمة البناء ونظائرها المخالفة لقواعد الصیاغة لصالح الفقرات المخالفة لقواعد الصیاغة، وکانت لصالح الفقرات المحکمة البناء فی معاملات التمییز، بینما توصلت دراسات کل من (إبراهیم محمد یعقوب، باسل خمیس أبو فودة، 2010؛ Crehan & Haladyna, 1991) إلى عدم وجود فروق ذات دلالة إحصائیة فی تقدیر معلمة الصعوبة تعزى إلى نموذج الاختبار (محکم، مخالف) لقواعد صیاغة الفقرات؛ ولذلک لا یزال هذا الموضوع یحمل مزیداً من الدراسة والبحث، کما أن بعض القواعد المتعلقة بصیاغة فقرات الاختیار من متعدد لم تحظ بالقدر الکافی من الاهتمام البحثی من قبل الباحثین وخاصة المتعلقة (بوضع البدائل بشکل أفقی ولیس عمودی، وکذلک البدائل الغیر معقولة ظاهریاً)، کما أن معظم الدراسات التی تناولت دراسة قواعد صیاغة فقرات الاختیار من متعدد استخدمت المنظور الکلاسیکی فی تحلیل نتائج الاختبارات کدراسة (ابتسام عیسى خصاونة، 2012؛ إبراهیم محمد یعقوب، باسل خمیس أبو فودة، 2012؛ Mueller & Schrock, 1982) والتی تضمنت دراسة المؤشرات الدالة على الإجابة الصحیحة، وصیاغة المتن على شکل سؤال أو جملة غیر مکتملة وأثر ارتکاب تلک المخالفات على الخصائص السیکومتریة للاختبار وفقراته من المنظور الکلاسیکی، فضلاً عن قلة تلک الدراسات التی تناولت أثر انتهاک قواعد الصیاغة على التقدیرات المختلفة لنظریة الاستجابة للمفردة کدراسة (إبراهیم محمد یعقوب، باسل خمیس أبو فودة، 2010؛ محمد صیتان الصمادی، 2015؛ نضال الشریفین، رانیا الصبح، 2011) والتی هدفت إلى التعرف على أثر تضمین الانتهاکات عند صیاغة فقرات الاختیار من متعدد على التقدیرات المختلفة لنظریة استجابة المفردة.
وقد أجریت عدید من الدراسات تناولت تقییم الطرق الکلاسیکیة المختلفة لتقدیر درجات اختبارات الاختیار من متعدد من حیث کفاءتها فی تقدیر قدرات الأفراد کالدراسات التی أجراها کل من (ساری سلیم سواقد،1992؛ صلاح شریف عبدالوهاب، 2001 ؛ عفاف راضی اللحیانی، 2012؛ یوسف عبدالقادر أبوشندی، راشد سیف المحرزی، إیهاب محمد عمارة، 2018؛Lau, Lau, Hong & Usop, 2011)، إلا جمیع هذه الدراسات کانت محکات الحکم فیها تستند إلى نظریة القیاس الکلاسیکی، کما أن النتائج التی خرجت بها جاءت متباینة حول أفضلیة أی من هذه الطرق.
لهذا جاءت الدراسة الحالیة لتکمل البناء البحثی حول هذا الموضوع وذلک من خلال المقارنة بین ثلاثة من هذه الطرق (الطریقة التقلیدیة، الطریقة التجریبیة، وطریقة الاحتمال المقترح للإجابة الصحیحة) وفق معیار لم تتطرق له الدراسات السابقة وهو علاقة إحصائیات الفقرات والأفراد (صعوبة الفقرات، تمییز الفقرات، وقدرات الأفراد) المستمدة من هذه الطرق الثلاث بنظیراتها (معالم الفقرات والأفراد) المقدرة باستخدام النموذج اللوجستی الثلاثی البارامتر أحد نماذج نظریة الاستجابة للمفردة المهمة والذی یتمیز بمراعاة أثر عامل التخمین على تقدیر قدرات الأفراد، وهو ذات العامل الذی أهتمت به الطریقتین التجریبیة، الاحتمال المقترح للإجابة الصحیحة اللتان تضمنتهما الدراسة الحالیة، کما أن هذا النموذج یعد أکثر نماذج نظریة الاستجابة للمفردة فاعلیة فی تقدیر قیم البارامترات (صلاح محمود علام، 2007 ,207).
ویمکن لنتائج هذه الدراسة أن تسهم فی مساعدة الباحث الذی یرغب فی استخدام نماذج نظریة استجابة المفردة ولکنه لم یتمکن من ذلک لصعوبة تحقیق متطلبات هذه النماذج فی معرفة البدیل المناسب من طرق تقدیر الدرجات الکلاسیکیة موضع الدراسة، والذی یکون الأقرب لتدریج قدرات الأفراد وفق النموذج اللوجستی الثلاثی البارامتر، وکذلک تزوده بتصور عن مقدار التوافق بین تدریج الدرجات المستمد من کل طریقة من الطرق الکلاسیکیة الثلاث وتدریج القدرات المستمد من النموذج اللوجستی الثلاثی البارامتر.
وحیث أن طرق معادلة الاختبارات وفق نظریة استجابة المفردة تتغلب على الکثیر من المشکلات التی عجزت طرق معادلة الاختبارات وفق النظریة الکلاسیکیة عن حلها؛ وذلک لعدم قدرتها على تحقیق أغلب شروط المعادلة، فعلى سبیل المثال نجد أن طریقتی معادلة النسب المتساویة، والمعادلة الخطیة وفق النظریة التقلیدیة تشترط وجود عینات متساویة القدرة، وفی حال عدم تحقق الشروط اللازمة تصبح معادلة الاختبار غیر فعالة (Kolen& Brennan, 2014)، بینما نجد الأمر مختلف بالنسبة لطرق معادلة الاختبارات وفق نظریة استجابة المفردة فعندما یکون النموذج المستخدم مطابقاً لبیانات الاختبارات المراد معادلتها، تکون تقدیرات معالم المفردات مستقلة عن قدرة الأفراد الذین طبق علیهم الاختبار، وتقدیرات القدرة لعینة الأفراد تکون مستقلة عن المفردات المستخدمة فی هذا التقدیر، وبالتالی یمکن وضع تقدیرات البارامترات للمفردة المشتقة من صور الاختبارات، وقدرات الأفراد على مقیاس مشترک (Zhonghua, 2010).
کما تلعب دالة معلومات الاختبار دوراً مهماً فی النظریة الحدیثة فی القیاس، إذ یمکن من خلالها تحدید الخطأ المعیاری فی التقدیر؛ حیث تتمتع دالة معلومات الاختبار، والتی تمثل مجموع دوال معلومات الفقرات عند مستوى معین من القدرة بمیزة، وهی کون دالة معلومات الاختبار مستقلة عن عینة المفحوصین، وبذلک تقدم النظریة الحدیثة فی القیاس ممیزات إضافیة، فیما یتعلق بزیادة القدرة على تقدیر أخطاء القیاس (حابس سعد الزبون، 2013؛ نضال کمال الشریفین،2012؛ Ayala, 2008).
ویرتبط تطویر نظریات القیاس النفسی ونماذجها بکیفیة معالجة أخطاء القیاس، حیث یکون لتعیین الخطأ فی النموذج تأثیر کبیر على کیفیة تقدیر درجات الخطأ، وفى داخل النظریة الکلاسیکیة للاختبار من الممکن افتراض أن الخطأ یمکن تقسیمه بشکل طبیعی ویمکن افتراض أن حجم الأخطاء ثابت خلال مقیاس درجة الاختبار(Campbell, 2015)، ومن ناحیة أخرى ففی ظل نظریة الاستجابة للمفردة من الممکن افتراض أن حجم الأخطاء ربما یکون مرتبطاً بدرجة الممتحن الفعلیة، ویتم حساب الخطأ المعیاری للقیاس بشکل منفصل بالنسبة لکل من قیاس الفرد وتدریج المفردة (Hambleton, 2004; Ojerinde, 2013).
وفی الوقت الذی تتعدد فیه عیوب النظریة الکلاسیکیة فی القیاس تزداد مزایا نظریة الاستجابة للمفردة بنماذجها المختلفة، وتتمثل هذه المزایا فی استقلال خصائص المفردات عن عینة الأفراد المستخدمة فی التحلیل، وکذلک استقلال تقدیر قدرات الأفراد عن عینة المفردات المکونة للمقیاس، کما أن تفسیر درجات الأفراد یتم فی ضوء المفردات ولیس فی ضوء الجماعة المرجعیة کما فی النظریة الکلاسیکیة، وتتحقق خصائص المیزان الفتری وربما القیاس النسبی دون ضرورة أن یکون توزیع مستویات القدرة فی المجتمع المستهدف اعتدالیًا، ویتم تقدیر الخطأ المعیاری لکل مختبر على حده ولیس خطأ معیاریاً واحداً لکل المختبرین، مع إمکانیة المقارنة بین أداء الأفراد الذین اختبروا باختبارات مختلفة تقیس نفس السمة (رحاب سعید الحکمانی ،2008 ؛ صلاح الدین محمود علام، 2005؛ عزالدین عبدالله النعیمی، 2015) .
وبناءً على ما سبق عرضه من طرح نظری وبعض نتائج الدراسات والبحوث السابقة ینصب اهتمام الدراسة الراهنة على التعرف على أثر اختلاف طریقة المعادلة وطرق تقدیر الدرجات وقواعد صیاغة الفقرات على دقة تقدیر معالم الفقرات وقدرات الأفراد فی ضوء القیاس الکلاسیکی والنموذج اللوجستی ثلاثی البارامتر ومن ثم تتحد مشکلة الدراسة الحالیة فى الإجابة عن التساؤلات التالیة:
1- هل تتحقق افتراضات نظریة الاستجابة للمفردة الاختباریة على استجابات أفراد عینة الدراسة على نموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات؟
2- ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات صعوبة الفقرات فی ضوء القیاس الکلاسیکی والنموذج اللوجستی الثلاثی البارامتر؟
3- ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات تمییز الفقرات فی ضوء القیاس الکلاسیکی والنموذج اللوجستی الثلاثی البارامتر؟
4- ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات تخمین الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ وهل هناک فروق ذات دلالة إحصائیة فی تقدیر الخطأ المعیاری لمتوسط معاملات تخمین الفقرات تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات؟
5- ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على دقة تقدیرات معالم القدرة للأفراد فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ وهل هناک فروق ذات دلالة إحصائیة فی تقدیر متوسط الخطأ المعیاری لتقدیر قدرات الأفراد تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات؟
6- هل هناک فروق ذات دلالة إحصائیة بین التقدیرات الخاصة بدالة معلومات الاختبار تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر؟
7- ما تقدیرات قدرات أفراد العینة فی اختبار الاختیار من متعدد المستخدم فی الدراسة وذلک وفق طرق تقدیر الدرجات الکلاسیکیة (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) وکذلک وفق النموذج اللوجستی الثلاثی البارامتر؟
8- ما درجة الارتباط/الاختلاف بین قدرات الطلاب عند تقدیرها باستخدام النموذج اللوجستی الثلاثی البارامتر بتقدیرات درجاتهم عند استخدام کل من الطرق الکلاسیکیة لتقدیر الدرجات التی شملتها الدراسة (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) ؟
9- ما درجات ارتباط قیم معاملات صعوبة/تمییز الفقرات عند استخدام کل من الطرق الکلاسیکیة لتقدیر درجات الاختیار من متعدد (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) مع قیم معاملات صعوبة/تمییز الفقرات عند استخدام النموذج اللوجستی الثلاثی البارامتر؟
10- هل تختلف دقة معادلة درجات الاختبارات باختلاف طریقتی المعادلة (المتوسط/المتوسط، المتوسط/الانحراف المعیاری) باستخدام النموذج اللوجستی الثلاثی البارامتر، لأحجام العینات (500، 1000، 1500)، وطولی الاختبار(25، 50)؛ فی ضوء محکی التحیز وجذر متوسط مربع الخطأ؟
أهداف الدراسة :
تسعى الدراسة الحالیة إلى تحقیق الأهداف التالیة :
1- التحقق من افتراضات نظریة الاستجابة للمفردة الاختباریة على استجابات أفراد عینة الدراسة على نموذجی الاختبار (المحکم، المخالف) لقواعد صیاغة الفقرات.
2- التعرف على أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات صعوبة الفقرات فی ضوء القیاس الکلاسیکی والنموذج اللوجستی الثلاثی البارامتر.
3- التعرف على أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات تمییز الفقرات فی ضوء القیاس الکلاسیکی والنموذج اللوجستی الثلاثی البارامتر.
4- التعرف على أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات تخمین الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ وهل هناک فروق ذات دلالة إحصائیة فی تقدیر الخطأ المعیاری لمتوسط معاملات تخمین الفقرات تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات.
5- التعرف على أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على دقة تقدیرات معالم القدرة للأفراد فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ وهل هناک فروق ذات دلالة إحصائیة فی تقدیر متوسط الخطأ المعیاری لتقدیر قدرات الأفراد تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات؟
6- التعرف على دلالة الفروق الإحصائیة بین التقدیرات الخاصة بدالة معلومات الاختبار والتی تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر.
7- التعرف على تقدیرات قدرات أفراد العینة فی اختبار الاختیار من متعدد المستخدم فی الدراسة وذلک وفق طرق تقدیر الدرجات الکلاسیکیة (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) وکذلک وفق النموذج اللوجستی الثلاثی البارامتر.
8- التعرف على درجة الارتباط/الاختلاف بین قدرات الطلاب عند تقدیرها باستخدام النموذج اللوجستی الثلاثی البارامتر بتقدیرات درجاتهم عند استخدام کل من الطرق الکلاسیکیة لتقدیر الدرجات التی شملتها الدراسة (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة).
9- التعرف على درجات ارتباط قیم معاملات صعوبة/تمییز الفقرات عند استخدام کل من الطرق الکلاسیکیة لتقدیر درجات الاختیار من متعدد (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) مع قیم معاملات صعوبة/تمییز الفقرات عند استخدام النموذج اللوجستی الثلاثی البارامتر؟
10- المقارنة بین طرق المعادلة لتحدید الطریقة الأدق فی معادلة درجات الاختبارات (المتوسط/ المتوسط، المتوسط/الانحراف المعیاری) باستخدام النموذج اللوجستی الثلاثی البارامتر، لأحجام العینات (500، 1000، 1500)، وطولی الاختبار(25، 50)؛ فی ضوء محکی التحیز وجذر متوسط مربع الخطأ؟
أهمیة الدراسة :
تأتی أهمیة الدراسة الحالیة فى ضوء الجوانب التالیة :
1- إن الدراسة الحالیة تتکامل مع الدراسات والبحوث التی تطرقت للمقارنة بین نماذج نظریة القیاس الکلاسیکی ونماذج نظریة الاستجابة للمفردة، مما یمکن أن یساهم فی الوصول لبناء معرفی متسق حول هذین الإطارین النظریین.
2- إثراء الدراسات والبحوث المتعلقة بموضوع انتهاک قواعد صیاغة فقرات اختبار الاختیار من متعدد؛ وذلک بدراسة المؤشرات الإحصائیة المتعلقة بأثر بعض انتهاک صیاغة الفقرات على الخصائص السیکومتریة لفقرات الاختبار، فضلاً عن دراسة الجودة المتعلقة ببناء الاختبار والذی تؤلف الفقرة جزءاً منه وفق القیاس الکلاسیکی وفی ضوء النموذج اللوجستی ثلاثی البارامتر وتقدیم تغذیة راجعة لمعدیّ الاختبارات والمهتمین بشؤونها على مستوى الأفراد والمؤسسات.
3- الوقوف الحقیقی على وضعین مختلفین لبناء فقرات اختبار الاختیار من متعدد (البناء المحکم، البناء المخالف) لقواعد الصیاغة، وأثر ذلک على خصائص الأفراد والمفردات، مما یمکن من التحقق من صحة النتائج وإمکانیة التعمیم على مواقف مشابهه، ودعوة القائمین على العملیة التعلیمیة بضرورة الاهتمام بجودة صیاغة فقرات الاختیار من متعدد، وذلک باتباع إرشادات وقواعد الصیاغة المستنبطة من الدراسات والبحوث المتخصصة فی هذا الجانب، لأهمیة القرارات التی تبنى علیها نتائج تلک الاختبارات.
4- تعد الدراسة الحالیة دراسة تقویمه لعدد من طرق تقدیر الدرجات لاختبارات الاختیار من متعدد وذلک من خلال معیار لم تتطرق له الدراسات والبحوث السابقة التی حاولت تقویمها; وهو درجة ارتباط إحصائیات کل من الفقرات، والأفراد المستمدة من هذه الطرق بنظائرها المستمدة من النموذج اللوجستی ثلاثی البارامتر.
5- توفیر معلومات تفید الباحثین وغیرهم فی الکشف عن أکثر طرق تقدیر الدرجات اتساقاً مع النموذج اللوجستی ثلاثی البارامتر، مما یمکنهم من استخدام البدیل المناسب من بین هذه الطرق فی حال عدم قدرتهم على استخدام النموذج.
6- التعرف على عملیة معادلة الاختبارات، والتی تعتبر من أهم تطبیقات نظریة الاستجابة للمفردة وأهمیتها فی وضع درجات الاختبارات على مقیاس مشترک واحد، وکذلک إعطاء تصور واضح لمصممی الاختبارات لاختیار طریقة المعادلة التی تتناسب مع طبیعة الاختبار للوصول إلى أفضل دقة لمعادلة درجات صور الاختبار.
مصطلحات الدراسة :
1- اختبار الاختیار من متعدد Multiple Choice Test :
یعرف اختبار الاختیار من متعدد بأنه السؤال الی یتکون من جزأین أولهما یعرف بالأساس وهو الخاص بالقضیة التی یسأل عنها الطالب والثانی عدداً من الاختیارات تسمى البدائل، یختار من بینها الطالب الإجابة الصحیحة (Chang, Lin & Lin, 2007; Lau et al., 2011; Lin, 2018).
ویتحد اختبار الاختیار من متعدد فی الدراسة الحالیة إجرائیاً: تبعاً لدرجة الطالب على نموذجی الاختبار (المحکم، المخالف) لقواعد صیاغة فقرات الاختیار من متعدد لمقرر الاختبارات والمقاییس والذی تم تطبیقه على طلاب کلیة التربیة بجامعة أم القرى، خلال الفصل الدراسی الأول من العام الدراسی 2017/2018 م.
2- صیاغة فقرات الاختیار من متعدد Crafting Items Multiple Choice:
تتحد فقرات الاختیار من متعدد فی الدراسة الحالیة إجرائیاً: بأنها فقرات الاختیار من متعدد لمقرر الاختبارات والمقاییس وفقاً لصورتین تقیسین نفس المحتوى:
الصورة الأولى: فقرات محکمة البناء تم صیاغتها وفقاً لقواعد وإرشادات کتابة فقرات اختبار الاختیار من متعدد (Breakall et al., 2019; Rodriguez & Albano, 2017).
الصورة الثانیة: فقرات فیها انتهاک لبعض قواعد صیاغة فقرات الاختیار من متعدد وبالتحدید (اختلاف طول البدائل الصحیحة، البدائل غیر المعقولة منطقیاً، وضع البدائل بشکل أفقی ولیس عمودی، وجود البدیل "جمیع ما ذکر" کإجابة صحیحة، وجود البدیل "لا شیء مما ذکر" کإجابة صحیحة).
3- القیاس الکلاسیکی Classic Measurement :
یقصد به مجموعة الطرق الإحصائیة الکلاسیکیة التی تستخدم فی حساب مفاهیم: الصعوبة ، التمییز، الصدق ، الثبات الخاصة باختبار مقرر "الاختبارات والمقاییس" موضع الدراسة.
أ - صعوبة الفقرة وفق القیاس الکلاسیکی: هی النسبة المئویة من الطلاب الذین أجابوا عن الفقرة إجابة صحیحة، وأن أفضل درجة صعوبة للفقرة تلک التی تعطی أکبر تباین عندما تکون صعوبة الفقرة تقارب (0.5)، وأی فقرة ضمن توزیع لدرجات الصعوبة یتراوح بین (0.3 – 0.7) بمتوسط حسابی قدره (0.5) تعتبر ملائمة لجودة بناء الاختبار(Adedoyin, 2010; Cappelleri et al., 2014; Hambleton & Swaminathan,1985; Eleje, Onah & Abanobi, 2018) .
ب- تمییز الفقرة وفق القیاس الکلاسیکی: هو مؤشر إحصائی یستخدم للکشف عن مدى قدرة الفقرة على التمییز بین الطلاب ذوی مستویات القدرة المختلفة، ویتم حسابه کلاسیکیاً اعتماداً على طریقة المقارنة الطرفیة، وفی ضوء المعیار الذی وضعه Ebel & Frisbie, (1991)، حیث أشارا إلى أن أیة فقرة قیمة معامل تمیزها سالب أو أقل من (0.2) تحذف، وأیة فقرة ذات قدرة تمییزیة أکبر من أو تساوی (0.2) وأقل من (0.4) تعتبر ذات تمییز مقبول وینصح بتحسینها، أما الفقرات ذات التمییز یساوى (0.4) فأکثر فتعتبر ذات تمییز جید ویمکن الاحتفاظ بها (آن أناستازی، سوزانا أوربینا،2015؛ صلاح الدین محمود علام ،2015؛ لیندا کروکر، وجیمس الجینا، 2017)..

4- نظریة الاستجابة للفقرة Item Response Theory(IRT)
هی مجموعة الطرق الإحصائیة التی تستخدم فی حساب معالم الفقرات والأفراد "من صعوبة وتمییز وتخمین ودالة معلومات"، والمکونة من نماذج أحادیة البعد هی : نموذج راش الأحادی البارامتر، نموذج لورد ثنائی البارامتر، نموذج بیرنبوم الثلاثی البارامتر (أحمد محمد التقی، 2013؛ صلاح الدین محمود علام،2005; Ayala, 2008; Ayhan, 2015; DeMars, 2010; Natarajan, 2009; Coggins et al., 2017; Nering & Ostini, 2010; Reise & Revicki, 2015).
5- النموذج اللوجستی الثلاثی البارامتر Three-Parameter Logistic Model
هو أحد نماذج نظریة الاستجابة للمفردة أحادیة البعد ثنائیة الاستجابة، ویراعی هذا النموذج إمکانیة تفاوت فقرات الاختبار فی صعوبتها، وقوتها التمییزیة، واحتمالیة الإجابة علیها عن طریق التخمین، حیث یفترض أن احتمال وصول الفرد للإجابة الصحیحة عن أی فقرة اختباریة ( )P، هو دالة فی متغیرین هما: قدرة الطالب فیما یقیسه الاختبار ( )، وخصائص هذه الفقرة الاختباریة والتی تشمل فی هذا النموذج کل من: بارامتر الصعوبة (b)، وبارامتر التمییز(a)، وبارامتر التخمین(c) (حسین عبدالنبی القیسی، 2014؛ شاهر خالد سلیمان، علی محمد الصالح،2017؛ صلاح الدین محمود علام،2007 ؛ طه الخرشه، 2016؛ فریال محمد أبو عواد، 2018؛ DeMars, 2010; Kim & Lee, 2017; Tay, Huang, & Vermunt, 2016)، على النحو التالی.
أ- صعوبة الفقرة وفق النموذج اللوجستی ثلاثی البارامتر(b): تمثل نقطة على مقیاس القدرة مقابلة لاحتمال الإجابة الصحیحة عن الفقرة بمقدار (1+C)/2 حیث (C) عبارة عن احتمالیة إجابة الأفراد ذوی المستویات المنخفضة من القدرة إجابة صحیحة عن الفقرة عن طریق التخمین، ویقدر بارامتر الصعوبة بوحدة اللوجیت.
ب- تمییز الفقرة وفق النموذج اللوجستی ثلاثی البارامتر(a): یمثل میل المنحنى الممیز للفقرة عند نقطة انقلاب المنحنى، وهی النقطة التی یکون فیها احتمال إجابة الفرد عن الفقرة إجابة صحیحة یساوی (1+C)/2 .
ج- بارامتر تخمین الفقرة وفق النموذج اللوجستی ثلاثی البارامتر(c): هو مؤشر إحصائی یعکس احتمال إجابة الأفراد من ذوی المستویات المنخفضة فیما یقاس عن المفردة إجابة صحیحة، وهو بذلک الجزء المقطوع من محور الصادات، ویسمى مستوى شبه الصدفة Pseudo-Chance، أو الخط التقاربی الأدنى للمنحنى Lower Asymptote.(Georgiev, 2008; Nering & Ostini, 2010; Raykov & Marcoulides, 2016; Reise & Revicki, 2015)
6- دالة المعلومات للاختبار Test Information Function(TIF):
تمثل هذه الدالة بعلاقة منحنیة بین متغیرین هما مستویات القدرة التی یمثلها المحور الأفقی والمعلومات التی یوفرها الاختبار ککل، وتعبر هذه الدالة عن کمیة المعلومات المقدم من المجموع الکلی لمفردات الاختبار عند مستوى معین من القدرة (Hambleton & Jones, 1994; Jinming, 2012; Joo, Lee & Stark, 2018; Reise & Revicki, 2015)
7- دالة المعلومات للفقرة Item Information Function(IIF):
تمثل هذه الدالة بعلاقة منحنیة بین متغیرین هما مستویات القدرة التی یمثلها المحور الأفقی والمعلومات المقدمة من خلال الفقرة التی یمثلها المحور الرأسی، وتعبر هذه الدالة عن کمیة المعلومات التی تقدمها الفقرة عن مستوى القدرة التی تقیسها (David, 2013; Joo et al., 2018; Nering & Ostini, 2010; Van der Linden, 2016)
8- طرق تقدیر الدرجات Methods of Scoring :
تمثل القاعدة التی یُعطى فی ضوئها قیماً کمیة تعکس الدرجة المستحقة للطالب فی کل فقرة من فقرات الاختبار، وقد اشتملت الدراسة الحالیة على ثلاث طرق لتقدیر درجات فقرات الاختیار من متعدد وهی: الطریقة التقلیدیة، والطریقة التجریبیة، وطریقة الاحتمال المقترح للإجابة الصحیحة(Dimiter, 2016; Lau et al., 2011; Lesage et al., 2013; Ndalichako, & Rogers, 1997; Sočan, 2015; Vanderoost et al., 2018; Zhonghua, 2010) ، على النحو التالی:
أ- الطریقة التقلیدیة Conventional Scoring Method: حیث یطلب من الطالب فی هذه الطریقة أن یختار أحد بدائل فقرة الاختیار من متعدد لتعبر عن إجابة هذه الفقرة، فإذا کان البدیل الذی تم اختیاره صحیحاً فإن درجة الطالب على هذه الفقرة تکون (1) أما إذا کان البدیل الذی تم اختاره خاطئاً فإن درجته ستکون (صفراً).
ب- الطریقة التجریبیة Experimental Method: تختلف إجابة الطالب ودرجته على الفقرة فی هذه الطریقة، بحسب مدى ثقته بمعرفة البدیل الصحیح، فإذا کان الطالب متأکداً من معرفة البدیل الصحیح، فإنه یضع أمامه (1) وکان هذا البدیل هو البدیل الصحیح یحصل الطالب على ثلاث درجات؛ وإذا کان الطالب یشک فی صحة بدیلین فإنه یضع أمام أحدهما (1) وأمام الثانی (2) وکان أحد البدیلین هو البدیل الصحیح یحصل الطالب على درجتین؛ وإذا کان الطالب یشک فی صحة ثلاثة بدائل فإنه یضع أمام أحدهما (1) وأمام الثانی (2) وأمام الثالث (3) وکان أحدهم هو البدیل الصحیح یحصل الطالب على درجة واحدة، ویحصل الطالب على درجة (صفر) إذا لم یقع البدیل الصحیح ضمن البدائل التی اختارها، أو إذا قام الطالب باختیار جمیع بدائل الفقرة.
ج- طریقة الاحتمال المقترح للإجابة الصحیحة Method of Probability Assigned to the Correct Answer: یقوم الطالب فی هذه الطریقة بإعطاء نسب مئویة تعبر عن مدى تقدیره لصحة کل بدیل من بدائل فقرة الاختیار من متعدد، بحیث یکون مجموع هذه النسب مساویا لـ 100٪، ویتم تقدیر درجة المفحوص بأخذ النسبة المئویة التی اقترحها للبدیل الصحیح لتعبر عن درجته على الفقرة.
9- طرق المعادلة Functioning Method:
یقصد بها إجراءات ریاضیة تم تطویرها لتحقیق إجراءات المعادلة وتم تحدید طریقتین من طرق المعادلة (Hambelton & Swaminthan, 1985; Inal & Anil, 2018; Kolen & Brennan, 2014; Zhonghua, 2010) وهما:
أ- طریقة المتوسط/المتوسط : Mean & Mean Method تعتمد هذه الطریقة على حساب متوسط معلمات التمییز والصعوبة لجمیع المفردات المشترکة بین صورتی الاختبار (X&Y)، لتقدیر الثابتین ( , )، ویتم الحصول على التقدیرات للمعالم المطلوبة من خلال استبدال تقدیرات الثابتین فی المعادلات الثلاثة التالیة ، ، .
ب- طریقة المتوسط/الانحراف المعیاری Mean & Sigma Method: تعتمد هذه الطریقة على حساب المتوسط والانحراف المعیاری لمعلمات الصعوبة لجمیع المفردات المشترکة بین صورتی الاختبار (X&Y)، لتقدیر الثوابت ( , ) ، وبعد تحدید ثوابت المعادلة یمکن تحویل تقدیر معالم المفردات على الاختبار X إلى مقیاس واحد هو مقیاس الاختبار Y باستخدام معادلات التحویل الأساسی وهی: .
10- دقة المعادلة: Accuracy of Equation:
هو أسلوب إحصائی یستخدم للتأکد من مدى دقة وصحة عملیة المعادلة باستخدام اختبار الفقرات المشترکة (Harris& Crouse, 1993)، فإذا تمت دقة المعادلة بنجاح فإنه من الممکن مناقشة التغیر الحقیقی عبر صور متکافئة من الاختبارات ومقارنة المفحوصین الخاضعین لتطبیق هذه الاختبارات، ویوجد العدید من المحکات للاستدلال ولتقییم دقة المعادلة لصورتی الاختبار، منها:
أ- التحیز Bias : یمکن استخدام التحیز کمحک لتقییم دقة المعادلة عندما یتم تطبیق صور الاختبار على نفس مجموعة المفحوصین، ویمکن حساب التحیز لدالة المعادلة؛ بطرح نتائج دالة المعادلة الحقیقیة من دالة المعادلة المقدرة وکلما قلت قیمته دل ذلک على دقة المعادلة(Dimiter, 2016; Kellere, 2007; Kolen & Brennan, 2014; Öztürk-Gübes & Kelecioglu, 2016) .
ب- الجذر التربیعی لمتوسط مربعات الأخطاء Root Mean Square Error (RMSE): تبرز أهمیة الجذر التربیعی لمتوسط مربعات الأخطاء لأنه یعکس مقدار التحیز، وکذلک یعکس دقة نتائج المعادلة مقارنة بمعیار المعادلة المستخدم، وکلما قلت قیمة هذا الاحصائی واقترب من الصفر دل ذلک على زیادة دقة المعادلة والعکس صحیح (Albano et al., 2018; Inal & Anil, 2018; Petersen, Kolen & Hoover, 1989; Zhonghua, 2010).
إجراءات الدراسة:
أولاً : عینة الدراسة:
1 - عینة تقنین الأدوات:
تم تقنین الأداة المستخدمة فى الدراسة على عینة من طلاب کلیة التربیة (شعبة التربیة الخاصة، شعبة التربیة الفنیة، شعبة التربیة الریاضیة، شعبة التربیة الأسریة) جامعة أم القرى بمکة المکرمة، قوامها 284 طالباً وطالبة، تتراوح أعمارهم بین (20.6 – 2,21) سنة، بمتوسط عمری قدره 20.9 سنة، وانحراف معیاری قدره 0.25 سنة، وقد روعی أن تتوافر فیها معظم خصائص ومواصفات العینة الأساسیة للدارسة الحالیة.
2 - عینة الدراسة الأساسیة:
تکونت عینة الدراسة الأساسیة من طلاب کلیة التربیة (شعبة التربیة الخاصة، شعبة التربیة الفنیة، شعبة التربیة الریاضیة، شعبة التربیة الأسریة، شعبة ریاض الأطفال) جامعة أم القرى بمکة المکرمة، بلغ عددهم 1400 طالباً وطالبة، منهم (678) طالباً و(722) طالبة، حیث تراوحت أعمارهم (20.4 – 7,21) سنة، بمتوسط عمری قدره 21.05 سنة، وانحراف معیاری قدره 0.46 سنة، ، تم اختیارهم بالطریقة العشوائیة الطبقیة خلال العام الجامعی 2016 / 2017 م.
ثانیاً: أداتا الدراسة:
• الاختبار التحصیلی فی مقرر الاختبارات والمقاییس: ( إعداد : الباحث )
لتحقیق هدف الدراسة والمتمثل فی أثر اختلاف طریقة المعادلة وطرق تقدیر الدرجات وقواعد صیاغة الفقرات على دقة تقدیر معالم الفقرات وقدرات الأفراد فی ضوء القیاس الکلاسیکی والنموذج اللوجستی ثلاثی البارامتر، قام الباحث بتصمیم أداة الدراسة، وعملیة تصمیم الأداة فی المقام الأول تعتمد على القیام بعدة خطوات متسلسلة تؤدی فی النهایة إلى تجنب کثیر من الأخطاء وتتیح إمکانیة إعداد أدة جیدة یُعتمد علیها فی المجال المعنی.
وللکشف عن أثر انتهاک بعض قواعد صیاغة فقرات الاختیار من متعدد على دقة تقدیر معالم الفقرات والأفراد فی ضوء القیاس الکلاسیکی والنموذج اللوجستی الثلاثی البارامتر وللإجابة عن تساؤلات الدراسة وتحقیق أهدافها؛ صمم الباحث أداتا الدراسة (نموذجی اختبار) من نوع الاختیار من متعدد من أربعة بدائل فی مقرر الاختبارات والمقاییس، وذلک فی ضوء دراسة الأدبیات التربویة، ومن خلال الاطلاع على الأطر النظریة والدراسات والبحوث السابقة، وقد اقتضى بناء نموذج الاختبار المحکم ووضعه فی صیغته المعدة للتحکیم الاسترشاد بالأسس العامة المتبعة عند بناء فقرات اختبار الاختیار من متعدد التی أوردها (أحمد عودة، 2014؛ آن أناستازی، سوزانا أوربینا، 2015؛ صلاح الدین محمود علام، 2015؛ (Breakall et al., 2019; Campbell, 2015; Haladyna et al., 2002; Rodriguez & Albano, 2017; Thomas et al., 2002).
[ 1 ]: بناء الاختبار التحصیلی لمقرر الاختبارات والمقاییس (محکم البناء):
تم بناء أداة الدراسة المتمثلة فی الاختبار التحصیلی لمقرر الاختبارات والمقاییس لدى طلاب وطالبات کلیة التربیة، جامعة أم القرى، فی ضوء المنهجیة العلمیة فی بناء الاختبارات، وفی ضوء معاییر بناء اختبارات الاختیار من متعدد، وفقاً للخطوات التالیة:
1- تحدید الغرض من الاختبار: تمثل فی بناء اختبار تحصیلی لقیاس التحصیل الدراسی لدى طلاب وطالبات کلیة التربیة بجامعة أم القرى فی مقرر ( الاختبارات والمقاییس ).
2- تحدید النطاق السلوکی: تمثل فی الموضوعات المدرجة فی توصیف مقرر الاختبارات والمقاییس التابع لقسم علم النفس فی کلیة التربیة بجامعة أم القرى، والتی تمثل النطاق السلوکی المختار.
3- تحلیل المحتوى الدراسی: تم تحلیل محتوى مقرر الاختبارات والمقاییس وفق التوصیف إلى ستة موضوعات رئیسة على النحو التالی:
‌أ- القیاس النفسی: تعریف القیاس النفسی، خصائصه، أنواعه، أدواته، مستویاته، أغراضه فی العملیة التربویة، الأسس العلمیة للقیاس النفسی والتربوی.
‌ب- التقویم التربوی: تعریف التقویم التربوی، خصائصه، أنواعه، أسسه ووظائفه، أدواره ومجالاته فی العملیة التعلیمیة، أسالیب وأدوات التقویم التربوی.
‌ج- الخصائص السیکومتریة: الصدق (مفهومه، طرقه، العوامل المؤثرة فیه)، الثبات (مفهومه، طرقه، العوامل المؤثرة فیه) المعاییر(الدرجة المعیاریة، الدرجة التائیة).
‌د- المقاییس النفسیة: تعریف المقاییس النفسیة، تصنیفها، أغراضها، أسس بناء المقاییس النفسیة، کیفیة تطوریها، ومجالات استخداماتها فی العملیة التعلیمیة.
‌ه- الاختبارات العقلیة: تعریف الاختبارات العقلیة، تصنیفها، أغراضها، أسس بناء الاختبارات العقلیة، کیفیة تطوریها، ومجالات استخداماتها فی العملیة التعلیمیة.
‌و- الاختبارات التحصیلیة: تحلیل المحتوى الدراسی، صیاغة الأهداف السلوکیة وفقاً لتصنیف بلوم، بناء جدول مواصفات الاختبار التحصیلی، بناء الاختبار التحصیلی (بناء الفقرات الاختباریة، إخراج وتطبیق وتصحیح الاختبار التحصیلی، تحلیل نتائج الاختبار التحصیلی على مستوى الفقرات والدرجة الکلیة وتفسیرها، کتابة التقاریر النهائی).
4- اشتقاق مخرجات التعلم: تم اشتقاق مخرجات التعلم بحیث أن یکون الطالب قادراً على أن یفرق بین مصطلحات القیاس والتقییم والتقویم، ویوضح طبیعة العلاقة بینها، یُعرف مصطلح القیاس تعریفاً علمیاً دقیقاً، ومنه یستنتج عناصر عملیة القیاس، یذکر أغراض القیاس فی العملیة التربویة، یتعرف على الأسس العلمیة للقیاس النفسی والتربوی، یمیز بین أنواع القیاس، یفرق بین مستویات القیاس فی ضوء ما تعکسه الدرجات من خصائص الدرجة الحقیقیة فی کل مستوى، یحدد المفهوم العلمی لمصطلح التقویم التربوی، یستنتج المکونات الأربعة الأساسیة للتعریف الشامل للتقویم التربوی، یستنتج أدوار ومجالات ووظائف وأدوات التقویم التربوی من خلال منظومة التدریس، یخطط لبناء اختبار تحصیلی وفقاً للأسس العلمیة لبناء الاختبارات التحصیلیة، یحلل محتوى المقرر الدراسی إلى مکوناته الأساسیة من المعارف والخبرات، یفرق بین مجالات الأهداف التربویة، یصیغ الأهداف السلوکیة مسترشداً بتصنیف بلوم لمستویات المجال المعرفی، مراعیاً مکونات الهدف السلوکی الجید، یختار نوع الفقرات الاختباریة المناسبة لقیاس مدى تحقق الهدف السلوکی، یصیغ الفقرات الاختباریة بأنواعها مراعیاً معاییر الصیاغة الجیدة لکل نوع، یصمم جدول مواصفات الاختبار التحصیلی یدویاً وباستخدام برنامج جدول المواصفات الحاسوبی، ویوظفه فی اختیار عینة فقرات الاختبار بحیث تکون ممثلة للاختبار، یخرج الورقة الاختباریة بصورة ملائمة وفقاً للمعاییر المحددة لذلک.
5- صیاغة الأهداف السلوکیة: تم صیاغة الأهداف السلوکیة التی تشمل جمیع موضوعات مقرر الاختبارات والمقاییس فی ضوء أدبیات وشروط صیاغة الأهداف السلوکیة وتصنیفها؛ حیث تم صیاغة هدف سلوکی أو أکثر لکل موضوع من الموضوعات، مع تحدید مستوى کل هدف سلوکی بصورة تسمح لقیاسه بفقرات الاختیار من متعدد؛ حیث تم کتابته على المستویات المعرفیة لتصنیف بلوم (التذکر، الفهم، التطبیق، التحلیل، الترکیب، التقویم) بعد تحلیل محتوى المقرر، وقد بلغ عدد الأهداف الاجمالیة للمحتوى (140) هدفاً، تم عرضها على عشرة محکمین من المتخصصین فی القیاس والتقویم (ملحق، 3)، من أجل التحقق من مدى وضوحها، وسلامة صیاغتها اللغویة، وعدم تکرارها، ومدى ملائمتها لهدف الدراسة، ومناسبتها للمحتوى المعرفی المستهدف، وبناءً على ذلک تم إجراء التعدیلات المتعلقة بالصیاغة فی (7) أهداف، وتم حذف (5) أهداف، وقد بلغ عدد الأهداف فی صورتها النهائیة (135) هدفاً موزعة على النحو التالی: (35) هدف تذکر، (30) هدف فهم، (25) هدف تطبیق، (20) هدف تحلیل، (15) هدف ترکیب، (10) هدف تقویم.
6- بناء جدول المواصفات: قام الباحث ببناء جدول مواصفات للاختبار التحصیلی لمقرر الاختبارات والمقاییس فی ضوء الوزن النسبی للزمن المستغرق فی تدریس کل موضوع، وکذلک فی ضوء الوزن النسبی للأهداف فی کل مستوى؛ حیث تم ربط الأهداف السلوکیة بالمحتوی الدراسی، وذلک من خلال تقدیر أوزان تتناسب مع کل من المحتوى الدراسی، والأهداف السلوکیة؛ ولأن الاختبار التحصیلی للمقرر تم تحدید حجمه بستین فقرة وهو ما یتناسب مع الوقت المخصص للاختبار، لذا تم بناء جدول المواصفات والذی أُستخدم لانتقاء فقرات الاختبار، وجدول (1) التالی یوضح جدول مواصفات الاختبار التحصیلی لمقرر الاختبارات والمقاییس.
جدول (1)
جدول مواصفات الاختبار التحصیلی لمقرر الاختبارات والمقاییس
الموضوعات عدد المحاضرات مستویات الأهداف السلوکیة عدد الفقرات الأوزان
النسبیة للموضوعات
التذکر (35) الفهم
(30) التطبیق (25) التحلیل
(20) الترکیب
(15) التقویم
(10)
القیاس النفسی 2 2 2 1 1 1 1 8 12.5٪
التقویم التربوی 2 2 2 2 1 1 - 8 12.5٪
الخصائص السیکومتریة 3 3 3 2 2 1 - 11 18.8٪
المقاییس النفسیة 3 3 2 2 2 1 1 11 18.8٪
الاختبارات العقلیة 3 3 2 2 1 2 1 11 18.8٪
الاختبارات التحصیلیة 3 3 2 2 2 1 1 11 18.8٪
المجموع 16 16 13 11 9 7 4 60 100٪
الأوزان
النسبیة للأهداف 25.9٪ 22.2٪ 18.5٪ 14.8٪ 11.1٪ 7.4٪ 100٪
7- کتابة الفقرات الاختباریة: تم بناء فقرات الاختبار التحصیلی بکتابة الفقرات الاختباریة والتی تتناغم مع الأهداف السلوکیة للمقرر والمخرجات السابقة وتحققها فی ضوء قواعد وتعلیمات کتابة الفقرات الاختباریة بوجه عام وفقرات الاختیار من متعدد بوجه خاص؛ حیث تم دراسة کل هدف سلوکی على حدة، وصیاغة أفضل الفقرات التی تقیس ذلک الهدف، بأنماط استجابة مختلفة من نوع الاختیار من متعدد رباعی البدائل، وذلک لکل هدف سلوکی تمت صیاغته فی الخطوة السابقة؛ بحیث یتناغم مع الهدف السلوکی والمستوى العقلی المعرفی له، وقد حرص الباحث فی بناء الفقرات على مراعاة الخصائص والشروط الواجب توافرها فی نمط الاختیار من متعدد، وذلک لقیاس کل هدف من الاهداف السلوکیة التی تم صیاغتها، وقد بلغ عدد الفقرات (60) فقرة، موزعة حسب الأهمیة النسبیة للموضوعات الواردة فی جدول المواصفات السابق ذکره.
8- التحقق من صدق المحتوى: تم التحقق من صدق محتوى الاختبار التحصیلی لمقرر الاختبارات والمقاییس، والمکون من (60) فقرة من خلال عرضه مرفقاً معه الأهداف السلوکیة وجدول مواصفات الاختبار على عشرة محکمین من المتخصصین فی القیاس والتقویم ( ملحق، 3) وذلک بغرض الحکم على مدى ارتباط الأهداف السلوکیة بالأهداف العامة للمقرر، ومدى تمثیلها للمجال السلوکی الذی یقیسه الاختبار، إضافة إلى مدى قیاس الفقرات للأهداف السلوکیة المرتبطة بها، والمستوى العقلی المعرفی لها، وأخیراً الحکم على مدى جودة صیاغة فقرات الاختبار وتحقیقها لمواصفات الفقرات الجیدة، مع إمکانیة حذف أو دمج أو إضافة فقرات بما یرونه مناسباً، وبناء على ملاحظات المحکمین تم حذف (4) فقرات اختیاریة، وبذلک تکون الاختبار فی صورته النهائیة من (56) فقرة أجمع المحکمین على أنها عینة کافیة وممثلة للمجال السلوکی الذی یقیسه الاختبار.
9- الدراسة الاستطلاعیة (إجراءات التطبیق الأولى): تم تطبیق الاختبار بصورته الأولیة على العینة الاستطلاعیة المکونة من (284) طالباً وطالبة، للتجریب الأولی للاختبار بغرض التعرف على الزمن المناسب للتطبیق، والتأکد من وضوح التعلیمات والصیاغة اللغویة للفقرات، وملائمة بدائل کل فقرة، والتعرف على الصعوبات التی یمکن أن تواجه الطلاب أثناء الإجابة على فقرات الاختبار، ولم یکشف التجریب الأولی للاختبار عن أیة ملاحظات ذات أهمیة فیما یتعلق بوضوح الفقرات، کما لم تظهر أی صعوبات عند تطبیق الاختبار، وقد انتهى جمیع الطلاب من الإجابة عن فقرات الاختبار خلال ساعة ونصف مما یدل على أنه الوقت المناسب للإجابة عن فقرات الاختبار فی صورته النهائیة، کما تم استخدام عینة الدراسة الاستطلاعیة فی التحقق من الخصائص السیکومتریة للفقرات، ومن ثم تحلیل مفردات الاختبار واستخراج معاملات الصعوبة والتمییز من منظور النظریة الکلاسیکیة فی القیاس.
10- الدراسة الأساسیة (الصورة النهائیة للاختبار): بعد إعداد فقرات الاختبار فی صورته النهائیة تم توفیر نسخ الاختبار اللازمة للتطبیق على أفراد العینة، کما تم توفیر عدد کافی من نماذج ورق الإجابة الإلکترونیة التی تصحح بآلات التصحیح، وأقلام الرصاص، وطبق الاختبار (بنماذجه الأربعة) على عینة الدراسة التی تکونت من (1500) طالباً وطالبة من الطلاب عینة الدراسة الأساسیة، وذلک فی نهایة الفصل الدراسی الأول من العام الجامعی 2017/2018م، وبعد الانتهاء من التطبیق تم تصحیح أوراق الإجابة باستخدام آلة التصحیح والحصول على ملف الکترونی للبیانات، والذی تم معالجته ببرامج التحلیل الإحصائی المناسبة لنوعی القیاس الکلاسیکی والموضوعی للحصول على النتائج اللازمة للإجابة عن تساؤلات الدراسة.
• الخصائص السیکومتریة للاختبار التحصیلی لمقرر الاختبارات والمقاییس (محکم البناء):
• صدق الاختبار:
لفحص مدى تمتع الاختبار التحصیلی لمقرر الاختبارات والمقاییس بدلالات صدق کافیة قام الباحث بإجراء طرق الصدق التالیة:
1- صدق المحتوى (صدق المحکمین): تم التحقق من صدق المحتوى للاختبار من خلال عرض فقرات الاختبار، والأهداف السلوکیة التی تقیسها، وجدول مواصفات الاختبار على عشرة محکمین من المتخصصین فی مجال القیاس والتقویم ( ملحق، 3)، وقد أجمع المحکمین على کفایة وتمثیل فقرات الاختبار للمجال السلوکی الذی یقیسه الاختبار، کما أجمع المحکمین على جودة (50) فقرة من فقرات الاختبار؛ حیث کانت نسبة اتفاقهم (100٪)، و(6) فقرات کان بینهم اختلاف یسیر فی جودتها حیث کانت نسبة اتفاقهم (90٪)، کما بلغت قیمة معامل کابا Kappa لاتفاق المحکمین (0.97)، وهی قیمة دالة عند مستوى دلالة (0.01)، وتدل على اتساق المحکمین فی حکمهم على جودة فقرات الاختبار التحصیلی لمقرر الاختبارات والمقاییس وکفایتها.
2- الاتساق الداخلی (صدق التکوین الفرضی): تم إیجاد الاتساق الداخلی للاختبار کمؤشر من مؤشرات صدق التکوین الفرضی وذلک من خلال حساب معامل الارتباط ثنائی التسلسل الحقیقی المصحح Point Biserial Correlation Coefficient (PTBIS) بین درجات الطلاب على کل فقرة من فقرات الاختبار والدرجة الکلیة للاختبار بعد حذف درجة الفقرة من الدرجة الکلیة للاختبار، کما هو موضح فی جدول (2) التالی.
جدول (2)
قیم معاملات الارتباط ثنائی التسلسل الحقیقی المصحح بین کل فقرة
والدرجة الکلیة للاختبار المحکم البناء
الفقرة PTBIS الفقرة PTBIS الفقرة PTBIS الفقرة PTBIS
1 0.84 15 0.89 29 0.84 43 0.93
2 0.92 16 0.85 30 0.88 44 0.90
3 0.92 17 0.84 31 0.94 45 0.91
4 0.95 18 0.91 32 0.96 46 0.86
5 0.85 19 0.94 33 0.93 47 0.94
6 0.83 20 0.88 34 0.85 48 0.88
7 0.92 21 0.95 35 0.83 49 0.84
8 0.90 22 0.90 36 0.92 50 0.90
9 0.90 23 0.92 37 0.96 51 0.87
10 0.89 24 0.86 38 0.85 52 0.95
11 0.86 25 0.90 39 0.94 53 0.93
12 0.95 26 0.87 40 0.90 54 0.89
13 0.89 27 0.93 41 0.97 55 0.85
14 0.94 28 0.95 42 0.91 56 0.88
PTBIS: معامل الارتباط ثنائی التسلسل الحقیقی المصحح
یتضح من جدول (2) السابق أن قیم معاملات الارتباط ثنائی التسلسل الحقیقی المصحح قد تراوحت بین (0.83-0.97) بمتوسط حسابی (0.899) وانحراف معیاری (0.039) وهی قیم مرتفعة دالة عند مستوى دلالة (0.01)، تدل على قوة ارتباط درجة الفقرات بالدرجة الکلیة للاختبار، وبالتالی الاتساق الداخلی للاختبار.
• معاملات الصعوبة والتمییز:
1- معاملات الصعوبة:
تم حساب معامل الصعوبة Item-Difficulty Index کلاسیکیاً بحساب النسبة المئویة من الطلاب الذین أجابوا عن الفقرة إجابة صحیحة، ویشیر (Cappelleri et al., 2014; Hambleton & Swaminathan, 1985; Eleje et al., 2018) إلى أن أفضل درجة صعوبة للفقرة تلک التی تعطی أکبر تباین عندما تکون صعوبة الفقرة تقارب (0.5)، وأی فقرة ضمن توزیع لدرجات الصعوبة یتراوح بین (0.3 – 0.7) بمتوسط حسابی قدره (0.5) تعتبر ملائمة لجودة بناء الاختبار، ولقد تراوحت قیم معاملات صعوبة الفقرات، وفقًا لإجابات الطلاب على نموذج الاختبار المحکم البناء بین (0.21-0.66) بمتوسط حسابی (0.447) وانحراف معیاری (0.097)، وقد حصلت الفقرة (14) على أعلى معامل صعوبة، بینما حصلت الفقرة (35) على أدنى معامل صعوبة، وقد تم حذف ثلاث فقرات هی (26، 35، 52)، وذلک نظراً لتدنى معاملات الصعوبة الخاصة بکل فقرة منها فی ضوء المعاییر السابقة لمعاملات الصعوبة، حیث کانت معاملات الصعوبة لهذه الفقرات (0.22، 0.21، 0.23) على الترتیب.
2- معاملات التمییز:
تم حساب معامل التمییز Item- Discrimination Index کلاسیکیاً (اعتماداً على طریقة المقارنة الطرفیة)، وفی ضوء المعیار الذی وضعه Ebel & Frisbie, (1991) فی اختیار معامل التمییز المقبول لمفردات الاختبار، حیث أشار إلى أن أیة فقرة قیمة معامل تمیزها سالب أو أقل من (0.2) تحذف ولا داعی للاحتفاظ بها، وأیة فقرة ذات قدرة تمییزیة أکبر من أو تساوی (0.2) وأقل من (0.4) تعتبر ذات تمییز مقبول وینصح بتحسینها، أما الفقرات ذات التمییز یساوى (0.4) فأکثر فتعتبر ذات تمییز جید ویمکن الاحتفاظ بها، ولقد تراوحت قیم معاملات تمییز الفقرات وفقًا لإجابات الطلاب على نموذج الاختبار المحکم البناء تراوحت ما بین (0.13-0.71) وبمتوسط حسابی (0.482) وانحراف معیاری (0.123) ، وقد حصلت الفقرة (49) على أعلى معامل تمییز، بینما حصلت الفقرة (20) على أدنى معامل تمییز، وقد تم حذف ثلاث فقرات هی (20، 31، 42)، وذلک نظراً لتدنى معاملات التمییز بکل فقرة منها فی ضوء المعاییر السابقة لمعاملات التمییز، حیث کانت معاملات التمییز لهذه الفقرات (0.13، 0.18، 0.15) على الترتیب، وعلیه أصبح الاختبار المحکم البناء فی صورته النهائیة مکون من (50) فقرة یمکن الوثوق بها من أجل التطبیق النهائی على عینة الدراسة.
• ثبات الاختبار:
تم حساب ثبات الاختبار التحصیلی لمقرر الاختبارات والمقاییس (المحکم البناء) بتطبیقه على العینة الاستطلاعیة، وذلک باستخدام طریقة التجزئة النصفیة باستخدام کل من معادلة "سبیرمان – براون"، معادلة "جتمان" ، وطریقة تحلیل التباین باستخدام معادلة " کیودر- ریتشاردسون"، حیث کانت قیم معاملات الثبات (0.87، 0.85 ، 0.83) على الترتیب، وجمیعها دالة عند مستوى دلالة 0.01، وهى قیم مرتفعة مما یعطی مؤشراً جیداً على ثبات الاختبار.
[2]:بناء الاختبار التحصیلی لمقرر الاختبارات والمقاییس (المخالف لقواعد صیاغة الفقرات):
بعد إعداد الاختبار المحکم البناء تم إعداد نموذج الاختبار المخالف لقواعد الصیاغة عن طریق إدخال المخالفات الخمسة على بدائل الاختبار المحکم، وهذه المخالفات وهی: اختلاف طول البدائل الصحیحة، البدائل غیر المعقولة منطقیاً (ظاهریاً)، وضع البدائل بشکل أفقی ولیس عمودی، وجود البدیل "جمیع ما ذکر" کإجابة صحیحة، وجود البدیل "لا شیء مما ذکر" کإجابة صحیحة.
ولقد تم توزیع تلک المخالفات بشکل عشوائی على فقرات نموذج الاختبار المخالف لقواعد الصیاغة على النحو التالی:
- اختلاف طول البدائل الصحیحة: وتمثلها أرقام الفقرات ( 1 ، 6 ، 11 ، 16 ، 21 ، 26 ، 31 ، 36 ، 41 ، 46 ).
- البدائل غیر المعقولة منطقیاً (ظاهریاً): وتمثلها أرقام الفقرات ( 2 ، 7 ، 12 ، 17 ، 22 ، 27 ، 32 ، 37 ، 42 ، 47 ).
- وضع البدائل بشکل عمودی ولیس أفقی: وتمثلها أرقام الفقرات ( 3 ، 8 ، 13 ، 18 ، 23 ، 28 ، 33 ، 38 ، 43 ، 48 ).
- وجود البدیل " جمیع ما ذکر" کإجابة صحیحة: وتمثلها أرقام الفقرات ( 4 ، 9 ، 14 ، 19 ، 24 ، 29 ، 34 ، 39 ، 44 ، 49 ).
- وجود البدیل "لا شیء مما ذکر" کإجابة صحیحة: وتمثلها أرقام الفقرات ( 5 ، 10 ، 15 ، 20 ، 25 ، 30 ، 35 ، 40 ، 45 ، 50 ).
• الخصائص السیکومتریة للاختبار التحصیلی لمقرر الاختبارات والمقاییس (المخالف لقواعد صیاغة الفقرات):
• صدق الاختبار:
لفحص مدى تمتع الاختبار التحصیلی لمقرر الاختبارات والمقاییس بدلالات صدق کافیة قام الباحث بإجراء طرق الصدق التالیة:
1- صدق المحتوى (صدق المحکمین): تم التحقق من صدق المحتوى للاختبار من خلال عرض فقرات الاختبار، والأهداف السلوکیة التی تقیسها، وجدول مواصفات الاختبار على عشرة محکمین من المتخصصین فی القیاس والتقویم ( ملحق، 3)، وقد أجمع المحکمین على کفایة وتمثیل فقرات الاختبار للمجال السلوکی الذی یقیسه الاختبار، کما أجمع المحکمین على جودة فقرات الاختبار حیث کانت نسبة اتفاقهم (100٪) ، وهذه النسبة تدل على جودة فقرات الاختبار التحصیلی لمقرر الاختبارات والمقاییس وکفایتها.
2- الاتساق الداخلی (صدق التکوین الفرضی): تم إیجاد الاتساق الداخلی للاختبار کمؤشر من مؤشرات صدق التکوین الفرضی وذلک من خلال حساب معامل الارتباط ثنائی التسلسل الحقیقی المصحح (PTBIS) بین درجات الطلاب على کل فقرة من فقرات الاختبار التحصیلی لمقرر الاختبارات والمقاییس والدرجة الکلیة للاختبار بعد حذف درجة الفقرة من الدرجة الکلیة للاختبار، ولقد تراوحت قیم معاملات الارتباط ثنائی التسلسل الحقیقی المصحح بین (0.81 - 0.95) بمتوسط حسابی (0.894) وانحراف معیاری (0.037) وهی قیم مرتفعة دالة عند مستوى دلالة (0.01)، تدل على لاتساق الداخلی للاختبار.
• معاملات الصعوبة والتمییز:
1- معاملات الصعوبة:
تم حساب معامل الصعوبة کلاسیکیاً بحساب نسبة الطلاب الذین أجابوا بشکل صحیح عن الفقرة إلى العدد الکلی للطلاب الذین أجابوا بالفعل عن تلک الفقرة، ولقد تراوحت قیم معاملات صعوبة الفقرات لنموذج الاختبار المخالف لقواعد الصیاغة ما بین (0.30- 0.59) وبمتوسط حسابی (0.385) وانحراف معیاری (0.069) ، وقد حصلت الفقرة (9) على أعلى معامل صعوبة، بینما حصلت الفقرة (45) على أدنى معامل صعوبة.
2- معاملات التمییز:
تم حساب معامل التمییز کلاسیکیاً (اعتماداً على طریقة المقارنة الطرفیة)، ولقد تراوحت قیم معاملات تمییز الفقرات لنموذج الاختبار المخالف لقواعد الصیاغة ما بین (0.25-0.61) بمتوسط حسابی (0.425) وانحراف معیاری (0.858)، وقد حصلت الفقرة (18) على أعلى معامل تمییز، بینما حصلت الفقرة (43) على أدنى معامل تمییز.
• ثبات الاختبار:
تم حساب ثبات الاختبار التحصیلی لمقرر الاختبارات والمقاییس (المخالف لقواعد صیاغة الفقرات) بتطبیقه على العینة الاستطلاعیة، وذلک باستخدام طریقة التجزئة النصفیة باستخدام کل من معادلة "سبیرمان – براون"، معادلة "جتمان" ، وطریقة تحلیل التباین باستخدام معامل کیودر- ریتشاردسون، حیث کانت قیم معاملات الثبات ( 0.80، 0.78 ، 0.74 ) على الترتیب، وجمیعها دالة عند مستوى دلالة 0.01 ، وهى قیم مرتفعة مما یعطی مؤشراً جیداً على ثبات الاختبار.
[3]: طرق تقدیر الدرجات للاختبار التحصیلی لمقرر الاختبارات والمقاییس المحکم البناء:
بعد إعداد الاختبار التحصیلی لمقرر الاختبارات والمقاییس المحکم البناء تم إخراج ثلاث نماذج منه تختلف فقط فی تعلیمات الإجابة علی کل نموذج، وهذه النماذج بحسب طریقة تقدیر الدرجات المستخدمة: (نموذج الطریقة التقلیدیة، نموذج الطریقة التجریبیة، نموذج طریقة الاحتمال المقترح للإجابة الصحیحة)، وکانت تعلیمات الإجابة على فقرات هذه النماذج على النحو التالی:
1- نموذج الطریقة التقلیدیة: وتمثلها إجابات الطلاب على النموذج المحکم البناء، حیث یطلب من الطالب فی هذه الطریقة أن یختار أحد بدائل فقرة الاختیار من متعدد لتعبر عن إجابة هذه الفقرة، فإذا کان البدیل الذی تم اختیاره صحیحاً فإن درجة الطالب على هذه الفقرة تکون (1) أما إذا کان البدیل الذی تم اختاره خاطئاً فإن درجته ستکون (صفراً).
2- نموذج الطریقة التجریبیة: فی هذه الطریقة تختلف إجابة الطالب ودرجته على الفقرة، بحسب مدى ثقته بمعرفة البدیل الصحیح، فإذا کان الطالب متأکداً من معرفة البدیل الصحیح، فإنه یضع أمامه (1) وکان هذا البدیل هو البدیل الصحیح یحصل الطالب على ثلاث درجات، وإذا کان الطالب یشک فی صحة بدیلین فإنه یضع أمام أحدهما (1) وأمام الثانی (2) وکان أحد البدیلین هو البدیل الصحیح یحصل الطالب على درجتین، وإذا کان الطالب یشک فی صحة ثلاث بدائل فإنه یضع أمام أحدهما (1) وأمام الثانی (2) وأمام الثالث (3) وکان أحدهم هو البدیل الصحیح یحصل الطالب على درجة واحدة، ویحصل الطالب على درجة (صفر) إذا لم یقع البدیل الصحیح ضمن البدائل التی اختارها، أو إذا قام الطالب باختیار جمیع بدائل الفقرة.
3- نموذج طریقة الاحتمال المقترح للإجابة الصحیحة: فی هذه الطریقة یقوم الطالب بإعطاء نسب مئویة تعبر عن مدى تقدیره لصحة کل بدیل من بدائل فقرة الاختیار من متعدد، بحیث یکون مجموع هذه النسب مساویا لـ 100 ٪، ویتم تقدیر درجة المفحوص بأخذ النسبة المئویة التی اقترحها للبدیل الصحیح لتعبر عن درجته على الفقرة.
وحیث أن نموذج الطریقة التقلیدیة یمثل نموذج الاختبار المحکم البناء الذی تم التحقق منه مسبقاً، لذا سوف یتم التحقق من الخصائص السیکومتریة للاختبار التحصیلی وفقاً لطریقتی تقدیر الدرجات (الطریقة التجریبیة، طریقة الاحتمال المقترح للإجابة الصحیحة) على النحو التالی:
• الخصائص السیکومتریة للاختبار التحصیلی لمقرر الاختبارات والمقاییس وفقاً لطریقتی تقدیر الدرجات(التجریبیة ، الاحتمال المقترح للإجابة الصحیحة):
• صدق الاختبار:
لفحص مدى تمتع الاختبار التحصیلی لمقرر الاختبارات والمقاییس وفقاً لطریقتی تقدیر الدرجات (التجریبیة، الاحتمال المقترح للإجابة الصحیحة) بدلالات صدق کافیة قام الباحث بإجراء طرق الصدق التالیة:
1- صدق المحتوى (صدق المحکمین): تم التحقق من صدق المحتوى للاختبار من خلال عرض فقرات الاختبار وفقاً لطریقتی تقدیر الدرجات (التجریبیة، الاحتمال المقترح للإجابة الصحیحة)، والأهداف السلوکیة التی تقیسها، وجدول مواصفات الاختبار على عشرة محکمین من المتخصصین فی القیاس والتقویم ( ملحق، 3)، وقد أجمع المحکمین على کفایة وتمثیل فقرات الاختبار للمجال السلوکی الذی یقیسه الاختبار، کما أجمع المحکمین على جودة فقرات الاختبار حیث کانت نسبة اتفاقهم (100٪) ، وهذه النسبة تدل على جودة فقرات الاختبار التحصیلی لمقرر الاختبارات والمقاییس وکفایتها.
2- الاتساق الداخلی (صدق التکوین الفرضی): تم إیجاد الاتساق الداخلی للاختبار وفقاً لطریقتی تقدیر الدرجات (التجریبیة، الاحتمال المقترح للإجابة الصحیحة) کمؤشر من مؤشرات صدق التکوین الفرضی وذلک من خلال حساب معامل الارتباط ثنائی التسلسل الحقیقی المصحح (PTBIS) بین درجات الطلاب على کل فقرة من فقرات الاختبار والدرجة الکلیة للاختبار بعد حذف درجة الفقرة من الدرجة الکلیة للاختبار للعینة الاستطلاعیة.
جدول (3)
قیم معاملات الارتباط ثنائی التسلسل الحقیقی المصحح بین کل فقرة والدرجة الکلیة للاختبار وفقاً لطریقتی تقدیر الدرجات(التجریبیة،الاحتمال المقترح للإجابة الصحیحة) للعینة الاستطلاعیة
طریقة تقدیر الدرجات عدد الفقرات أدنى قیمة
لمعامل الارتباط أعلى قیمة
لمعامل الارتباط المتوسط الانحراف المعیاری
الطریقة التجریبیة 50 0.81 0.96 0.896 0.040
طریقة الاحتمال المقترح للإجابة الصحیحة 50 0.79 0.95 0.891 0.044
یتضح من جدول (3) السابق أن قیم معاملات الارتباط ثنائی التسلسل الحقیقی المصحح قد تراوحت بین (0.81 - 0.96) بمتوسط حسابی (0.896) وانحراف معیاری (0.040) للطریقة التجریبیة، وأن قیم معاملات الارتباط ثنائی التسلسل الحقیقی المصحح قد تراوحت بین (0.79 - 0.95) بمتوسط حسابی (0.891) وانحراف معیاری (0.044) لطریقة الاحتمال المقترح للإجابة الصحیحة; وهی قیم مرتفعة ودالة إحصائیاً عند مستوى دلالة (0.01)، تدل على قوة ارتباط درجة الفقرات بالدرجة الکلیة للاختبار، وبالتالی الاتساق الداخلی لفقرات الاختبار.
• معاملات الصعوبة والتمییز:
1- معاملات الصعوبة:
تم حساب معامل الصعوبة کلاسیکیاً بحساب النسبة المئویة من الطلاب الذین أجابوا بالفعل عن الفقرة إجابة صحیحة، ولقد تراوحت قیم معاملات صعوبة الفقرات وفقاً لطریقتی تقدیر الدرجات (التجریبیة، الاحتمال المقترح للإجابة الصحیحة) کانت مناسبة فی ضوء المعاییر السابقة لمعاملات الصعوبة، حیث تراوحت ما بین (0.31-0.66) بمتوسط (0.456)، وانحراف معیاری (0.091) للطریقة التجریبیة، کما أن قیم معاملات الصعوبة قد تراوحت ما بین (0.32-0.61) بمتوسط (0.452)، وانحراف معیاری (0.077) لطریقة الاحتمال المقترح للإجابة الصحیحة; وهذه القیم قریبة من القیمة المثالیة للصعوبة (0.5) والتی تجعل تباین الفقرة یصل إلى أقصى ما یمکن.
2- معاملات التمییز:
تم حساب معامل التمییز کلاسیکیاً (اعتماداً على طریقة المقارنة الطرفیة)، ولقد تراوحت قیم معاملات تمییز الفقرات وفقاً لطریقتی تقدیر الدرجات (التجریبیة، الاحتمال المقترح للإجابة الصحیحة) کانت مناسبة فی ضوء المعاییر السابقة لمعاملات التمییز، حیث تراوحت قیم معاملات تمییز ما بین (0.34-0.66) بمتوسط حسابی ( 0.481)، وانحراف معیاری (0.099) للطریقة التجریبیة، کما أن قیم معاملات التمییز قد تراوحت ما بین (0.33-0.63) بمتوسط حسابی (0.477)، وانحراف معیاری (0.094) لطریقة الاحتمال المقترح للإجابة الصحیحة; وأن معظم القیم قریبة من القیمة (0.4)، مما یدل على أن فقرات الاختبار جیدة جداً وفقا لنفس المعیار.
• ثبات الاختبار:
تم حساب ثبات الاختبار التحصیلی لمقرر الاختبارات والمقاییس وفقاً لطریقتی تقدیر الدرجات (التجریبیة، الاحتمال المقترح للإجابة الصحیحة) للعینة الاستطلاعیة، وذلک باستخدام طریقة التجزئة النصفیة باستخدام کل من معادلة "سبیرمان – براون"، معادلة "جتمان" ، وطریقة تحلیل التباین باستخدام معامل "ألفا– کرونباخ"، ولقد تراوحت قیم معاملات الثبات ما بین (0.78-0.87) للطریقة التجریبیة، کما أن قیم معاملات الثبات قد تراوحت ما بین (0.79-0.88) لطریقة الاحتمال المقترح للإجابة الصحیحة; وجمیعها دالة عند مستوى دلالة 0.01 ، وهى قیم مرتفعة مما یعطی مؤشراً جیداً على ثبات الاختبار.
ثالثاً المعالجة الإحصائیة:
تم استخدام الأسالیب الإحصائیة الآتیة فى معالجة النتائج التی تم الحصول علیها بعد تطبیق أداة الدراسة على عینة الدراسة الأساسیة وهى: (المتوسطات الحسابیة، الانحرافات المعیاریة، الخطأ المعیاری، معامل الارتباط ثنائی التسلسل الحقیقی، معاملات الصعوبة والتمییز والتخمین، اختبار " ت " ، التحلیل العاملی) ، وقد تم استخدام جمیع الأسالیب الإحصائیة من خلال حزمة البرامج الإحصائیة الاجتماعیة برنامج SPSS(22) , کما تم استخدام برنامج التحلیل الإحصائی XCalibre 4.1.7 فی حساب (صعوبة وتمییز وتخمین فقرات الاختبار، دالة معلومات الاختبار ککل والفقرات الاختباریة، وتقدیر قدرات الأفراد).
رابعاً: منهج الدراسة: تتبع الدراسة الحالیة المنهج الوصفی المقارن.
نتائج الدراسة وتفسیرها:
[ 1 ] - نتائج التساؤل الأول وتفسیرها:
والذی ینص على أنه " هل تتحقق افتراضات نظریة الاستجابة للمفردة الاختباریة على استجابات أفراد عینة الدراسة على نموذجی الاختبار(المحکم ، المخالف) لقواعد صیاغة الفقرات؟"
وللإجابة عن التساؤل السابق تم التحقق من افتراضات نظریة الاستجابة للمفردة والمتمثلة فی أحادیة البعد، والاستقلال الموضعی، والتحرر من السرعة، وذلک على النحو التالی:
أ‌- التحقق من افتراض أحادیة البعد:
للتحقق من افتراض أحادیة البعد تم إجراء التحلیل العاملی على إجابات أفراد عینة الدراسة عن فقرات نموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات وذلک لمعرفة عدد العوامل التی یزید قیم الجذر الکامن لها عن الواحد الصحیح باستخدام برنامج SPSS(22) على النحو التالی:
أولاً: التحقق من شروط إجراء التحلیل العاملی: تم التحقق من مدى ملاءمة بیانات عینة الدراسة لإجراء التحلیل العاملی علیها على النحو التالی:
1- التحقق من مدى کفایة حجم العینة لإجراء التحلیل العاملی: ویتم ذلک عن طریق استخدام اختبار کایزر – مایر – أولکن Kaiser –Meyer – Olkin (KMO) والذی یجب أن لا یقل عن (0.5) حسب محک کیزر.
2- التحقق من تجانس العینة واختبار فرضیة عدم تماثل مصفوفة الارتباط الأصلیة: ویتم ذلک عن طریق دلالة قیمة مربع کاى (c2) لاختبار بارتلیت Bartlett's Test of Sphericity، بمعنی أن تکون مصفوفة معاملات الارتباط لیست على صورة مصفوفة الوحدة.
3- أن تکون القیمة المطلقة لمحدد مصفوفة معاملات الارتباط أکبر من 0.00001 ، وهذا یدل علی وجود اعتماد خطی Linear Dependency یحجب المساهمة الخاصة لکل متغیر فی تحدید عدد العوامل.
4- أن تکون قیم توافق العینة من خلال أزواج المتغیرات الثنائیة والتی یتم الحصول علیها من اختبار کایزر (MSA) مقبولة أکبر من 0.5.
حیث أتضح تحقق شروط استخدام التحلیل العاملی فی بیانات هذه الدراسة; حیث کانت قیمة (c2) ( 10290.85 للاختبار المحکم، 9127.98 للاختبار المخالف) بدرجات حریة 1225 دالة مما یعنی أن المصفوفة غیر متماثلة وأن هناک علاقة بین المتغیرات وهذا یشیر إلى تحقق شرط تجانس العینة ومناسبة البیانات لمتابعة إجراء التحلیل العاملی، وکانت قیمة اختبار (KMO) (0.954 للاختبار المحکم، 0.945 للاختبار المخالف) دالة حیث أنها أکبر من 0.5، أی أن حجم عینة الدراسة کان کافیاً ومناسباً بإجراء التحلیل العاملی، وأن القیمة المطلقة لمحدد مصفوفة الارتباط کانت (0.002) أکبر من 0.00001 ، وهی قیمة لا تساوی الصفر ومن ثم لا تکون المصفوفة من النوع المفرد، کما اتضح ملائمة المعاینة (MSA) والموجودة فی قطر مصفوفة معاملات الارتباط الصوریة، حیث کانت جمیع القیم الحرجة لکل فقرة أکبر من 0.5، بالتالی یمکن اکمال التحلیل والوثوق بدرجة کبیرة فی نتائجة.
ثانیاً: إجراء التحلیل العاملی لبیانات نموذجی الاختبار:
تم إجراء التحلیل العاملیFactorial Analysis ، باستخدام طریقة " المکونات الأساسیة " Principal Component Analysis (PCA) التی اقترحها هوتلنجHottelling وهى من أفضل طرق التحلیل العاملی من حیث الدقة ویستخلص فیها کل عامل أقصى تباین ممکن، کما تم إجراء التدویر المتعامد للمحاور (العوامل) باستخدام طریقة " الفاریماکس " Varimax Rotation، للکشف عن البنیة العاملیة الکامنة وللتحقق من أحادیة البعد للبیانات، من خلال التأکد من وجود عامل واحد مسیطر، والذی یفترض أن الاختبار یقیسه، وقد تم استخدام محک " کایزر"Kaiser ، الذی اقترحه "جتمان" بأخذ العوامل التی جذرها الکامن Eigenvalue یساوی أو أکبر من الواحد الصحیح، من أجل تحقیق النقاء والوضوح السیکولوجی لتشبعات الفقرات على العوامل وذلک کما ذکر صفوت فرج (1991) بواسطة حزمة البرامج الإحصائیة فى العلوم الاجتماعیة SPSS(22) ، وذلک للبیانات المتعلقة باستجابات فقرات عینة الدراسة الأساسیة المکونة من (1500) طالباً وطالبة بکلیة التربیة – جامعة أم القرى بمکة المکرمة، وقد تم اعتماد عدة محکات یمکن أن یستدل من خلالها على تحقق افتراض أحادیة البعد على النحو التالی:
1- أفرز التحلیل العاملی لنموذج الاختبار الأول المحکم (13) عاملاً، قیمة الجذر الکامن لکل منها تزید عن الواحد، وتفسر مجتمعة ما نسبته (43.163 ٪) من التباین الکلی للاختبار، حیث کانت قیمة الجذر الکامن للعامل الأول (6.558) ، ویفسر ما نسبته (13.115 ٪) من التباین الکلی للاختبار، وقد کانت قیمة الجذر الکامن للعامل الثانی (1.941) ، ویفسر ما نسبته (3.883 ٪)، وقد أفرز التحلیل العاملی لنموذج الاختبار الثانی المخالف لقواعد الصیاغة (14) عاملاً، قیمة الجذر الکامن لکل منها تزید عن الواحد، وتفسر مجتمعة ما نسبته (44.187 ٪) من التباین الکلی للاختبار، حیث کانت قیمة الجذر الکامن للعامل الأول (5.367 ) ، ویفسر ما نسبته (10.734 ٪) من التباین الکلی للاختبار، وقد کانت قیمة الجذر الکامن للعامل الثانی (2.045) ، ویفسر ما نسبته (4.090 ٪) ؛ وتُعتَمد فی التحلیل العاملی أحادیة البعد من خلال نسبة الجذر الکامن للعامل الأول إلى الجذر الکامن للعامل الثانی، بحیث تکون هذه النسبة لا تقل عن (2) ، وقد کان ناتج قسمة قیمة الجذر الکامن للعامل الأول، على قیمة الجذر الکامن للعامل الثانی یساوی (3.38) للاختبار المحکم البناء، و(2.63) للاختبار المخالف لقواعد الصیاغة، وهذه النسبة تزید عن المعیار (2) (Georgiev, 2008; Hambleton& Swaminathan, 1985; Nering & Ostini, 2010; Reise & Waller, 2003).
2- عند النظر إلى نسبة الفرق بین الجذر الکامن للعامل الأول والجذر الکامن للعامل الثانی،, إلى الفرق بین الجذر الکامن للعامل الثانی والجذر الکامن للعامل الثالث فی کل من الاختبار المحکم والمخالف، تبین أن النسبة کبیرة، وأن النسبة بین بقیة الجذور الکامنة المتتالیة الأخرى کانت متقاربة؛ بمعنى أنه یوجد شبه استقرار فی نسب التباین المفسر لجمیع العوامل باستثناء العامل الأول، وهذا مؤشر على تحقق افتراض أحادیة البعد للإختبار(Hambleton & Swaminthan, 1985; Hambleton et al., 1991; Onder, 2007; Reise & Revicki, 2015).
وقد تم تمثیل الجذور الکامنة للعوامل جمیعها بیانیاً لنموذجی الاختبار (المحکم، المخالف) لقواعد صیاغة الفقرات، عن طریق اختبار الفحص البیانی Scree Plot ؛ حیث یلاحظ وجود عامل سائد لنموذجی الاختبار (المحکم ، المخالف) على بقیة العوامل الأخرى، وهذا ما أکده کل من (Gorsuch, 1983; Field, 2009) من أن اختبار المنحدر لکاتیل Kattell’s Scree test یکون أکثر دقة عندما تکون العینة کبیرة، کما هو موضح بالشکلین (1) ، (2).

شکل (1)
التمثیل البیانی لقیم الجذور الکامنة للعوامل المکونة لنموذج الاختبار المحکم البناء

شکل (2)
التمثیل البیانی لقیم الجذور الکامنة للعوامل المکونة لنموذج الاختبار المخالف
لقواعد صیاغة الفقرات
ویمکن الاعتماد على حساب معاملات الارتباط بین درجات کل فقرة من فقرات الاختبار والدرجة الکلیة للاختبار، وذلک ضمن الافتراض بأنه إذا کانت ارتباطات معظم الفقرات بالدرجة الکلیة للاختبار تزید عن (0.2) فإن ذلک مؤشرٌ على أحادیة البعد (Hattie,1985; Reise & Revicki, 2015)، حیث کانت جمیع قیم معاملات الارتباط دالة إحصائیاً عند مستوى (0.01)، وتراوحت قیم معاملات الارتباط للنموذج المحکم بین (0.72- 0.89)، بینما تراوحت قیم معاملات الارتباط للنموذج المخالف بین ( 0.70- 0.87) ، ومن ثم فإن جمیع الفقرات تجاوزت قیم معاملات ارتباطها (0.2) ؛ مما یشیر إلى أن هذه الفقرات تتشارک فی قیاس بعد واحد تعبر عنه الدرجة الکلیة، وبذلک یمکن اعتبار أن نموذجی الاختبار قد حققا افتراض أحادیة البعد.
کما تم استخدام طریقة تحلیل البواقی من نماذج نظریة الاستجابة للفقرة الاختباریة أحادیة البعد، وذلک للتحقق من افتراض أحادیة البعد لبیانات الدراسة، حیث تم تحلیل البیانات باستخدام برنامج نوهارم NOHARM 3، حیث تم الکشف عن أُحادیة البعد من خلال مؤشری الملائمة الإحصائیة التالیین:
أولاً: مؤشِر تاناکا Tanaka’s Index of Goodness وهو مؤشِر یدل على حسن المطابقة ما بین النَموذج المستخدم والبیانات، ویعمل کمعامل تحدید وتلخیص لنسبة التباین المفسَّر بواسطة النَموذج، ومعادلته هی:

ویعتبر مؤشِر تاناکا دلیلاً على المستوى المقبول من المطابقة ما بین النَموذج والبیانات إذا بلغت قیمته 0.95فأکثر، أما المطابقة التامة بین النَموذج والبیانات فتحصل عندما تبلغ قیمته واحد صحیح Jasper, 2010))، وفی الدراسة الحالیة کانت القیمة تساوی (0.985) للاختبار المحکم، وتساوی (0.978) للاختبار المخالف، ومن ثم فإن مؤشِـر تاناکا لعینة المعایرة قد تحقق فیه المستوى الجید من المطابقة ما بین النَموذج والبیانات لزیادة قیمته عن 0.95 .
ثانیاً: مؤشر جذر متوسط مربعات البواقی: (Root Mean Square of Residuals, RMSR) ، ویوفر برنامج NOHARM مصفوفة البواقی بهدف إجراء عملیة مطابقة البیانات للنموذج، وتعبِّر القیم فی هذه المصفوفة عن الفروق بین التباینات المصاحبة المشاهدة، والتباینات المصاحبة الناتجة من إجراء مطابقة البیانات للنموذج، وعلیه تکون المطابقة تامة إذا کانت الفروق بینها مساویة للصفر، بعد ذلک یقوم البرنامج بتلخیص مصفوفة البواقی عن طریق حساب جذر متوسط مربعات البواقی RMSR، وهکذا فإن القیمة المنخفضة لهذا المقدار هی مؤشِر على حسن المطابقة، ویمکن تقدیر قیمــة هـــذا المؤشِـر کما ذکر (Fraser & McDonald, 1988) بمقارنة قیمة هذا المؤشـر مع قیمة الخطأ المعیاری للبواقی کمعیار، والتی یتم حسابها من خلال قسمة القیمة 4.1 على الجذر التربیعی لحجم العینة.
وفی الدراسة الحالیة کانت قیمة مؤشر جذر متوسط مربعات البواقی RMSR تساوی (0.008) للاختبار المحکم، وتساوی (0.011) للاختبار المخالف وهى قیم صغیرة جداً وقریبة من الصفر، کما أنها أقل من القیمة الحرجة (نقطة القطع لاحتمالیة قبول قیمة الإحصائی) التی حسبت من المعادلة ( حیث :n 1500) والبالغة ( 0.106).
ب‌- التحقق من افتراض الاستقلال الموضعی:
یقصد بالاستقلال الموضعی أنه عند مستوى قدرة معین فإنه لا یوجد ارتباط بین احتمالیة إجابة الأفراد على سؤال ما إجابة صحیحة واحتمالیة إجابتهم إجابة صحیحة على سؤال آخر، ولهذا فقد أطلق على هذا الافتراض الاستقلال الشرطی (استجابة الفرد على الفقرات فی المقیاس مستقلة احصائیاً), ویرى کل من (DeMars, 2010; Hambleton et al.,1991; Hulin, Drasgow & Parsons, 1983; Raykov & Marcoulides, 2016; Reise & Revicki, 2015) أن هذا الشرط یتحقق ضمنیاً بتحقق شرط أحادیة البعد؛ حیث أن هناک ارتباطاً وثیقاً بین تحقق افتراض أحادیة البعد وتحقق افتراض الاستقلال الموضعی.
کما تم التحقق من افتراض الاستقلال الموضعی من خلال مؤشر ، والذی یتم حسابه وفقاً للخطوات الآتیة:
أولاً: حساب مؤشر ین (Yen’s Index)المعروف بـ ، ویُعرف على أنه معامل ارتباط بیرسون للبواقی الناتجة من النَموذج المتعلق بنظریة الاستجابة للمفردة بین زوج من الفقرات بعد ضبط السمة المقدّرة، ویتم حساب قیمة الباقی لاستجابة المفحوص على الفقرة وفقاً للمعادلة:

وعند إعطاء الوزن (0) للإجابة الخاطئة، والوزن (1) للإجابة الصحیحة فی حالة البیانات ثنائیة الاستجابة کما هی الحالة فی الدِراسة الحالیة تکون:

وبحساب جمیع قیم البواقی لاستجابات جمیع المفحوصین عند کل مستوى قدرة مقدَّرة على فقرتین من فقرات الاختبار مثل ، یکون:

وفی الدراسة الحالیة تم حساب مؤشر ( ) لین لفحص الاستقلال الموضعی لأزواج فقرات الاختبار التحصیلی لمقرر الاختبارات والمقاییس؛ حیث تم تحلیل البیانات باستخدام برمجیة Local (LDID) الذی وضعه کل من (Kim, Cohen & Lin, 2006)، وإیجاد معامل الارتباط بین البواقی لأزواج فقرات إحصائیًا نموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات، وذلک بعد معایرة البیانات باستخدام النموذج اللوجستی ثلاثی البارامتر باستخدام برمجیة XCalibre 4.1.7 ، وقد کانت جمیع قیم معامل الارتباط بین البواقی لجمیع أزواج فقرات الاختبار أقل من (0.164) وهی قیمة أقل من درجة القطع التی افترضها (ین) والبالغة (0.20) مما یعنی تحقق افتراض الاستقلال الموضعی لأزواج فقرات الاختبار.
ثانیاً: حساب قیم مؤشر من خلال عمل تحویل فشر Fisher Transformingلقیم وفقاً للمعادلة:

وللحکم على تحقق الاستقلال الموضعی لفقرتین یجب أن تقع قیمة المحسوبة لهاتین الفقرتین ضمن فترة ثقة بانحرافین معیاریین عن المتوسط الحسابی لقیم المحسوبة.
وإذا کانت أزواج الفقرات التی تتحقق بها الاستقلالیة الموضعیَّة أکبر منها لأزواج الفقرات التی تتحقق بها الاعتمادیة فیعتبر هذا مؤشر على تحقق الاستقلال الموضعی للاختبار ککل.
وفی الدراسة الحالیة تم حساب مؤشر لفحص الاستقلال الموضعی لأزواج فقرات الاختبار التحصیلی لمقرر الاختبارات والمقاییس؛ حیث تم تحلیل البیانات باستخدام برمجیةLDID لنموذجی الاختبار(المحکم ، المخالف) لقواعد صیاغة الفقرات، حیث تم الاعتماد على نتائج فترة الثقة لقیم المحولة إلى قیم Z فشر المناظرة لها، فقد تم رصد عدد أزواج الفقرات التی وقعت قیمة لها ضمن فترة الثقة المحققة لشرط الاستقلال الموضعی على أنها إما معتمدة أو مستقلة؛ حیث کانت عدد أزواج الفقرات التی وقعت خارج مدى فترة الثقة (156) زوجاً ؛ أی ما نسبته(12.74٪) من عدد الأزواج الکلی (1225)، بینما کان عدد أزواج الفقرات التی وقعت ضمن مدى فترة الثقة (1069) زوجاً؛ أی ما نسبته (87.26٪) من عدد الأزواج الکلی للاختبار المحکم، وکانت عدد أزواج الفقرات التی وقعت خارج مدى فترة الثقة (221) زوجاً ؛ أی ما نسبته (18.04٪) من عدد الأزواج الکلی (1225)، بینما کان عدد أزواج الفقرات التی وقعت ضمن مدى فترة الثقة (1004) زوجاً؛ أی ما نسبته (81.96٪) من عدد الأزواج الکلی للاختبار المخالف، وهذا یبین أن عدد أزواج الفقرات التی حققت الاستقلالیة الموضعیة أعلى بکثیر من عدد أزواج الفقرات التی حققت التبعیة الموضعیة، وهذا مؤشر على تحقق افتراض الاستقلال الموضعی لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات.
ج‌- التحقق من افتراض التحرر من السرعة:
یعد وجود عامل واحد رئیس یقع خلف الاستجابة على فقرات الاختبار مؤشراً على أن عامل السرعة لیس عاملاً مؤثراً فی الاستجابة على فقرات الاختبار؛ حیث یری (Hambleton, 2004; Hambleton & Swaminathan, 1985; Ueckert, 2018) أن هناک افتراض أساس عام لجمیع نماذج نظریة الاستجابة للمفردة، وهو أن الاختبار الذی یسعى النموذج لمطابقة بیاناته لم یتم تطبیقه تحت ظرف السرعة، بمعنى أن الأفراد الذین أخفقوا فی الإجابة على فقرات الاختبار لم یکن ذلک بسبب إخفاقهم فی السرعة الکافیة لإنجاز الاختبار، وإنما یعود ذلک إلى محدودیة قدراتهم، کما ولقد راعى الباحث أثناء تطبیقه للاختبار إعطاء الطلاب الوقت الکافی للانتهاء من الإجابة عن فقرات الاختبار.
[ 2 ] - نتائج التساؤل الثانی وتفسیرها:
والذی ینص على أنه " ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات صعوبة الفقرات فی ضوء القیاس الکلاسیکی والنموذج اللوجستی الثلاثی البارامتر؟"، وللإجابة عن هذا التساؤل تمت الاجابة عن التساؤلات الفرعیة التالیة:
أولأً: ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات صعوبة الفقرات فی ضوء القیاس الکلاسیکی؟"
للإجابة عن التساؤل الفرعی السابق تم حساب مؤشرات معامل الصعوبة کلاسیکیاً، ولقد تراوحت قیم معاملات صعوبة الفقرات، وفقًا لإجابات الطلاب على نموذج الاختبار محکم البناء ما بین (0.309- 0.627) بمتوسط حسابی (0.409) وانحراف معیاری (0.063)، وقد حصلت الفقرة (36) على أعلى معامل صعوبة، بینما حصلت الفقرة (23) على أدنى معامل صعوبة، بینما تراوح قیم معاملات صعوبة الفقرات وفقًا لإجابات الطلاب على نموذج الاختبار المخالف لقواعد الصیاغة ما بین (0.301-0.561) بمتوسط حسابی ( 0.366) وانحراف معیاری (0.050)، وقد حصلت الفقرة (6) على أعلى معامل صعوبة، بینما حصلت الفقرة (41) على أدنى معامل صعوبة.
وللکشف عن الفروق فی معامل صعوبة الفقرات تبعاً لنموذجی الاختبار (المحکم ، المخالف) تم إجراء الاختبار الإحصائی (T-test) لاختبار دلالة الفروق بین متوسطی صعوبة فقرات الاختبار المحکم والمخالف لقواعد الصیاغة، کما هو موضح فی الجدول (4) التالی:
جدول(4)
اختبار ( ت ) لدراسة دلالة الفروق بین متوسطی صعوبة فقرات الاختبار
(المحکم والمخالف) کلاسیکیاً
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 50 0.409 0.063 4.306 0.000
دالة عند
مستوى
(α=0.01)
2 فقرات الاختبار المخالف 50 0.366 0.050
یتضح من جدول (4) السابق أن قیمة (ت=4.306) دالة إحصائیة عند مستوى (α=0.01) وتؤکد هذه النتیجة على أن متوسط صعوبة فقرات الاختبار المحکم کان أعلى من متوسط صعوبة فقرات الاختبار المخالف، أی أن فقرات الاختبار المحکم أسهل من فقرات الاختبار المخالف، وهذا بدوره یعطی أهمیة لاتباع قواعد صیاغة فقرات الاختیار من متعدد؛ حیث تبین تأثر صعوبة فقرات الاختبار المخالف لقواعد صیاغة الفقرة بإدخال الانتهاکات علیها، وهذه النتیجة تتفق مع دراسة (ابتسام عیسى خصاونة، 2012؛ Chang et al., 2007)، والتی أظهرت أن الفقرات المتضمنة للمخالفات فی صیاغتها، أقل صعوبة وبدرجة دالة إحصائیًا مقارنةً بالفقرات المتحررة من هذه المخالفات محکمة البناء.
ثانیاً: ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات صعوبة الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ وهل هناک فروق ذات دلالة إحصائیة فی تقدیر الخطأ المعیاری لمتوسط معاملات صعوبة الفقرات تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات؟"
للإجابة عن هذا التساؤل الفرعی تم استخدام برنامج XCalibre 4.1.7 لتحلیل بیانات کل من نموذجی الاختبار لتقدیر معالم صعوبة الفقرات، والجدولان (5) ، (6) التالیین یوضحان تقدیرات معالم صعوبة الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر وذلک لنموذجی الاختبار (المحکم ، المخالف) لقواعد الصیاغة، کما تم تحویل الدرجة باللوجیت إلى وحدة المنف.
جدول (5)
معالم صعوبة الفقرات وتقدیر الخطأ المعیاری لمعلمة الصعوبة وفق
النموذج الثلاثی البارامتر لنموذج الاختبار المحکم البناء
رقم الفقرة معلمة الصعوبة
باللوجیت معلمة الصعوبة بالمنف الخطأ المعیاری
باللوجیت الخطأ المعیاری بالمنف رقم الفقرة معلمة الصعوبة
باللوجیت معلمة الصعوبة
بالمنف الخطأ المعیاری
باللوجیت الخطأ المعیاری
بالمنف
1 0.878 54.39 0.070 0.35 26 1.173 55.87 0.077 0.39
2 1.086 55.43 0.068 0.34 27 0.740 53.70 0.045 0.23
3 1.465 57.33 0.130 0.65 28 1.371 56.86 0.454 2.27
4 1.521 57.61 0.180 0.90 29 0.657 53.29 0.317 1.59
5 0.529 52.65 0.053 0.27 30 1.173 55.87 0.360 1.80
6 0.634 53.17 0.307 1.54 31 1.326 56.63 0.409 2.05
7 0.652 53.26 0.054 0.27 32 1.737 58.69 0.576 2.88
8 0.347 51.74 0.090 0.45 33 0.992 54.96 0.347 1.74
9 1.934 59.67 0.123 0.62 34 1.889 59.45 0.229 1.15
10 1.378 56.89 0.432 2.16 35 1.724 58.62 0.569 2.85
11 1.562 57.81 0.087 0.44 36 1.332 56.66 0.413 2.07
12 1.422 57.11 0.442 2.21 37 1.086 55.43 0.068 0.34
13 0.987 54.94 0.088 0.44 38 1.618 58.09 0.512 2.56
14 1.352 56.76 0.403 2.02 39 0.657 53.29 0.980 4.90
15 1.650 58.25 0.523 2.62 40 1.237 56.19 0.388 1.94
16 0.799 53.99 0.360 1.80 41 1.962 59.81 0.777 3.89
17 1.652 58.26 0.180 0.90 42 0.445 52.23 0.269 1.35
18 0.888 54.44 0.065 0.33 43 1.608 58.04 0.503 2.52
19 0.845 54.23 0.360 1.80 44 0.914 54.57 0.056 0.28
20 0.658 53.29 0.082 0.41 45 1.256 56.28 0.867 4.34
21 1.189 55.95 0.364 1.82 46 1.545 57.73 0.483 2.42
22 0.784 53.92 0.620 3.10 47 0.946 54.73 0.301 1.51
23 2.251 61.26 0.155 0.78 48 1.608 58.04 0.503 2.52
24 1.187 55.94 0.381 1.91 49 1.246 56.23 0.069 0.35
25 0.915 54.58 0.056 0.28 50 2.065 60.33 0.883 4.42
یتضح من جدول (5) السابق تراوح قیم معاملات صعوبة الفقرات باللوجیت، وفقًا لإجابات الطلاب على نموذج الاختبار المحکم البناء ما بین (0.347- 2.251) بمتوسط حسابی ( 1.217) وانحراف معیاری (0.451)، وتراوحت قیم الخطأ المعیاری فی تقدیر معلمة الصعوبة للنموذج المحکم البناء ما بین (0.045- 0.980) بمتوسط حسابی (0.323)، وقد حصلت الفقرة (23) على أعلى معامل صعوبة، بینما حصلت الفقرة (8) على أدنى معامل صعوبة.
جدول (6)
معالم صعوبة الفقرات وتقدیر الخطأ المعیاری لمعلمة الصعوبة وفق النموذج الثلاثی
البارامتر لنموذج الاختبار المخالف لقواعد صیاغة الفقرات
رقم الفقرة معلمة الصعوبة
باللوجیت معلمة الصعوبة بالمنف الخطأ المعیاری فی تقدیر معلمة الصعوبة
باللوجیت الخطأ المعیاری فی تقدیر معلمة الصعوبة
بالمنف رقم الفقرة معلمة الصعوبة
باللوجیت معلمة الصعوبة
بالمنف الخطأ المعیاری فی تقدیر معلمة الصعوبة
باللوجیت الخطأ المعیاری فی تقدیر معلمة الصعوبة بالمنف
1 1.624 58.12 0.409 2.05 26 1.815 59.08 0.122 0.61
2 1.611 58.06 0.421 2.11 27 1.353 56.77 0.385 1.93
3 1.571 57.86 0.398 1.99 28 2.245 61.23 0.433 2.17
4 1.632 58.16 0.415 2.08 29 2.378 61.89 1.011 5.06
5 3.133 65.67 0.371 1.86 30 2.654 63.27 0.208 1.04
6 1.449 57.25 0.385 1.93 31 2.502 62.51 0.190 0.95
7 2.545 62.73 1.363 6.82 32 2.505 62.53 0.380 1.90
8 0.447 52.24 0.281 1.41 33 2.390 61.95 0.379 1.90
9 2.654 63.27 0.818 4.09 34 1.907 59.54 0.561 2.81
10 2.235 61.18 0.457 2.29 35 2.654 63.27 0.408 2.04
11 1.962 59.81 0.134 0.67 36 2.507 62.54 1.263 6.32
12 2.349 61.75 0.970 4.85 37 1.222 56.11 0.406 2.03
13 1.134 55.67 0.325 1.63 38 1.345 56.73 0.370 1.85
14 3.382 66.91 0.441 2.21 39 1.205 56.03 0.321 1.61
15 1.672 58.36 0.438 2.19 40 1.744 58.72 0.477 2.39
16 0.899 54.50 0.268 1.34 41 2.332 61.66 0.938 4.69
17 1.962 59.81 0.534 2.67 42 0.743 53.72 0.285 1.43
18 1.061 55.31 0.290 1.45 43 2.233 61.17 0.811 4.06
19 0.963 54.82 0.064 0.32 44 2.211 61.06 0.793 3.97
20 0.762 53.81 0.257 1.29 45 1.952 59.76 0.592 2.96
21 1.963 59.82 0.418 2.09 46 1.933 59.67 0.580 2.90
22 1.242 56.21 0.568 2.84 47 1.656 58.28 0.442 2.21
23 2.390 61.95 0.180 0.90 48 1.907 59.54 0.561 2.81
24 1.089 55.45 0.344 1.72 49 3.174 65.87 0.281 1.41
25 2.490 62.45 1.223 6.12 50 2.507 62.54 1.263 6.32
یتضح من جدول (6) السابق تراوح قیم معاملات صعوبة الفقرات باللوجیت، وفقًا لإجابات الطلاب على نموذج الاختبار المخالف لقواعد صیاغة الفقرات ما بین (0.447- 3.382) بمتوسط حسابی (1.906) وانحراف معیاری (0.671)، وتراوحت قیم الخطأ المعیاری فی تقدیر معلمة الصعوبة للنموذج المخالف ما بین (0.064- 1.363) بمتوسط حسابی (0.505)، وقد حصلت الفقرة (14) على أعلى معامل صعوبة، بینما حصلت الفقرة (8) على أدنى معامل صعوبة.
وللکشف عن الفروق فی دقة تقدیر معامل صعوبة الفقرات تبعاً لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات، تم إجراء الاختبار الإحصائی ( T-test) لاختبار دلالة الفروق بین متوسطی صعوبة فقرات الاختبار المحکم والمخالف وکذلک متوسطی الأخطاء المعیاریة للفقرات (بوحدة المنف)، کما هو موضح فی الجدولین (7) ، (8) التالیین:
جدول(7)
اختبار ( ت ) لدراسة دلالة الفروق بین متوسطی معلمة صعوبة الفقرات لنموذجی
الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 50 56.089 2.256 -7.808
0.000
دالة عند مستوى (α=0.01)
2 فقرات الاختبار المخالف 50 59.532 3.355
یتضح من جدول (21) السابق أن قیمة (ت=-7.808) دالة إحصائیة عند مستوى (α=0.01) وتؤکد هذه النتیجة على أن متوسط معلمة الصعوبة لفقرات الاختبار المخالف کان أعلى من متوسط معلمة الصعوبة لفقرات الاختبار المحکم، وهذه النتیجة تتفق مع نتائج تحلیل معامل الصعوبة عن طریق القیاس الکلاسیکی والتی أکدت على أن فقرات الاختبار المحکم أسهل من فقرات الاختبار المخالف، وإن إدخال المخالفات على الفقرات جعل الفقرات أکثر صعوبة، وقد أکدت هذه النتیجة ما توصلت إلیه دراسات (محمد صیتان الصمادی، 2015؛ Huang et al., 2007; Pachai et al., 2015) ، من أن الفقرات التی تضمنت البدیل "لا شیء مما ذکر" کبدیل صحیح کانت الأکثر صعوبة وذات فروق إحصائیة.
جدول(8)
اختبار ( ت ) لدراسة دلالة فروق متوسطی الأخطاء المعیاریة فی دقة تقدیر معلمة الصعوبة
لنموذجی الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 50 1.615 1.204 -3.625 0.001
دالة عند مستوى
(α=0.01)
2 فقرات الاختبار المخالف 50 2.526 1.552
یتضح من جدول (22) السابق أن قیمة (ت=-3.625) وهی دالة إحصائیة عند مستوى دلالة (0.01) مما یؤکد وجود فروق ذات دلالة إحصائیة بین متوسطی الأخطاء المعیاریة فی دقة تقدیرات معالم صعوبة نموذجی الاختبار المحکم والمخالف، وکانت أقل قیمة لصالح الاختبار المحکم البناء؛ أی أن فقرات نموذج الاختبار المحکم البناء أکثر دقة فی تقدیر صعوبة الفقرات، وجاءت هذه النتیجة متوافقة مع نتائج دراسة کل من (ابتسام عیسى خصاونة، 2012؛ حابس سعد الزبون، راجی عوض الصرایرة، 2017؛ فریال محمد أبو عواد، 2018؛ نضال الشریفین، رانیا الصبح، 2011)، والتی أظهرت نتائج التحلیل الإحصائی لتلک الدراسات أن الاختبار المحکم قدم تقدیرات أکثر دقة لمعالم صعوبة الفقرات، وأن متوسط الأخطاء المعیاریة لمعلمة الصعوبة لفقرات الاختبار المخالف کان أعلى من متوسط الأخطاء المعیاریة لمعلمة الصعوبة لفقرات الاختبار المحکم.
ثالثاً: هل توجد فروق فی معاملی الارتباط بین تقدیرات معاملات الصعوبة المقدرة باستخدام القیاس الکلاسیکی وتلک المقدرة باستخدام النموذج اللوجستی الثلاثی البارامتر فی حالة نموذج الاختبار ( المحکم ، المخالف ) لقواعد صیاغة الفقرات؟ "
للإجابة عن هذا التساؤل الفرعی تم تحویل معاملات الصعوبة المحسوبة فی ضوء القیاس الکلاسیکی إلى قیم (Z) المعیاریة لتصبح قیماً مناسبةً للقیاس الفتری وصالحة لاستخدام معامل ارتباط بیرسون لحساب العلاقات الارتباطیة وبعدها تم إجراء الخطوات التالیة:
1- حساب معامل ارتباط (R1) بین معاملات صعوبة الفقرات المقدرة فی ضوء القیاس الکلاسیکی لنموذجی الاختبار (المحکم ، المخالف) بعد تحویلیها إلى قیم معیاریة وکانت قیمة معامل الارتباط (0.218)، وهو معامل ارتباط ضعیف ولم تکن قیمة الارتباط دالة مما یؤکد اختلاف معامل الصعوبة المحسوب کلاسیکیاً لنموذجی الاختبار (المحکم ، والمخالف) لقواعد صیاغة الفقرات.
2- حساب معامل ارتباط (R2) بین معاملات صعوبة الفقرات المقدرة فی ضوء النموذج اللوجستی الثلاثی البارامتر لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات، وکانت قیمة معامل الارتباط (0.437)، وهو معامل ارتباط دال إحصائیاً عند مستوى (0.01)، وهذا یؤکد ارتباط معاملات الصعوبة المقدرة فی ضوء النموذج اللوجستی الثلاثی البارامتر لنموذجی الاختبار (المحکم ، المخالف) إلى حد أعلى من المتوسط، وأقوى بکثیر من ارتباط معاملات صعوبة الفقرات المقدرة فی ضوء القیاس الکلاسیکی.
3- تم استخدام معادلة (Steiger, (1980 للمقارنة بین معامل الارتباط (R1) وقیمته (0.218) ومعامل الارتباط (R2) وقیمته (0.437) وکـانت قیمة (Z) تساوی (6.760) وهی قیمة دالة إحصائیاً عند مستوى (0.01) وهذا یدل على وجود فرق دال إحصائیاً بین معاملی الارتباط، کما یدل على أن ارتباط معاملات الصعوبة المقدرة وفق القیاس الکلاسیکی لنموذجی الاختبار (المحکم ، المخالف) تختلف جوهریاً عن ارتباط معاملات صعوبة الفقرات المقدرة فی ضوء النموذج اللوجستی الثلاثی المعلم لنموذجی الاختبار (المحکم ، المخالف)، وتتفق هذه النتیجة مع ما توصل إلیه دراسات (Bechger, Maris, Verstralen & Beguin, 2003; Eleje, et al., 2018; Ojerinde, 2013; Stage, 2003) من اختلاف تقدیر صعوبة الفقرات لکل من النظریة الکلاسیکیة فی القیاس ونظریة الاستجابة للفقرة، وأن تحلیل الفقرة فی ضوء نظریة الاستجابة للفقرة کان أفضل من النظریة الکلاسیکیة فی القیاس.
[ 3 ] - نتائج التساؤل الثالث وتفسیرها:
والذی ینص على أنه " ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات تمییز الفقرات فی ضوء القیاس الکلاسیکی والنموذج اللوجستی الثلاثی البارامتر؟"، وللإجابة عن هذا التساؤل تمت الاجابة عن التساؤلات الفرعیة التالیة:
أولأً: ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات تمییز الفقرات فی ضوء القیاس الکلاسیکی ؟"
للإجابة عن التساؤل السابق الفرعی تم حساب معامل التمییز کلاسیکیاً (اعتماداً على طریقة المقارنة الطرفیة)، ولقد تراوحت معاملات تمییز الفقرات وفقًا لإجابات الطلاب على نموذج الاختبار محکم البناء ما بین (0.322- 0.630) وبمتوسط حسابی (0.447) وانحراف معیاری (0.080)، قد حصلت الفقرة (3) على أعلى معامل تمییز، بینما حصلت الفقرة (23) على أدنى معامل تمییز، بینما تراوحت قیم معاملات تمییز الفقرات وفقًا لإجابات الطلاب على نموذج الاختبار المخالف ما بین (0.265- 0.566) بمتوسط حسابی (0.349) وانحراف معیاری (0.081)، وقد حصلت الفقرة (20) على أعلى معامل تمییز، بینما حصلت الفقرة (29) على أدنى معامل تمییز.
وللکشف عن الفروق فی معامل تمییز الفقرات تبعاً لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات، تم إجراء الاختبار الإحصائی (T-test) لاختبار دلالة الفروق بین متوسطی تمییز فقرات الاختبار المحکم والمخالف لقواعد صیاغة الفقرات ، کما هو موضح فی الجدول (9) التالی:
جدول(9)
اختبار ( ت ) لدراسة دلالة الفروق بین متوسطی تمییز فقرات
الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 50 0.447 0.080 6.868 0.000
دالة عند مستوى (α=0.01)
2 فقرات الاختبار المخالف 50 0.349 0.081
یتضح من جدول (9) السابق أن قیمة (ت=6.868) وهی دالة إحصائیاً عند مستوى (α=0.01) وتؤکد هذه النتیجة على وجود فروق بین متوسطی معامل التمییز لنموذجی الاختبار (المحکم ، المخالف) لصالح الاختبار محکم البناء، وتتشابه هذه النتیجة مع ما توصلت إلیه دراسة کل من )ابتسام عیسى خصاونة، 2012؛ إبراهیم محمد یعقوب، باسل خمیس أبو فودة، 2012؛Huang et al., 2007; Pachai et al., 2015) والتی أظهرت نتائجها أن استخدام البدیل "لا شیء مما ذکر" یؤدی إلى انخفاض فی معاملات تمییز الفقرات وذلک عندما یمثل هذا البدیل الإجابة الصحیحة.
ثانیاً: ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات تمییز الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ وهل هناک فروق ذات دلالة إحصائیة فی تقدیر الخطأ المعیاری لمتوسط معاملات تمییز الفقرات تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات ؟ "
للإجابة عن هذا التساؤل تم استخدام برنامج XCalibre 4.1.7 لتحلیل بیانات کل من نموذجی الاختبار لتقدیر معالم تمییز الفقرات، ولقد تراوحت قیم معاملات تمییز الفقرات باللوجیت وفقًا لإجابات الطلاب على نموذج الاختبار المحکم ما بین (0.584- 1.960) وبمتوسط حسابی (1.448) وانحراف معیاری (0.316)، وتراوحت قیم الخطأ المعیاری فی تقدیر معلمة التمییز للنموذج المحکم ما بین (0.091- 0.685) بمتوسط حسابی(0.324)، وقد حصلت الفقرة (5) على أعلى معامل تمییز، بینما حصلت الفقرة (10) على أدنى معامل تمییز.
کما تراوحت قیم معاملات تمییز الفقرات باللوجیت وفقًا لإجابات الطلاب على نموذج الاختبار المخالف لقواعد صیاغة الفقرات ما بین (0.751- 1.463) وبمتوسط حسابی ( 1.118) وانحراف معیاری (0.157)، وتراوحت قیم الخطأ المعیاری فی تقدیر معلمة التمییز للنموذج المخالف ما بین (0.102-1.066) بمتوسط حسابی (0.496)، وقد حصلت الفقرة (9) على أعلى معامل تمییز، بینما حصلت الفقرة (27) على أدنى معامل تمییز.
وللکشف عن الفروق فی دقة تقدیر معامل تمییز الفقرات تبعاً لنموذجی الاختبار (المحکم ، المخالف) تم إجراء الاختبار الإحصائی (T-test) لاختبار دلالة الفروق بین متوسطی تمییز فقرات الاختبار المحکم والمخالف وکذلک متوسطی الأخطاء المعیاریة لفقرات الاختبار المحکم والمخالف، کما هو موضح فی الجدولین (10) ، (11) التالی:
جدول(10)
اختبار ( ت ) لدراسة دلالة الفروق بین متوسطی معلمة تمییز الفقرات لنموذجی
الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 50 1.448 0.316 8.300
0.000
دالة عند مستوى (α=0.01)
2 فقرات الاختبار المخالف 50 1.118 0.157
یتضح من جدول (10) السابق أن قیمة (ت=8.300) دالة إحصائیة عند مستوى (α=0.01) وتؤکد هذه النتیجة على أن متوسط معلمة التمییز لفقرات الاختبار المحکم کان أعلى من متوسط معلمة التمییز لفقرات الاختبار المخالف لقواعد الصیاغة، أی أن وجود المخالفات فی قواعد الصیاغة یؤثر على التقدیرات الخاصة بمعلمة التمییز، وتتفق هذه النتیجة مع ما توصلت إلیه دراسات (محمد صیتان الصمادی، 2015؛ Huang et al., 2007; Pachai et al., 2015) والتی أظهرت نتائجها أن استخدام البدیل "لا شیء مما ذکر" یؤدی إلى انخفاض فی معاملات تمییز الفقرات وذلک عندما یمثل هذا البدیل الإجابة الصحیحة.
جدول(11)
اختبار ( ت ) لدراسة دلالة فروق متوسطی الأخطاء المعیاریة فی دقة تقدیر معلمة التمییز
لنموذجی الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 50 0.324 0.175 -3.992 0.000
دالة عند مستوى
(α=0.01)
2 فقرات الاختبار المخالف 50 0.496 0268
یتضح من جدول (28) السابق أن قیمة (ت=-3.992) وهی دالة إحصائیة عند مستوى (α=0.01) مما یؤکد على وجود فروق ذات دلالة إحصائیة بین متوسطی الأخطاء المعیاریة فی دقة تقدیرات معالم تمییز نموذجی الاختبار المحکم والمخالف، وذلک لأقل قیمة لصالح الاختبار المحکم البناء؛ أی أن فقرات نموذج الاختبار المحکم البناء أکثر دقة فی تقدیر تمییز الفقرات، وجاءت هذه النتیجة مختلفة مع نتائج دراسة (الشریفین، الصبح، 2011) والتی أظهرت نتائج التحلیل الإحصائی لها عدم وجود فروق ذات دلالة إحصائیاً بین متوسطات الأخطاء المعیاریة فی تقدیرات معالم التمییز للفقرات تبعاً لنموذج الاختبار (المحکم، المخالف) لقواعد صیاغة الفقرات.
ثالثاً: هل توجد فروق فی معاملی الارتباط بین تقدیرات معاملات التمییز المقدرة باستخدام القیاس الکلاسیکی وتلک المقدرة باستخدام النموذج اللوجستی الثلاثی البارامتر فی حالة نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات؟ "
للإجابة عن هذا التساؤل تم تحویل معاملات التمییز المحسوبة فی ضوء القیاس الکلاسیکی إلى قیم (Z) المعیاریة لتصبح قیماً مناسبةً للقیاس الفتری وصالحة لاستخدام معامل ارتباط بیرسون لحساب العلاقات الارتباطیة وبعدها تم إجراء الخطوات التالیة:
1- حساب معامل ارتباط (R1) بین معاملات تمییز الفقرات المقدرة فی ضوء القیاس الکلاسیکی لنموذجی الاختبار (المحکم ، المخالف) بعد تحویلیها إلى قیم معیاریة وکانت قیمة معامل الارتباط (0.230)، وهو معامل ارتباط ضعیف ولم تکن قیمة الارتباط دالة مما یؤکد اختلاف معامل التمییز المحسوب کلاسیکیاً لنموذجی الاختبار (المحکم ، والمخالف) لقواعد صیاغة الفقرات.
2- حساب معامل ارتباط (R2) بین معاملات تمییز الفقرات المقدرة فی ضوء النموذج اللوجستی ثلاثی البارامتر لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات، وکانت قیمة معامل الارتباط (0.460)، وهو معامل ارتباط دال إحصائیاً عند مستوى (0.01)، وهذا یدل على ارتباط معاملات التمییز المقدرة فی ضوء النموذج اللوجستی الثلاثی البارامتر لنموذجی الاختبار (المحکم ، المخالف)، وأقوى بکثیر من ارتباط معاملات تمییز الفقرات المقدرة فی ضوء القیاس الکلاسیکی.
3- استخدمت معادلة (Steiger, 1980) للمقارنة بین معامل الارتباط (R1) وقیمته (0.230) ومعامل الارتباط (R2) وقیمته (0.460) وکانت قیمة (Z) تساوی (7.406)، وهی قیمة دالة إحصائیاً عند مستوى(α=0.01) وهذا یدل على وجود فرق دال إحصائیاً بین معاملی الارتباط، کما یدل على أن ارتباط معاملات التمییز المقدرة وفق القیاس الکلاسیکی لنموذجی الاختبار (المحکم ، المخالف) تختلف جوهریاً عن ارتباط معاملات التمییز المقدرة فی ضوء النموذج اللوجستی الثلاثی البارامتر لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات.
[ 4 ] - نتائج التساؤل الرابع وتفسیرها:
والذی ینص على أنه " ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على متوسط معاملات تخمین الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ وهل هناک فروق ذات دلالة إحصائیة فی تقدیر الخطأ المعیاری لمتوسط معاملات تخمین الفقرات تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات؟"
للإجابة عن التساؤل السابق تم استخدام برنامج XCalibre 4.1.7 لتحلیل بیانات کل من نموذجی الاختبار لتقدیر معالم تخمین الفقرات، ولقد تراوحت قیم معاملات تخمین الفقرات باللوجیت وفقًا لإجابات الطلاب على نموذج الاختبار المحکم ما بین (0.129- 0.266) بمتوسط حسابی (0.178) وانحراف معیاری (0.023)، وتراوحت قیم الخطأ المعیاری فی تقدیر معلمة التخمین للنموذج المحکم ما بین (0.033- 0.291) بمتوسط حسابی (0.086)، وقد حصلت الفقرة (10) على أعلى معامل تخمین، بینما حصلت الفقرة (35) على أدنى معامل تخمین.
کما تراوحت قیم معاملات تخمین الفقرات باللوجیت وفقًا لإجابات الطلاب على نموذج الاختبار المخالف لقواعد الصیاغة ما بین (0.172- 0.323) بمتوسط حسابی (0.210) وانحراف معیاری (0.037)، وتراوحت قیم الخطأ المعیاری فی تقدیر معلمة التخمین للنموذج المخالف ما بین (0.044-0.346) بمتوسط حسابی (0.194)، وقد حصلت الفقرة (17) على أعلى معامل تخمین، بینما حصلت الفقرة (41) على أدنى معامل تخمین.
وللکشف عن الفروق فی دقة تقدیر معامل تخمین الفقرات تبعاً لنموذجی الاختبار (المحکم ، المخالف) تم إجراء الاختبار الإحصائی (T-test) لاختبار دلالة الفروق بین متوسطی تخمین فقرات الاختبار المحکم والمخالف لقواعد الصیاغة وکذلک متوسطی الأخطاء المعیاریة لفقرات الاختبار المحکم والمخالف، کما هو موضح فی الجدول (12) ، (13) التالی:
جدول(12)
اختبار ( ت ) لدراسة دلالة الفروق بین متوسطی معلمة تخمین الفقرات لنموذجی
الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 50 0.178 0,023 -6.667 0.000
دالة عند
مستوى
(α=0.01)
2 فقرات الاختبار المخالف 50 0.210 0.037
یتضح من جدول (12) السابق أن قیمة (ت=-6.667) دالة إحصائیة عند مستوى (α=0.01) وتؤکد هذه النتیجة على أن متوسط معلمة التخمین لفقرات الاختبار المخالف کان أعلى من متوسط معلمة التخمین لفقرات الاختبار المحکم، أی أن وجود المخالفات فی قواعد الصیاغة یؤثر على التقدیرات الخاصة بمعلمة التخمین، وجاءت هذه النتیجة متفقة مع دراسات (إبراهیم محمد یعقوب، باسل خمیس أبو فودة، 2010؛ طه الخرشه، 2016؛ نضال الشریفین، رانیا الصبح،2011)، والتی جاءت نتائجها الخاصة بتقدیرات معلمة التخمین لتؤکد أنها کانت أعلى فی نموذج الاختبار المخالف لقواعد الصیاغة.
جدول(13)
اختبار ( ت ) لدراسة دلالة فروق متوسطی الأخطاء المعیاریة فی دقة تقدیر معلمة التخمین
لنموذجی الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر

م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 50 0.086 0.067 -6.239 0.000
دالة عند مستوى
(α=0.01)
2 فقرات الاختبار المخالف 50 0.194 0.102
یتضح من جدول (13) السابق أن قیمة (ت=-6.239) دالة إحصائیة عند مستوى (α=0.01) مما یؤکد على وجود فروق ذات دلالة إحصائیة بین متوسطی الخطأ المعیاری فی دقة تقدیرات معلمة التخمین تبعاً لنموذجی الاختبار المحکم والمخالف، وکانت أقل قیمة لصالح الاختبار المحکم البناء؛ أی أن فقرات نموذج الاختبار المحکم البناء أکثر دقة فی تقدیر معلمة التخمین، وجاءت هذه النتیجة متفقة مع دراسة (إبراهیم محمد یعقوب، باسل خمیس أبو فودة، 2010؛ طه الخرشه، 2016؛ فریال محمد أبو عواد، 2018؛ نضال الشریفین، رانیا الصبح، 2011)، والتی جاءت نتائجها الخاصة بالخطأ المعیاری المرتبط بدقة تقدیرات معلمة التخمین لتؤکد أنها کانت أکثر دقة لصالح الاختبار المحکم البناء.
[ 5 ] - نتائج التساؤل الخامس وتفسیرها:
والذی ینص على أنه " ما أثر انتهاک بعض قواعد صیاغة فقرات اختبار الاختیار من متعدد على دقة تقدیرات معالم القدرة للأفراد فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ وهل هناک فروق ذات دلالة إحصائیة فی تقدیر متوسط الخطأ المعیاری لتقدیر قدرات الأفراد تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات؟ "
للإجابة عن التساؤل السابق تم تقدیر قیم معالم القدرة للأفراد لنموذجی الاختبار باستخدام برنامج XCalibre 4.1.7، والذی یعمل على تقدیر القدرة باستخدام طرق منها طریقة الأرجحیة العظمى Maximum Likelihood Estimation (MLE)، وللکشف عن الفروق فی دقة تقدیر معالم قدرة الأفراد والخطأ المعیاری فی تقدیرها فی ضوء النموذج اللوجستی الثلاثی البارامتر تبعاً لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات، تم إجراء الاختبار الإحصائی (T-test) لاختبار دلالة الفروق بین متوسطی قدرة الأفراد وکذلک بین متوسطی الأخطاء المعیاریة لنموذجی الاختبار المحکم والمخالف (بوحدة المنف)، کما هو موضح فی الجدول (14) ، (15) التالیین:
جدول(14)
اختبار ( ت ) لدراسة دلالة الفروق بین متوسطی قدرة الأفراد لنموذجی
الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 1500 51.345 4.795 5.914
0.000
دالة عند مستوی
(α=0.01)
2 فقرات الاختبار المخالف 1500 50.507 4.856
یتضح من جدول (14) السابق أن قیمة (ت=5.914) دالة إحصائیة عند مستوى (α=0.01) وتؤکد هذه النتیجة على وجود فروق ذات دلالة إحصائیة بین متوسطی قدرة الأفراد تبعاً لنموذجی الاختبار المحکم والمخالف لقواعد صیاغة الفقرات، حیث یلاحظ أنه فیما یخص متوسط القدرة أن متوسط الاختبار المحکم کان أعلى من متوسط الاختبار المخالف مما یؤکد أن انتهاکات قواعد صیاغة فقرات الاختیار من متعدد أثرت على قدرة الأفراد، وقد جاءت هذه النتیجة متعارضة مع مسلمة نظریة الاستجابة للمفردة والمتعلقة باللاتغیر فی معالم القدرة باختلاف معالم الفقرات ولکن قد یبدو الأمر لیس على إطلاقه وخاصة مع استخدام النموذج الثلاثی البارامتر، وتتفق هذه النتیجة مع ما جاءت به نتائج دراسة (الرشیدی ،2010؛ الشریفین، بنی عطا،2013) والتی أکدت عدم تحقق اللاتغیر فی قدرات الأفراد عند تقدمهم لفقرات مختلفة الصعوبة حیث کانت الفروق بین متوسطات معالم القدرة دالة ومن ثم لم یتحقق افتراض اللاتغیر فی تقدیر معالم الفقرات باختلاف معالم القدرة،
جدول(15)
اختبار ( ت ) لدراسة دلالة فروق متوسطی الأخطاء المعیاریة لتقدیر قدرة الأفراد
لنموذجی الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 1500 3.228 3.258 -6.029 0.000
دالة عند مستوی
(α=0.01)
2 فقرات الاختبار المخالف 1500 3.867 2.960
یتضح من جدول (15) السابق أن قیمة (ت=-6.029) دالة إحصائیة عند مستوى (α=0.01) وتؤکد هذه النتیجة على وجود فروق ذات دلالة إحصائیة بین متوسطی الأخطاء المعیاریة فی تقدیر القدرة تبعاً لنموذجی الاختبار المحکم والمخالف لقواعد الصیاغة، حیث یتضح أنه فیما یخص متوسط الأخطاء المعیاریة فکان متوسط الخطأ المعیاری للاختبار المحکم أقل من متوسط الخطأ المعیاری للاختبار المخالف، أی أن فقرات نموذج الاختبار المحکم کانت أکثر دقة فی تقدیر قدرة الأفراد من الاختبار المخالف، وتعتبر هذه النتیجة من النتائج المنطقیة؛ حیث أن الابتعاد عما صممت فقرة الاختبار لقیاسه یؤدی ذلک إلى تشتت التفکیر، وبالتالی تبتعد الفقرة عن قیاس القدرة الحقیقة للأفراد، وهذا یؤدی إلى زیادة الأخطاء المعیاریة فی تقدیر معلمة القدرة، وقد جاءت هذه النتیجة لتؤکد ما توصلت إلیه دراسات (إبراهیم محمد یعقوب، باسل خمیس أبو فودة، 2010؛ فریال محمد أبو عواد، 2018؛ نضال الشریفین، رانیا الصبح، 2011)، من أن نموذج الاختبار المحکم البناء کان الأکثر دقة فی تقدیر قدرات الأفراد؛ حیث کانت متوسطات الأخطاء المعیاریة لمعالم قدرات الأفراد الأقل لصالح نموذج الاختبار المحکم البناء، وهذا یشیر إلى دقة القیاس.
[ 6 ] - نتائج التساؤل السادس وتفسیرها:
والذی ینص على أنه " هل هناک فروق ذات دلالة إحصائیة بین التقدیرات الخاصة بدالة معلومات الاختبار تعزى إلى نموذج الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات فی ضوء النموذج اللوجستی الثلاثی البارامتر؟ "
للإجابة عن التساؤل السابق تم استخدام برنامج XCalibre 4.1.7 للحصول على دالة المعلومات لکل فقرة من فقرات الاختبار بنموذجیه (المحکم ، المخالف) لقواعد صیاغة الفقرات، وبین جدول (16) التالی القیم العظمى لدالة المعلومات لکل فقرة من فقرات نموذجی الاختبار.
جدول(16) : القیم العظمى لدالة المعلومات لکل فقرة من فقرات نموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات
فقرات الاختبار المحکم فقرات الاختبار المخالف
رقم الفقرة دالة المعلومات رقم الفقرة دالة المعلومات رقم الفقرة دالة المعلومات رقم الفقرة دالة المعلومات
1 0.786 26 0.531 1 0.571 26 0.473
2 0.301 27 0.485 2 0.124 27 0.393
3 0.658 28 1.417 3 0.341 28 0.592
4 1.564 29 0.526 4 0.285 29 0.461
5 0.508 30 1.349 5 0.126 30 0.632
6 0.726 31 0.626 6 0.427 31 0.587
7 0.775 32 1.026 7 0.500 32 0.554
8 0.505 33 0.465 8 0.369 33 0.296
9 0.462 34 0.445 9 0.378 34 0.261
10 0.609 35 0.518 10 0.200 35 0.345
11 0.740 36 1.296 11 0.445 36 1.294
12 0.972 37 1.007 12 0.222 37 0.750
13 0.758 38 0.831 13 0.709 38 0.444
14 0.582 39 0.492 14 0.367 39 0.416
15 0.941 40 0.681 15 0.822 40 0.664
16 0.776 41 0.957 16 0.392 41 0.656
17 0.526 42 0.444 17 0.480 42 0.228
18 0.765 43 0.885 18 0.610 43 0.391
19 0.942 44 0.708 19 0.695 44 0.378
20 0.550 45 1.240 20 0.398 45 0.304
21 1.123 46 0.897 21 0.421 46 0.400
22 0.970 47 1.102 22 0.309 47 0.313
23 0.903 48 1.025 23 0.303 48 0.706
24 0.689 49 1.102 24 0.297 49 0.803
25 0.937 50 0.906 25 0.892 50 0.499
یتضح من جدول (16) السابق أن القیم العظمى لجمیع دوال معلومات فقرات الاختبار محکم البناء کانت أعلى من قیم دوال المعلومات التی تقدمها فقرات الاختبار المخالف لقواعد الصیاغة، کما تم رسم منحنیات دالة معلومات الاختبار المحکم والمخالف والخطأ المعیاری فی تقدیر فقرات نموذجی الاختبار المحکم والمخالف، والتی توضح کمیة المعلومات التی یقدمها الاختبار والخطأ المعیاری عند مستویات القدرة المختلفة کما فی الشکلین (3 ، 4) للاختبار المحکم، والشکلین (5 ، 6) للاختبار المخالف:

شکل ( 3 )
منحنى دالة معلومات الاختبار المحکم البناء
شکل ( 4 )
الخطأ المعیاری للتقدیر للاختبار المحکم البناء
یتضح من الشکل (3) السابق والذی یمثل منحنى دالة معلومات الاختبار المحکم (TIF)، والذی یوضح کمیة معلومات الاختبار المحکم التی یقدمها الاختبار عند مستویات القدرة المختلفة، وکان أقصى قدر من المعلومات التی یمکن تقدیمها عن طریق الاختبار المحکم عند الدرجة (18) مقابل لمستوى قدرة ( ) = (1.850) ، کما یتضح من الشکل (4) والذی یعرض الرسم البیانی للخطأ المعیاری، ویقوم بتقدیر کمیة الخطأ فی مستوى القدرة ( ) لکل مستوى من مستویاتها وهو معکوس (TIF) وکان أقل خطأ معیاری للاختبار المحکم یساوی (0.237) عند مستوى قدرة (1.850).

شکل ( 5 )
منحنى دالة معلومات الاختبار المخالف
لقواعد صیاغة الفقرات
شکل ( 6 )
الخطأ المعیاری للتقدیر للاختبار المخالف
لقواعد صیاغة الفقرات
یتضح من الشکل (5) السابق والذی یمثل منحنى دالة معلومات الاختبار المخالف (TIF)، والذی یوضح کمیة معلومات الاختبار المخالف التی یقدمها الاختبار عند مستویات القدرة المختلفة، وکان أقصى قدر من المعلومات التی یمکن تقدیمها عن طریق الاختبار المخالف عند الدرجة (13) مقابل لمستوى قدرة (θ)= (1.700) ، کما یتضح من الشکل (6) والذی یعرض الرسم البیانی للخطأ المعیاری، ویقوم بتقدیر کمیة الخطأ فی مستوى القدرة (θ) لکل مستوى من مستویاتها وهو معکوس (TIF) وکان أقل خطأ معیاری للاختبار المخالف یساوی (0.279) عند مستوى قدرة (1.700).
وللکشف عن الفروق فی التقدیر الخاص بدالة معلومات الاختبار فی ضوء النموذج اللوجستی الثلاثی المعلم تبعاً لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات، تم إجراء الاختبار الإحصائی(T-test) لاختبار دلالة الفروق بین متوسطی دالة معلومات الاختبار لنموذجی الاختبار المحکم والمخالف، کما هو موضح فی الجدول (17) التالی:
جدول(17)
اختبار (ت) لدراسة دلالة الفروق بین متوسطی دالة معلومات الاختبار لنموذجی
الاختبار (المحکم ، المخالف) وفق النموذج الثلاثی البارامتر
م العینة العدد المتوسط الانحراف المعیاری ت الدلالة
1 فقرات الاختبار المحکم 161 6.372 7.130 7.270 0.000
دالة عند مستوی (α=0.01)
2 فقرات الاختبار المخالف 161 5.024 5.245
یتضح من جدول (17) السابق أن (ت=7.270)، دالة إحصائیة عند مستوى (α=0.01) وتؤکد هذه النتیجة على وجود فروق ذات دلالة إحصائیة بین متوسطی دالة معلومات الاختبار تبعاً لنموذجی الاختبار المحکم والمخالف لقواعد الصیاغة، کما یتضح أن المتوسط الحسابی لدالة معلومات الاختبار المحکم کان أعلى من متوسط دالة معلومات الاختبار المخالف، مما یؤکد أن انتهاکات قواعد صیاغة فقرات الاختیار من متعدد أثرت على دالة معلومات الاختبار، وأن الاختبار المحکم البناء یقدم معلومات أکبر من الاختبار المخالف، وقد جاءت هذه النتیجة لتؤکد ما توصلت إلیه دراسة (الشریفین، الصبح، 2011) من أن نموذج الاختبار المحکم یقدم معلومات أکبر من الاختبار المخالف.
ولقد بین (David, 2013; Jinming, 2012; Joo et al., 2018; Lord, 1980; Reise & Revicki, 2015) ، وجود عدة وسائل للکشف عن دقة تقدیر المعالم وجودة الاختبارات منها محک الکفاءة النسبیة للاختبار Relative Efficiency (RE) الذی یعتمد على دالة معلومات الاختبار Test Information Function (TIF) التی تلعب دوراً رئیساً فی نظریة الاستجابة للفقرة؛ إذ یمکن من خلالها تحدید الخطأ المعیاری فی التقدیر، فعندما یتم استخراج تقدیر معلمة القدرة فإن تباین الخطأ فی تقدیر القدرة یساوی معکوس دالة المعلومات، وبالاعتماد على دالة المعلومات، فإنه یمکن تعریف الکفاءة النسبیة على أنها نسبة دالة معلومات الاختبار المحکم (A) إلى دالة معلومات الاختبار المخالف (B) عند مستوى قدرة (θ) کما فی المعادلة التالیة.

وبالتالی فإن الاختبار المحکم (A) یکون أکثر کفاءة وفاعلیة من الاختبار المخالف (B) عند مستوى القدرة (θ) إذا کان ، أما إذا کان فإن الاختبار المحکم (A) یکون أقل کفاءة من الاختبار المخالف (B) وفی حالة أن یکون الاختباران A, B لهما نفس الکفاءة عند مستوى القدرة (θ) ، وتشیر الکفاءة هنا إلى الدقة فی تقدیر معلمة القدرة، وأما بالنسبة للکفاءة النسبیة لنموذجی الاختبار (المحکم ، المخالف) لقواعد صیاغة الفقرات، فقد تم حسابها لنموذج الاختبار المحکم إلى الاختبار المخالف، وذلک عن طریق قسمة قیم دالة معلومات الاختبار المحکم البناء إلى قیم دالة معلومات الاختبار المخالف، عند مستویات مختارة من القدرة; حیث أتضح أن الاختبار المحکم أکثر کفاءة وفاعلیة من الاختبار المخالف لقواعد الصیاغة عند مستویات القدرة (θ) المختارة؛ حیث کانت قیمة الکفاءة النسبیة عند جمیع مستویات القدرة المنتقاة (θ) أکبر من الواحد.
[ 7 ] - نتائج التساؤل السابع وتفسیرها:
والذی ینص على أنه " ما تقدیرات قدرات أفراد العینة فی اختبار الاختیار من متعدد المستخدم فی الدراسة وذلک وفق طرق تقدیر الدرجات الکلاسیکیة (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) وکذلک وفق النموذج اللوجستی الثلاثی البارامتر؟ ".
للإجابة عن التساؤل السابق تم تصحیح الاختبار وفق طرق تقدیر الدرجات الکلاسیکیة (التقلیدیة، التجریبیة ، الاحتمال المقترح للإجابة الصحیحة)، وباستخدام برنامج SPSS(22) تم حساب الدرجة الکلیة للطلاب وعدد من الإحصائیات الوصفیة ذات العلاقة، وکذلک تم استخدام برنامج XCalibre 4.1.7 لتقدیر قدرات الطلاب بوحدتی اللوجیت والمنف باستخدام طریقة الأرجحیة العظمىMaximum Likelihood Estimation (MLE)، فی ضوء النموذج اللوغاریتمی الثلاثی البارامتر.
وحیث أن معامل الاختلاف یستخدم للمقارنة بین التشتت النسبی لعدة قیاسات فی حالة اختلاف وحدات القیاس (الشافعی، 2014, 77)، فقد تم إیجاد هذا المؤشر الإحصائی وفق القانون التالی:
معامل الاختلاف = ( الانحراف المعیاری ÷ المتوسط الحسابی ) ×100.
ویعرض جدول (18) التالی عدد من الإحصائیات الوصفیة لدرجات الطلاب المقدرة وفق طرق تقدیر الدرجات الکلاسیکیة الثلاث ( الطریقة التقلیدیة ، الطریقة التجریبیة ، طریقة الاحتمال المقترح للإجابة الصحیحة)، وفی ضوء النموذج اللوغاریتمی الثلاثی البارامتر:
جدول (18)
عدد من الإحصائیات الوصفیة لدرجات الطلاب المقدرة وفق کل من طرق تقدیر
الدرجات الکلاسیکیة والنموذج اللوجستی الثلاثی البارامتر
م الطریقة المدى الخام
(امتداد الدرجات) أقل
درجة أعلى
درجة المدى الفعلی المتوسط
الحسابی الانحراف المعیاری معامل الاختلاف
1 التقلیدیة 0 ـــ 50 12 47 35 21.03 7.96 37,85٪
2 التجریبیة 0 ـــ 150 24 146 122 60,65 24.1 39,74٪
3 الاحتمال المقترح للإجابة الصحیحة 0 ـــ 500 62 480 418 198,9 83,43 41,95٪
4 النموذج اللوجستی
الثلاثی البارامتر لوجیت -∞ إلى +∞ - 2,77 2,69 5.46 0.269 0.959 9.34٪
منف -∞ إلى +∞ 36.15 63.45 27,31 51.345 4.795
یتضح من جدول (18) السابق أنه عند استخدام الطریقة التقلیدیة امتدت درجات الطلاب من (12) درجات إلى (47) درجة، بمتوسط حسابی قدرة (21.03) درجة، وهو ما یعادل (37,85٪ من الدرجة الکلیة)، وعند استخدام الطریقة التجریبیة امتدت درجات الطلاب بین (24) و (146) درجة بمتوسط حسابی قدره (60.65) درجة، وهو ما یعادل (39,74٪ من الدرجة الکلیة)، وعند استخدام طریقة الاحتمال المقترح للإجابة الصحیحة امتدت درجات الطلاب بین (62) و(480) درجة، بمتوسط حسابی قدرة (198.9) درجة، وهو یعادل (41,95٪ من الدرجة الکلیة)، وبمقارنة نسبة المتوسط الحسابی إلى الدرجة الکلیة فی الطرق الکلاسیکیة الثلاث (42.06٪، 40.43٪، 39.78٪) یلاحظ أنها بوجه عام متقاربة إلا أن المتوسط الحسابی الأعلى کان عند استخدام الطریقة التقلیدیة، ثم الطریقة التجریبیة، ثم طریقة الاحتمال المقترح للإجابة الصحیحة، أما عند استخدام النموذج اللوغاریتمی الثلاثی البارامتر فقد امتدت قدرات الطلاب بین (- 2,77) و(2,69) بمتوسط حسابی قدرة (0.269 لوجیت)، وامتدت الدرجات من (36.15) و (63.45) بمتوسط حسابی قدره (51.345 منف).
وبمقارنة التشتت النسبی للطرق الأربع نجد أن طریقة الاحتمال المقترح للإجابة الصحیحة کانت الأکثر تشتتاً حیث بلغ معامل الاختلاف لها (41,95٪) تلیها الطریقة التجریبیة بمعامل اختلاف یساوی (39,74٪) ، ثم الطریقة التقلیدیة بمعامل اختلاف یساوی (37,85٪ ) ، فیما جاء التشتت النسبی الأقل عند تقدیر الدرجات وفق النموذج اللوغاریتمی الثلاثی البارامتر بمعامل اختلاف یساوی ( 9.34٪).
[ 8 ] - نتائج التساؤل الثامن وتفسیرها:
والذی ینص على أنه " ما درجة الارتباط/الاختلاف بین قدرات الطلاب عند تقدیرها باستخدام النموذج اللوجستی الثلاثی البارامتر بتقدیرات درجاتهم عند استخدام کل من الطرق الکلاسیکیة لتقدیر الدرجات التی شملتها الدراسة (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) ؟ " ، وللإجابة عن هذا التساؤل تمت الاجابة عن التساؤلین الفرعیین التالیین:
أولأً: " ما درجة ارتباط قدرات الطلاب عند تقدیرها باستخدام النموذج اللوجستی الثلاثی البارامتر بتقدیرات درجاتهم عند استخدام کل من الطرق الکلاسیکیة لتقدیر الدرجات التی شملتها الدراسة (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) ؟ "
للإجابة عن التساؤل الفرعی السابق تم حساب معامل ارتباط بیرسون بین قدرات الطلاب مقدرة باستخدام النموذج اللوغاریتمی الثلاثی البارامتر وتقدیرات درجاتهم عند استخدام کل من الطرق الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة)، ولقد تراوحت قیم معاملات الارتباط ما بین (0.716-879); حیث أتضح وجود علاقة ارتباطیة قویة بین قدرات الطلاب المقدرة بالنموذج اللوغاریتمی ثلاثی البارامتر وکل من طرق تقدیر درجاتهم باستخدام الطرق الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة)، وتأخذ هذه العلاقة أکبر قیمة لهـا عند الطریقة التقلیدیة حیث بلغت قیمة معامل الإرتباط (0٫879) وهى تشیر إلى علاقة ارتباطیة ایجابیة قویة جداً ودالة احصائیاً عند مستوى دلالة (0٫01)، بینما کانت أقل قیمة لمعامل الارتباط مع طریقة الاحتمال المقترح حیث بلغت قیمة معامل الإرتباط (0٫716) هی تشیر إلى وجود علاقة ارتباطیة ایجابیة قویة ودالة احصائیاً عند مستوى دلالة (0٫01)، فی حین جاءت درجات الطریقة التجریبیة فی مستوى وسط بین الطریقة التقلیدیة، وطریقة الاحتمال المقترح للإجابة الصحیحة حیث بلغت قیمة معامل الإرتباط (0٫737) وهی تشیر إلى وجود علاقة ارتباطیة قویة ودالة إحصائیاً عند مستوى دلالة (0٫01).
ثانیاً: " ما درجة الاختلاف بین قدرات الطلاب المقدرة وفق النموذج اللوجستی الثلاثی البارامتر ووفق کل طریقة من طرق تقدیر الدرجات الکلاسیکیة (التقلیدیة ، التجریبیة ، الاحتمال المقترح للإجابة الصحیحة)؟ "
تعد قیمة الارتباط قویة بین نتائج اختبارین مؤشراً على أن هذین الاختبارین یرتبان الأفراد وفق قدراتهم بشکل متشابه، إلا أن هذا لا یعنی بالضرورة أن هذین الاختبارین یعطیان تقییمات متقاربة لقدرات الأفراد، لهذا تم بحث مؤشراً آخراً للمقارنة بین طرق تقدیر الدرجات الداخلة فی هذه الدراسة من خلال الکشف عن مدى تقارب أو تباعد هذه الطرق فی تقدیر قدرات الأفراد، ولإجراء هذه المقارنة تم اتباع الخطوات الآتی:
1- تحویل الدرجات المستمدة من طرق تقدیر الدرجات الأربع إلى وحدة قیاس موحدة، وهی الدرجات التائیة، وذلک لکی نتمکن من المقارنة الکمیة بین درجات الطالب على کل طریقة من طرق تقدیر الدرجات الأربع.
2- حساب متوسط الفروق المطلقة بین الدرجات التائیة لکل طریقتین من طرق تقدیر الدرجات، وذلک وفق المعادلة التالیة(Ndalichako & Rogers,1997,586):

ولقد جاءت نتائج المقارنات الثنائیة بین متوسط الفروق المطلقة للدرجات التائیة المستمدة من طرق تقدیر الدرجات الأربع (التقلیدیة ، التجریبیة ، الاحتمال المقترح للإجابة الصحیحة ، والنموذج اللوجستی ثلاثی البارامتر) کما فی جدول (19):
جدول (19)
متوسط الفروق المطلقة بین درجات کل طریقتین من طرق تقدیر
الدرجات الداخلة فی الدراسة
مجال المقارنة عدد الطلاب متوسط الفروق المطلقة الانحراف المعیاری
النموذج اللوغاریتمی الثلاثی التقلیدیة 1500 3,6 2,3
التجریبیة 1500 5,5 3,8
الاحتمال المقترح للإجابة الصحیحة 1500 5.7 4.1
التقلیدیة التجریبیة 1500 3.5 3,2
الاحتمال المقترح للإجابة الصحیحة 1500 3.6 3,4
التجریبیة الاحتمال المقترح للإجابة الصحیحة 1500 3.7 3.8
یتضح من جدول (19) السابق أن طریقة تقدیر الدرجات الأکثر قرباً من درجات النموذج اللوجستی ثلاثی البارامتر هی الطریقة التقلیدیة حیث بلغ متوسط الفروق المطلقة بین الطریقتین (3,6) درجة، ویؤکد على هذه النتیجة أن الفروق المطلقة بینهما کانت الأقل تشتتاً حیث بلغت قیمة الانحراف المعیاری لهذه الفروق (2,3) درجة وهی القیمة الأقل بین بقیة المقارنات الثنائیة المتبقیة، وفی المقابل کانت طریقة تقدیر الدرجات الأکثر اختلافاً عن النموذج اللوجستی ثلاثی البارامتر هی طریقة الاحتمال المقترح للإجابة الصحیحة حیث بلغ متوسط الفروق المطلقة بین الطریقتین (5.7) درجة، وبفارق بسیط عن الطریقة التجریبیة بلغ (0.02) درجة.
وفیما یخص المقارنات الثنائیة بین الطرق الکلاسیکیة فقد أظهرت النتائج أن الطریقتین التقلیدیة والتجریبیة هما الأقرب فی تقدیر الدرجات حیث بلغ متوسط الفروق المطلقة بینهما (3,5) درجة، فی حین کانت الطریقتین التجریبیة والاحتمال المقترح للإجابة الصحیحة هما الأکثر اختلافاً فی تقدیر الدرجات حیث بلغ متوسط الفروق المطلقة بینهما (3,7) درجة.
وفیما یخص المقارنة بین الطرق الأربع ککل فقد أظهرت النتائج أن الطریقتین الأکثر قرباً من بعضهما فی تقدیر قدرات الطلاب هما الطریقة التقلیدیة والطریقة التجریبیة حیث بلغ متوسط الفروق المطلقة بینهما (3,5) درجة، فی حین کانت الطریقتین الأکثر بعداً عن بعضهما البعض هما طریقة الاحتمال المقترح للإجابة الصحیحة والنموذج اللوجستی ثلاثی البارامتر حیث بلغ متوسط الفروق المطلقة بینهما (5,7) درجة.
[ 9 ] - نتائج التساؤل التاسع وتفسیرها:
والذی ینص على أنه " ما درجات ارتباط قیم معاملات صعوبة/تمییز الفقرات عند استخدام کل من الطرق الکلاسیکیة لتقدیر درجات الاختیار من متعدد (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) مع قیم معاملات صعوبة/تمییز الفقرات عند استخدام النموذج اللوجستی الثلاثی البارامتر؟ " ، وللإجابة عن هذا التساؤل تمت الاجابة عن التساؤلین الفرعیین التالیین:
أولأً: ما درجات ارتباط قیم معاملات صعوبة الفقرات عند استخدام کل من الطرق الکلاسیکیة لتقدیر درجات الاختیار من متعدد (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) مع قیم معاملات صعوبة الفقرات عند استخدام النموذج اللوجستی الثلاثی البارامتر؟ "
للإجابة عن التساؤل الفرعی السابق تم حساب معاملات صعوبة الفقرات وفق طرق تقدیر الدرجات الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) وبارامتر صعوبة الفقرات فی النموذج اللوجستی الثلاثی البارامتر وجدول (20) التالی یلخص هذه الإحصائیات، حیث تم تحدید أقل وأعلى قیمة لمعاملات الصعوبة والمتوسطات الحسابیة والانحرافات المعیاریة وفقا لکل طریقة من طرق تقدیر الدرجات الکلاسیکیة والنموذج اللوجستی الثلاثی البارامتر:
جدول (20)
قیم صعوبة الفقرات المقدرة وفق طرق تقدیر الدرجات الکلاسیکیة (التقلیدیة، التجریبیة،
الاحتمال المقترح للإجابة الصحیحة) والنموذج اللوجستی الثلاثی البارامتر
طریقة تقدیر الدرجات عدد الفقرات أقل قیمة لمعامل الصعوبة أعلى قیمة لمعامل الصعوبة المدى بوحدات (Z) المتوسط الانحراف المعیاری
بوحدات الصعوبة بدرجات (Z) بوحدات الصعوبة بدرجات (Z)
التقلیدیة 50 0.309 - 1.58 0.627 3.64 5.22 0.409 0.063
التجریبیة 50 0,260 -2.18 0.581 2.22 4.40 0.419 0,073
الاحتمال المقترح للإجابة الصحیحة 50 0.231 - 2.31 0.562 1.99 4,30 0.409 0.077
النموذج اللوجستی الثلاثی البارامتر 50 0.347 - 1.93 2.251 2.29 4.22 1.217 0.451
ولقد تم حساب مصفوفة معاملات الإرتباط البینیة بین قیم صعوبة الفقرات المقدرة وفق النموذج اللوجستی الثلاثی البارامتر وقیم صعوبة الفقرات المقدرة وفق کل طریقة من طرق تقدیر الدرجات الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة)، ولقد تراوحت قیم معاملات الارتباط بین (0.792 – 0.961); حیث أتضح وجود علاقة ارتباطیة ذات دلالة إحصائیة عند مستوى الدلالة (0٫01) وبدرجة ارتباط قویة بین قیم معاملات الصعوبة المقدرة وفق النموذج اللوجستی الثلاثی البارامتر ووفق طرق تقدیر الدرجات الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة)، ویلاحظ أن وجود الإشارة السالبة لا یعنی العلاقة العکسیة بل یعود إلى المنطق المعکوس لقیم معاملات الصعوبة وفق طرق القیاس الکلاسیکیة، کما تظهر البیانات أن معاملات الصعوبة الکلاسیکیة المستمدة من الطریقة التقلیدیة کانت هی الأکثر ارتباطاً ببارامتر صعوبة النموذج اللوجستی الثلاثی البارامتر وذلک بمعامل ارتباط بلغت قیمته (0٫836) والتی تشیر إلى درجة ارتباط قویة، فی حین کانت معاملات الصعوبة المستمدة من طریقة الاحتمال المقترح للإجابة الصحیحة هی الأقل ارتباطاً بالنموذج اللوجستی الثلاثی البارامتر حیث بلغت قیمة معامل الارتباط بینهما (0٫792) وتشیر هذه القیمة إلى درجة ارتباط قویة.
وفیما یخص المقارنات الثنائیة بین معاملات الصعوبة المقدرة وفق الطرق الکلاسیکیة فقد أظهرت النتائج أن قیم معاملات الارتباط بین طرق تقدیر الدرجات الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) کانت قویة وتتفوق على قیم ارتباط أی منها بالنموذج اللوجستی الثلاثی البارامتر، وقد کانتا الطریقتین التجریبیة والاحتمال المقترح للإجابة الصحیحة هما الأعلى ارتباطاً فی تقدیر قیم معاملات الصعوبة حیث بلغ معامل الارتباط بینهما (0.961) وهی تشیر إلى درجة ارتباط قویة، فی حین کانتا الطریقتین الأقل ارتباطاً هما التقلیدیة والاحتمال المقترح للإجابة الصحیحة بقیمة ارتباط (0.934) ومع ذلک فإن هذه القیمة تشیر إلى درجة ارتباط قویة.
وفیما یخص المقارنات الثنائیة بین قیم معاملات الصعوبة المقدرة وفق طرق تقدیر الدرجات الأربع ککل فقد أظهرت النتائج أن الطریقتین الأکثر ارتباطاً فی تقدیر قیم صعوبة الفقرات کانتا الطریقة التجریبیة وطریقة الاحتمال المقترح للإجابة الصحیحة بمعامل ارتباط بلغت قیمته (0.961) والتی تشیر إلى درجة ارتباط قویة، فی حین کانت الطریقتین الأقل ارتباطاً فی تقدیر قیم صعوبة الفقرات هما طریقة الاحتمال المقترح للإجابة الصحیحة والنموذج اللوجستی الثلاثی البارامتر بمعامل ارتباط بلغت قیمته (0٫792) ومع ذلک فإن هذه القیمة تدل على ارتباط قوی.
ثانیاً: ما درجات ارتباط قیم معاملات تمییز الفقرات عند استخدام کل من الطرق الکلاسیکیة لتقدیر درجات الاختیار من متعدد (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) مع قیم معاملات تمییز الفقرات عند استخدام النموذج اللوجستی الثلاثی البارامتر؟ "
للإجابة عن التساؤل الفرعی السابق تم حساب معاملات تمییز الفقرات وفق طرق تقدیر الدرجات الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة) وبارامتر تمییز الفقرات فی النموذج اللوجستی الثلاثی البارامتر، وجدول (21) یخلص هذه الإحصائیات، حیث تم تحدید أقل وأعلى قیمة لمعاملات التمییز والمتوسطات الحسابیة والانحرافات المعیاریة وفقا لکل طریقة من طرق تقدیر الدرجات الکلاسیکیة والنموذج اللوجستی الثلاثی البارامتر:
جدول (21)
قیم تمییز الفقرات المقدرة وفق طرق تقدیر الدرجات الکلاسیکیة (التقلیدیة، التجریبیة،
الاحتمال المقترح للإجابة الصحیحة) والنموذج اللوجستی الثلاثی البارامتر
طریقة تقدیر الدرجات عدد الفقرات أقل قیمة لمعامل التمییز أعلى قیمة لمعامل التمییز المدى بوحدات (Z) المتوسط الانحراف المعیاری
بوحدات التمییز بدرجات (Z) بوحدات التمییز بدرجات (Z)
التقلیدیة 50 0.322 -1.94 0.630 1.91 3.85 0.477 0.080
التجریبیة 50 0.331 - 1.88 0,619 2,35 4.23 0.459 0.068
الاحتمال المقترح للإجابة الصحیحة 50 0.308 - 2.02 0.571 2.03 4.05 0.439 0.065
النموذج اللوجستی الثلاثی البارامتر 50 0.584 -2.73 1.960 1.62 4.35 1.448 0.316
ولقد تم حساب مصفوفة معاملات الإرتباط البینیة بین قیم تمییز الفقرات المقدرة وفق النموذج اللوجستی الثلاثی البارامتر، وقیم تمییز الفقرات المقدرة وفق کل طریقة من طرق تقدیر الدرجات الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة)، ولقد تراوحت قیم معاملات الارتباط ما بین (0.636- 0.897); حیث أتضح وجود علاقة ارتباطیة ذات دلالة إحصائیة عند مستوى دلالة (0٫01) بین قیم معاملات التمییز المقدرة وفق النموذج اللوجستی الثلاثی البارامتر ووفق طرق تقدیر الدرجات الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة); حیث کانت الطریقة التقلیدیة هی الأعلى ارتباطاً بالنموذج اللوجستی الثلاثی البارامتر بمعامل ارتباط بلغت قیمته (0٫723) وهی تشیر إلى علاقة ارتباطیة قویة، ثم جاءت الطریقة التجریبیة بمعامل ارتباط بلغت قیمته (0٫681) ثم طریقة الاحتمال المقترح للإجابة الصحیحة بمعامل ارتباط بلغت قیمته (0٫636).
وفیما یخص المقارنات الثنائیة بین معاملات التمییز المقدرة وفق الطرق الکلاسیکیة فقد أظهرت النتائج أن قیم معاملات الارتباط بین طرق تقدیر الدرجات الکلاسیکیة الثلاث (التقلیدیة، التجریبیة، الاحتمال المقترح للإجابة الصحیحة)، کانت قویة وتتفوق على قیم ارتباط أی منها بالنموذج اللوجستی الثلاثی البارامتر، وقد کانتا الطریقتین التجریبیة والاحتمال المقترح للإجابة الصحیحة هما الأعلى ارتباطاً فی تقدیر قیم معاملات التمییز; حیث بلغ معامل الارتباط بینهما (0٫897) وهی تشیر إلى درجة ارتباط قویة، فی حین کانتا الطریقتین الأقل ارتباطاً هما التقلیدیة والتجریبیة بقیمة ارتباط (0,846) ومع ذلک فإن هذه القیمة تشیر إلى درجة ارتباط قویة.
وفیما یخص المقارنات الثنائیة بین قیم تمییز الفقرات المقدرة وفق طرق تقدیر الدرجات الأربع ککل فقد أظهرت النتائج أن الطریقتین الأکثر ارتباطاً فی تقدیر قیم تمییز الفقرات کانتا الطریقة التجریبیة وطریقة الاحتمال المقترح للإجابة بمعامل ارتباط بلغت قیمته (0٫897) والتی تشیر إلى درجة ارتباط قویة، فی حین کانت الطریقتین الأقل ارتباطاً فی تقدیر قیم تمییز الفقرات هما طریقة الاحتمال المقترح للإجابة الصحیحة والنموذج اللوجستی الثلاثی البارامتر بمعامل ارتباط بلغت قیمته (0٫636).
[ 10 ] - نتائج التساؤل العاشر وتفسیرها:
والذی ینص على أنه " هل تختلف دقة معادلة درجات الاختبارات باختلاف طریقتی المعادلة (المتوسط/المتوسط، المتوسط/الانحراف المعیاری) باستخدام النموذج اللوجستی الثلاثی البارامتر، لأحجام العینات (500، 1000، 1500)، وطولی الاختبار(25، 50)؛ فی ضوء محکی التحیز وجذر متوسط مربع الخطأ؟ "
وللإجابة عن التساؤل السابق تمت المقارنة بین الأحجام المختلفة للعینات (500، 1000، 1500)، وطولین للاختبار(25، 50) ؛ وذلک بأخذ قیم جذر متوسط مربع الخطأ (RMSE) والمتوسط الحسابی للتحیز (BIAS) عند اختلاف حجم العینة ونسبة الفقرات المشترکة إلى عدد فقرات الاختبار الکلی، وطول الاختبار، واختلاف طریقتی المعادلة (المتوسط/المتوسط M-M، المتوسط/الانحراف المعیاری M-SD)؛ بحیث یکون الأثر لمتغیر حجم العینة، وطول الاختبار، عند تحلیل البیانات وفق النموذج اللوجستی الثلاثی البارامتر.
وجدول (22) التالی یوضح قیم (BIAS, RMSE) عند اختلاف حجم العینة ونسبة الفقرات المشترکة وطول الاختبار وطریقة المعادلة وفق النموذج اللوجستی الثلاثی البارامتر.
جدول (22)
قیم (BIAS, RMSE) عند اختلاف حجم العینة ونسبة الفقرات المشترکة وطول الاختبار وطریقة المعادلة وفق النموذج اللوجستی الثلاثی البارامتر
حجم العینة طول الاختبار عدد الفقرات (25) عدد الفقرات (50)
نسبة الفقرات الطریقة BIAS
(التحیز) RMSE
(جذر متوسط مربع الخطأ) BIAS
(التحیز) RMSE
(جذر متوسط مربع الخطأ)
500 10٪ M-M 0.041 0.058 0.037 0.051
M-SD 0.052 0.069 0.039 0.051
20٪ M-M 0.013 0.034 0.013 0.027
M-SD 0.024 0.049 0.015 0.027
30٪ M-M 0.012 0.031 0.007 0.021
M-SD 0.037 0.056 0.010 0.021
1000 10٪ M-M 0.036 0.052 0.004 0.019
M-SD 0.058 0.060 0.011 0.021
20٪ M-M 0.010 0.029 0.025 0.035
M-SD 0.021 0.036 0.029 0.038
30٪ M-M 0.004 0.029 0.009 0.023
M-SD 0.002 0.036 0.013 0.023
1500 10٪ M-M 0.011 0.026 0.021 0.030
M-SD 0.015 0.037 0.012 0.032
20٪ M-M 0.004 0.021 0.005 0.019
M-SD 0.011 0.032 0.007 0.019
30٪ M-M 0.022 0.025 0.010 0.023
M-SD 0.025 0.037 0.018 0.027

یتضح من جدول (22) السابق أن قیم التحیز تختلف باختلاف طریقة المعادلة المستخدمة، وأحجام العینات (500، 1000، 1500)، وطولی الاختبار (25، 50) وفق النموذج اللوجستی الثلاثی البارامتر؛ وذلک باختلاف نسبة الفقرات المشترکة إلى نسبة فقرات الاختبار الکلی (10٪ ، 20٪ ، 30٪) فکلما قلت قیمة التحیز دل ذلک على دقة أکثر فی معادلة درجات الاختبارات.
وللإجابة على التساؤل السابق فقد تم حساب المتوسطات الحسابیة للتحیز (BIAS) ولجذر متوسط مربع الخطأ (RMSE)، ویظهر جدول (23) التالی المتوسطات الحسابیة لکل من (BIAS, RMSE) وفقاً لطریقتی المعادلة (المتوسط/المتوسط ، المتوسط/الانحراف المعیاری) باختلاف حجم العینة وطول الاختبار وفق النموذج اللوجستی الثلاثی البارامتر.
جدول (23)
قیم (BIAS, RMSE) باستخدام طریقتی المعادلة واختلاف حجم العینة
وطول الاختبار وفق النموذج اللوجستی الثلاثی البارامتر
طریقة المعادلة حجم العینة عدد الفقرات (25) عدد الفقرات (50)
BIAS
(التحیز) RMSE
(جذر متوسط مربع الخطأ) BIAS
(التحیز) RMSE
(جذر متوسط مربع الخطأ)
المتوسط/المتوسط 500 0.022 0.041 0.019 0.033
1000 0.016 0.036 0.013 0.026
1500 0.012 0.024 0.012 0.024
المتوسط/الانحراف المعیاری 500 0.037 0.058 0.021 0.033
1000 0.027 0.044 0.017 0.027
1500 0.017 0.035 0.012 0.026
● النتائج المتعلقة بنماذج الاختبار الذی یتألف من (25) فقرة:
أولاً: طریقة (المتوسط/المتوسط)
یتضح من جدول (23) السابق ووفقاً لطریقة (المتوسط/المتوسط) أن قیم التحیز (BIAS) کانت على التوالی (0.022، 0.016، 0.012) ؛ حیث کانت أعلى قیمة للتحیز(0.022)عندما کان حجم العینة (500) ، بینما کانت أقل قیمة للتحیز (0.012)عندما کان حجم العینة (1500)، وتشیر هذه القیم إلى أن ارتفاع حجم العینة یقلل من قیمة التحیز للمعادلة (BIAS).
کما یتضح من الجدول السابق أن قیم جذر متوسط مربع الخطأ (RMSE) کانت على التوالی (0.041، 0.036، 0.024) ؛ حیث کانت أعلى قیمة لجذر متوسط مربع الخطأ (0.041)عندما کان حجم العینة (500)، بینما کانت أقل قیمة (0.024) عندما کان حجم العینة (1500)، وتشیر هذه القیم إلى أن ارتفاع حجم العینة یقلل من قیمة جذر متوسط مربع الخطأ للمعادلة (RMSE).
ومن ثم یتضح أنه عند استخدام طریقة (المتوسط/المتوسط)، وفق النموذج اللوجستی الثلاثی البارامتر، وطول الاختبار(25) فقرة، أنه کلما زاد حجم العینة تقل قیمة التحیز(BIAS) وقیمة جذر متوسط مربع الخطأ (RMSE).
ثانیاً: طریقة (المتوسط/الانحراف المعیاری).
یتضح من جدول (23) السابق ووفقا لطریقة (المتوسط/الانحراف المعیاری) أن قیم التحیز (BIAS) کانت على التوالی (0.037، 0.027، 0.017) ؛ حیث کانت أعلى قیمة للتحیز (0.037) عندما کان حجم العینة (500)، بینما کانت أقل قیمة للتحیز(0.017) عندما کان حجم العینة (1500)، وتشیر هذه القیم إلى أن ارتفاع حجم العینة یقلل من قیمة التحیز للمعادلة (BIAS).
کما یتضح من الجدول السابق أن قیم جذر متوسط مربع الخطأ (RMSE) کانت على التوالی (0.058، 0.044، 0.035) ؛ حیث کانت أعلى قیمة لجذر متوسط مربع الخطأ (0.058) عندما کان حجم العینة (500)، بینما کانت أقل قیمة (0.035) عندما کان حجم العینة (1500)، وتشیر هذه القیم إلى أن ارتفاع حجم العینة یقلل من قیمة جذر متوسط مربع الخطأ للمعادلة (RMSE).
ومن ثم یتضح أنه عند استخدام طریقة (المتوسط/الانحراف المعیاری)، وفق النموذج اللوجستی الثلاثی البارامتر، وطول الاختبار(25) فقرة، أنه کلما زاد حجم العینة تقل قیمة التحیز(BIAS) وقیمة جذر متوسط مربع الخطأ (RMSE).
ثالثاً: المقارنة بین طریقتی المعادلة (المتوسط/المتوسط ، المتوسط/الانحراف المعیاری)
یتضح أنه عند المقارنة بین الطریقتین، طریقة (المتوسط/المتوسط) وطریقة (المتوسط/ الانحراف المعیاری)، للاختبار المکون من (25) فقرة، لأحجام العینات (500، 1000، 1500) یتضح أن هناک اختلاف بین الطریقتین فی دقة معادلة درجات الاختبار.
فیما یتعلق بقیم التحیز (BIAS) عند استخدام طریقة (المتوسط/المتوسط) کانت على التوالی (0.022، 0.016، 0.012) ، وعند استخدام طریقة (المتوسط/الانحراف المعیاری) کانت على التوالی (0.037، 0.027، 0.017) ، ویتضح أن أصغر قیمة للتحـــیـــز کانت عند استخدام طریقــة (المتوسط/المتوسط) عنــد جمیــع أحجــــام العینات (500، 1000، 1500)، وأن العینات الکبیرة تعطی دقة أکبر فی معادلة درجات الاختبار من العینات الصغیرة، وعلیه تشیر نتائج التحیز(BIAS) أن استخدام طریقة (المتوسط/المتوسط) أکثر دقة فی معادلة درجات الاختبارات مقارنة مع طریقة (المتوسط/الانحراف المعیاری)، وفق النموذج اللوجستی الثلاثی البارامتر ، عند أحجام العینات (500، 1000، 1500)، وطول الاختبار(25) فقرة.
وفیما یتعلق بقیم جذر متوسط مربع الخطأ (RMSE) عند استخدام طریقة (المتوسط/المتوسط) کانت على التوالی (0.041، 0.036، 0.024)، وعند استخدام طریقة (المتوسط/الانحراف المعیاری) کانت على التوالی (0.058، 0.044، 0.035)، ویتضح أن أصغر قیمة لجذر متوسط مربع الخطأ کانت عن استخدام طریقة (المتوسط/المتوسط) عند جمیع أحجام العینات (500، 1000، 1500)، وأن العینات الکبیرة تعطی دقة أکبر فی معادلة درجات الاختبار من العینات الصغیرة، وعلیه تشیر نتائج جذر متوسط مربع الخطأ (RMSE) أن طریقة (المتوسط/المتوسط) أکثر دقة فی معادلة درجات الاختبارات مقارنة مع طریقة (المتوسط/الانحراف المعیاری)، وفق النموذج اللوجستی الثلاثی البارامتر، عند أحجام العینات (500، 1000، 1500)، وطول الاختبار(25) فقرة.
●النتائج المتعلقة بنماذج الاختبار الذی یتألف من (50) فقرة:
أولاً: طریقة (المتوسط/ المتوسط)
یتضح من جدول (23) السابق ووفقاً لطریقة (المتوسط/المتوسط) أن قیم التحیز (BIAS) کانت على التوالی (0.019، 0.013، 0.012)؛ حیث کانت أعلى قیمة للتحیز(0.019) عندما کان حجم العینة (500)، بینما کانت أقل قیمة للتحیز (0.012) عندما کان حجم العینة (1500)، وتشیر هذه القیم إلى أن ارتفاع حجم العینة یقلل من قیمة التحیز للمعادلة (BIAS).
کما یتضح من الجدول السابق أن قیم جذر متوسط مربع الخطأ (RMSE) کانت على التوالی (0.033، 0.026، 0.024)؛ حیث کانت أعلى قیمة لجذر متوسط مربع الخطأ (0.033) عندما کان حجم العینة (500)، بینما کانت أقل قیمة (0.024) عندما کان حجم العینة (1500)، وتشیر هذه القیم إلى أن ارتفاع حجم العینة یقلل من قیمة جذر متوسط مربع الخطأ للمعادلة (RMSE).
ومن ثم یتضح أنه عند استخدام طریقة (المتوسط/المتوسط)، وفق النموذج اللوجستی الثلاثی البارامتر، وطول الاختبار(50) فقرة، أنه کلما زاد حجم العینة تقل قیمة التحیز (BIAS) وقیمة جذر متوسط مربع الخطأ (RMSE).
ثانیاً: طریقة (المتوسط/ الانحراف المعیاری)
یتضح من جدول (23) السابق ووفقا لطریقة (المتوسط/الانحراف المعیاری) أن قیم التحیز (BIAS) کانت على التوالی (0.021، 0.017، 0.012)؛ حیث کانت أعلى قیمة للتحیز (0.021) عندما کان حجم العینة (500)، بینما کانت أقل قیمة للتحیز(0.012) عندما کان حجم العینة (1500)، وتشیر هذه القیم إلى أن ارتفاع حجم العینة یقلل من قیمة التحیز للمعادلة (BIAS).
کما یتضح من الجدول السابق أن قیم جذر متوسط مربع الخطأ (RMSE) کانت على التوالی (0.033، 0.027، 0.026)؛ حیث کانت أعلى قیمة لجذر متوسط مربع الخطأ (0.033) عندما کان حجم العینة (500)، بینما کانت أقل قیمة (0.026) عندما کان حجم العینة (1500)، وتشیر هذه القیم إلى أن ارتفاع حجم العینة یقلل من قیمة جذر متوسط مربع الخطأ للمعادلة (RMSE).
ومن ثم یتضح أنه عند استخدام طریقة (المتوسط/الانحراف المعیاری)، وفق النموذج اللوجستی الثلاثی البارامتر، وطول الاختبار(50) فقرة، أنه کلما زاد حجم العینة تقل قیمة التحیز(BIAS) وقیمة جذر متوسط مربع الخطأ (RMSE).
ثالثاً: المقارنة بین طریقتی المعادلة (المتوسط/المتوسط ، المتوسط/الانحراف المعیاری)
یتضح أنه عند المقارنة بین الطریقتین، طریقة (المتوسط/المتوسط) وطریقة (المتوسط/الانحراف المعیاری)، للاختبار المکون من (50) فقرة، لأحجام العینات (500، 1000، 1500) یتضح أن هناک اختلاف بین الطریقتین فی دقة معادلة درجات الاختبار.
فیما یتعلق بقیم التحیز (BIAS) عند استخدام طریقة (المتوسط/المتوسط) کانت على التوالی (0.019، 0.013، 0.012)، وعند استخدام طریقة (المتوسط/الانحراف المعیاری) کانت على التوالی (0.021، 0.017، 0.012)، ویتضح أن أصغر قیمة للتحیز کانت عند استخدام طریقة (المتوسط/المتوسط) عند جمیع أحجام العینات (500، 1000، 1500)، وأن العینات الکبیرة تعطی دقة أکبر فی معادلة درجات الاختبار من العینات الصغیرة، وعلیه تشیر نتائج التحیز (BIAS) أن استخدام طریقة (المتوسط/المتوسط) أکثر دقة فی معادلة درجات الاختبارات مقارنة مع طریقة (المتوسط/الانحراف المعیاری)، وفق النموذج اللوجستی الثلاثی البارامتر، عند أحجام العینات (500، 1000، 1500)، وطول الاختبار(50) فقرة.
وفیما یتعلق بقیم جذر متوسط مربع الخطأ (RMSE) عند استخدام طریقة (المتوسط/المتوسط) على التوالی (0.033، 0.026، 0.024)، وعند استخدام طریقة (المتوسط/الانحراف المعیاری) کانت على التوالی (0.033، 0.027، 0.026)، ویتضح أن أصغر قیمة لجذر متوسط مربع الخطأ کانت عن استخدام طریقة (المتوسط/المتوسط) عند جمیع أحجام العینات (500، 1000، 1500)، وأن العینات الکبیرة تعطی دقة أکبر فی معادلة درجات الاختبار من العینات الصغیرة، وعلیه تشیر نتائج جذر متوسط مربع الخطأ (RMSE) أن استخدام طریقة (المتوسط/المتوسط) أکثر دقة فی معادلة درجات الاختبارات مقارنة مع طریقة (المتوسط/الانحراف المعیاری)، وفق النموذج اللوجستی الثلاثی البارامتر، عند أحجام العینات (500، 1000، 1500)، وطول الاختبار(50) فقرة.
یتضح مما سبق أن طریقة (المتوسط/المتوسط( تعتبر أکثر دقة فی معادلة درجات الاختبارات مقارنة مع طریقة (المتوسط/الانحراف المعیاری) وفق النموذج اللوجستی الثلاثی البارامتر، عند أحجام العینات (500، 1000، 1500)، وطولی الاختبار (25 ، 50) ونسبة الفقرات المشترکة (10٪ ،20٪ ، 30٪)، کما أنه تقل قیم التحیز (BIAS) وجذر متوسط مربع الخطأ (RMSE)، مع ازدیاد حجم العینة وطول الاختبار، عند استخدام طریقة (المتوسط/المتوسط) وفق النموذج اللوجستی الثلاثی البارامتر، عند أحجام العینات (500، 1000، 1500)، وطولی الاختبار(25 ، 50 )، فضلاً عن أن هناک علاقة طردیة بین زیادة حجم العینة وفق طولی الاختبار فی دقة المعادلة، فکلما زاد حجم العینة زادت دقة المعادلة.

مراجع الدراسة
ابتسام عیسى خصاونة (2012). أثر اختلاف الأوزان النسبیة لقواعد انتهاک صیاغة فقرات الاختیار من متعدد فی الاختبارات على خصائصها السیکومتریة (رسالة دکتوراه غیر منشورة). کلیة التربیة، جامعة الیرموک.
إبراهیم محمد یعقوب، باسل خمیس أبو فودة (2010). أثر مخالفة قواعد صیاغة فقرات الاختیار من متعدد على التقدیرات المختلفة لنظریة استجابة الفقرة. مجلة کلیة التربیة، کلیة التربیة، جامعة الإسکندریة، 20(2)، 52-89.
إبراهیم محمد یعقوب، باسل خمیس أبو فودة (2012). اثر مخالفة قواعد صیاغة فقرات الاختیار من متعدد على الخصائص السیکومتریة للاختبار وفقراته. مجلة جامعة دمشق للعلوم التربویة والنفسیة، جامعة دمشق، 28(1)، 419-443.
أحمد عودة (2014). القیاس والتقویم فی العملیة التدریسیة. أربد: دار الأمل للنشر والتوزیع.
أحمد محمد التقی (2013). النظریة الحدیثة فی القیاس (ط2). عمان: دار المسیرة للنشر والتوزیع والطباعة.
أمینة محمد کاظم (1988). دراسة نظریة نقدیة حول القیاس الموضوعی للسلوک (نموذج راش). الکویت: مؤسسة الکویت للتقدم العلمی.
آن أناستازی، سوزانا أوربینا (2015). القیاس النفسی (ترجمة: صلاح الدین محمود علام). عمان: دار الفکر للنشر والتوزیع.
باسل خمیس أبو فودة (2014). أثر إعادة ترتیب بدائل الاستجابة فی صعوبة فقرة الاختیار من متعدد. مجلة دراسات عربیة فی التربیة وعلم النفس، (53)، 265-287.
باسل خمیس أبو فودة ؛ نجاتی أحمد یونس (2012). الاختبارات التحصیلیة المدرسیة (أسس بناء وتحلیل الأسئلة). عمان: دار المسیرة للطابعة والنشر.
حابس سعد الزبون (2013). أثر حجم العینة على تقدیر دالة المعلومات للاختبار والخطأ المعیاری فی تقدیرها باستخدام النظریة الحدیثة فی القیاس. مجلة جامعة النجاح للأبحاث، جامعة النجاح الوطنیة، 27(6)، 1313-1334.
حمدی یونس أبو جراد (2017). فاعلیة النموذج اللوجستی ثلاثی المعلمة فی معایرة مفردات اختبار تحصیلی محکی المرجع فی مقرر الریاضیات للصف السابع. إربد للبحوث والدراسات، جامعة إربد الأهلیة، 19(1)، 253-288.
حیدر إبراهیم ظاظا (2012). الکشف عن مدى انتهاک قواعد صیاغة فقرة الاختیار من متعدد فی أسئلة شهادة الدراسة الثانویة العامة فی الأردن. المجلة الأردنیة فی العلوم التربویة، جامعة الیرموک،8(1)، 81-91.
رحاب سعید الحکمانی (2008). مقارنة بین النظریة الکلاسیکیة للاختبار ونظریة الاستجابة للمفردة فی تقدیر قدرات الأفراد ومدى استقرار مؤشرات المفردات الاختباریة. المجلة التربویة، جامعة الکویت، 23(89)، 253- 259.
ساری سلیم سواقد (1992). اختبار صحة الافتراضات النظریة لطرق التصحیح لأثر التخمین، ومقارنة أثر استخدام هذه الطرق على الخصائص السیکومتریة للفقرة (رسالة دکتوراه غیر منشورة). کلیة الدراسات العلیا، الجامعة الأردنیة.
شاهر خالد سلیمان، علی محمد الصالح (2017). أثر موقع البدیل الصحیح فی اختبار اختیار من متعدد على تقدیرات معالم الفقرات والقدرة وفق النموذج اللوجستی ثلاثی المعلمة. دراسات عربیة فی التربیة وعلم النفس، رابطة التربویین العرب،90، 98-120.
صبری حسن الطراونة (2015). مدى انتهاک قواعد کتابة فقرات الاختیار من متعدد فی اختبارات الکفاءة فی اللغة العربیة واللغة الإنجلیزیة بجامعة مؤتة. مجلة التربیة، کلیة التربیة، جامعة الأزهر، 163(2)، 571-594.
صلاح الدین محمود علام (٢٠٠٥). نماذج الاستجابة للمفردة الاختباریة أحادیة البعد ومتعددة الأبعاد وتطبیقاتها فی القیاس النفسی والتربوی. القاهرة: دار الفکر العربی.
صلاح الدین محمود علام (2007). الاختبارات التشخیصیة مرجعیة المحک فی المجالات التربویة والنفسیة والتدریبیة (ط2). القاهرة: دار الفکر العربی.
صلاح الدین محمود علام (2015). القیاس والتقویم التربوی والنفسی: أساسیة وتطبیقاته وتوجهاته المعاصرة (ط6). القاهرة: دار الفکر العربی.
صلاح شریف عبد الوهاب ( 2001). أثر بعض الطرق الوزنیة لتقدیر الدرجات على صدق الاختبارات مرجعیة المحک ذات الاختیار من متعدد، مجلة کلیة التربیة ببنها، جامعة بنها، 12(49)، 202-255.
طه الخرشه (2016). أثر طرق معالجة أثر التخمین على تقدیر إحصائیات الأفراد والفقرات فی اختبارات الاختیار من متعدد وفق النظریة الحدیثة فی القیاس. مجلة جامعة النجاح للأبحاث، جامعة النجاح الوطنیة، 30(12)، 2348-2366.
عبد الرحمن عبد الله النفیعی (2012). الخصائص السیکومتریة لاختبار المصفوفات المتتابعة المتقدم فی ضوء نظریة الاستجابة للمفردة الاخباریة. مجلة التربیة، جامعة الأزهر،147(2)، 175-214.
عزالدین عبدالله النعیمی (2015). معالم الفقرات والأفراد وخاصیة اللا تغیر فی الاختبارات الوطنیة لضبط جودة التعلیم فی الأردن مقارنة بین النظریة الکلاسیکیة والنظریة الحدیثة فی القیاس. مجلة اتحاد الجامعات العربیة للتربیة وعلم النفس، کلیة التربیة، جامعة دمشق، 13(1)، 136-155.
عفاف راضی اللحیانی (2012). أثر بعض طرق تقدیر الدرجات للمفردات على ثبات وصدق درجات اختبار تحصیلی فی الریاضیات ذی الاختیار من متعدد لدى طالبات الصف الأول الثانوی بمکة المکرمة. دراسات عربیة فی التربیة وعلم النفس، رابطة التربویین العرب، 22(2)، 487-516
فریال محمد أبو عواد (2018). استقصاء تقدیرات معالم الفقرات والقدرة ودالة المعلومات لاختبار القدرات المعرفیة باستخدام النموذج اللوجستی ثلاثی المعلمة. دراسات نفسیة وتربویة، جامعة قاصدی مرباح،11(1)، 1-17.
لیندا کروکر، وجیمس الجینا (2017). مدخل الى نظریة القیاس التقلیدیة والمعاصرة (ترجمة: هند عبدالمجید الحموری، زینات یوسف دعنا). عمان: دار الفکر للنشر والتوزیع.
محمد صیتان الصمادی (2015). أثر مخالفة قواعد صیاغة فقرات الاختیار من متعدد على تقدیرات معالمها ودالة معلومات الاختبار باستخدام النموذج ثلاثی المعلمة ( رسالة دکتوراه غیر منشورة). کلیة التربیة، جامعة الیرموک.
معین سلمان النصراوین، محمد ولید موسى البطش (2018). مقارنة أربعة نماذج لمعالجة التخمین فی الأسئلة الموضوعیة/الاختیار من متعدد فی إطار النموذج اللوجستی ثلاثی المعلمة وأثرها على دقة تقدیر معلمة القدرة. دراسات العلوم التربویة، الجامعة الأردنیة، 45(4)، 332-353.
نضال الشریفین، رانیا الصبح (2011). أثر بنیة فقرات الاختیار من متعدد ومستوى القدرة لدى الأفراد على دقة التقدیرات لمعالم الفقرات والأفراد وفق نظریة الاستجابة للفقرة. مجلة جامعة أم القرى للعلوم التربویة والنفسیة، 3(2)، 45 -110.
نضال کمال الشریفین (2012). أثر طریقة تقدیر معالم الفقرة وقدرات الأفراد على قیم معالم الفقرة، والخصائص السیکومتریة للاختبار، فی ضوء تغیر حجم العینة. المجلة التربویة، جامعة الکویت، 26(104)، 177-238.
یوسف عبدالقادر أبوشندی، راشد سیف المحرزی، إیهاب محمد عمارة (2018). دقة تقدیر العلامات الحقیقیة عند درجات مختلفة للارتباط الموضعی بین فقرات الاختبار فى توزیعات مختلفة للقدرة. مجلة العلوم التربویة والنفسیة، جامعة البحرین، 19(3)، 465-491.

Adedoyin, O. (2010). Investigating the Invariance of Person Parameter Estimates Based on Classical Test and Item Response Theories. International Journal of Educational Science, 2(2), 107-113.
Aiken, L. R. (1987).Testing With Multiple-Choice Items. Journal of Research and Development in Education. 20 (4), 44-57.
Aiken, L. R. (2003). Psychological Testing and Assessment (11th ed). Boston: Pearson Education Group.
Aiken, L. R. & Groth-Marnat, G. (2006). Psychological Testing and Assessment (12th Ed). Boston, MA: Pearson Education Group.
Ainol, M. A. & Noor, L. A. (2006). Classical and Rasch Analyses of Dichotomously Scored Reading Comprehension Test Items. Malaysian Journal of ELT Research, 2(1), 1-20.
Albano, A. D., Christ, T. J. & Cai, L. (2018). Evaluating Equating in Progress Monitoring Measures Using Multilevel Modeling. Measurement: Interdisciplinary Research and Perspectives, 16(3), 168-180.
Angoff, W. H. (1987). Technical and Practical Issues in Equating. Applied Psychological Measurement, 11(3), 291-300.
Anstasi, A. & Urbina, S. (2005). Psychological Testing (7th ed). New Jersey: Prentic-Hall.
Ayala, R. J. (2008). The Theory and Practice of Item Response Theory :Methodology in the Social Sciences. New York, NY: The Guilford Press.
Ayhan, S. (2015). Comparability of Scores from Cat and Paper and Pencil Implementations of Student Selection Examination to Higher Education, (Unpublished Master Dissertation). Bilkent University, Ankara.
Bechger, T., Maris, G., Verstralen, H. & Beguin, A. (2003). Using Classical Test Theory in Combination with Item Response Theory. Applied Psychological Measurement, 27(5), 319-334.
Bond, T. G. & Fox, C. M. (2015). Applying The Rasch Model: Fundamental Measurement in the Human Sciences (3th Ed). New York, NY: Routledge.
Breakall, J., Randles, C. & Tasker, R. (2019). Development and Use of a Multiple-Choice Item Writing Flaws Evaluation Instrument in the Context of General Chemistry. Chemistry Education Research and Practice, 20(2), 369-382.
Campbell, M. L. (2015). Multiple-Choice Exams and Guessing: Results from a One-Year Study of General Chemistry Tests Designed to Discourage Guessing. Journal of Chemical Education, 92(7), 1194-1200.
Cappelleri, J. C., Jason, L.J. & Hays, R. D. (2014). Overview of classical test theory and item response theory for the quantitative assessment of items in developing patient-reported outcomes measures, Clin Ther, 36(5), 648-662.
Chang, S. H., Lin, P. C. & Lin, Z. C. (2007). Measures of Partial Knowledge and Unexpected Responses in Multiple-Choice Tests. Educational Technology & Society, 10(4), 95-109.
Coggins, J. V., Kim, J. K. & Briggs, L. C. (2017). Comparison of IRT and CTT Using Secondary School Reading Comprehension Assessments. Research in the Schools, 24(1), 80-93.
Crehan, K. & Haladyna, T. M. (1991). The Validity of Two Item-Writing Rules. The Journal OF Experimental Education, 59(2), 183-192.
David, M. (2013). A Note on the Item Information Function of the Four-Parameter Logistic Model. Applied Psychological Measurement, 37(4), 304-315.
DeMars, C. (2010). Item Response Theory: Understanding Statistics Measurement. New York, NY: Oxford University Press.
Dimiter, M. D. (2016). An Approach to Scoring and Equating Tests with Binary Items: Piloting With Large-Scale Assessments. Educational and Psychological Measurement, 76(6), 954-975.
Ebel, R. L. & Frisbie, D. A. (1991). Essentials of Educational Measurement. (5th ED), New Jersey: Prentice-Hall, Englewood Cliffs.
Eleje, L. I., Onah, F. E. & Abanobi, C. C. (2018). Comparative Study of Classical Test Theory and Item Response Theory Using Diagnostic Quantitative Economics Skill Test Item Analysis Results. European Journal of Educational and Social Sciences, 3 (1), 71 – 89.
Field, A. (2009). Discovering Statistics Using SPSS: Introducing Statistical Method (3rd ed.). Thousand Oaks, CA: Sage Publications.
Fraser, C. & McDonald, R. P. (1988). NOHARM: Least Squares Item Factor Analysis. Multivariate Behavior Research, 23, 267-269.
Georgiev, N. (2008). Item Analysis of C, D and E Series from Raven’s Standard Progressive Matrices with Item Response Theory Two-Parameter Logistic Model. Europe′s Journal of Psychology, 4(3), 1-17.
Gleason, J., Alley, A. & Baker, S. (2010). Effects of Item Writing Rules on The Reliability of Instruments to Measure The Mathematical Knowledge of Teachers. Journal of Mathematical Sciences & Mathematics Education, 5(2), 21-27.
Gorsuch, R. L. (1983). Factor Analysis (2nd ed.). Hillside, NJ: Lawrence Erlbaum Associates.
Gregory, R. J. (2014). Psychological Testing: History, Principles and Applications(7th ED). Boston: Person Education Group.
Haladyna, T. M., Downing, S. M. & Rodriguez, M. C. (2002). A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement in Education, 15 (3), 309-334.
Hambleton, R. K. (2004). Theory, Methods, and Practices in Testing for The 21st Century. Psicothema, 16(4), 696-701.
Hambleton, R. K. & Jonse, R. W (1993). Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement, 12(3), 38-47.
Hambleton, R. K. & Jones, R. W. (1994). Item Parameter Estimation Errors and Their Influence on Test Information Function. Applied Measurement in Education, 7(3), 171-186.
Hambleton, R. K. & Swaminathan, H. (1985). Item Response Theory: Principles and Applications. Boston, Kluwer-Nijhoff Publishers.
Hambleton, R. K., Swaminthan, H. & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park, CA: Sage Publications.
Harris, D. J. & Crouse, J. D. (1993). A Study of Criteria Used In Equating. Applied Measurement In Equating, 6(3), 195-240.
Hattie, J. (1985). Methodology Review: Assessing Unidimensionality of Tests and Items. Applied Psychological Measurement, 9 (2), 139-164.
Huang, Y., Trevisan, M. & Storfer, A. (2007). The Impact of the “all-of-the-above” Option and Student Ability on Multiple Choice Tests. International Journal for the Scholarship of Teaching and Learning, 1(2), 1-13.
Hulin, C. L., Drasgow, F. & Parsons, C. K. (1983). Item Response Theory: Application to Psychological Measurement. Homewood IL: Dow Jones Irwin.
Hwang, D. (2002). Classical Test Theory and Item Response Theory: Analytical and Empirical Comparisons, Paper presented at the Annual Meeting of the Southwest Educational Research Association, Austin, 1-22. ED. 466 779.
Inal, H. & Anil, D. (2018). Investigation of Group Invariance in Test Equating under Different Simulation Conditions. Eurasian Journal of Educational Research, 78, 67-86.
Jasper, F. (2010). Applied Dimensionality and Test Structure Assessment with The START-M Mathematics Test. The International Journal of Educational and Psychological Assessment, 6(1), 104-125.
Jinming, Z. (2012). The Impact of Variability of Item Parameter Estimators on Test Information Function. Journal of Educational and Behavioral Statistics, 37(6), 737-757.
Joo, S.-H., Lee, P. & Stark, S. (2018). Development of Information Functions and Indices for the GGUM-RANK Multidimensional Forced Choice IRT Model. Journal of Educational Measurement, 55(3), 357-372.
Kellere, R. R. (2007). A Comparison of Item Response Theory True Score Equating and Item Response Theory-Based Local Equating (Unpublished Doctoral Dissertation), University Of Massachusetts Amherst.
Kim, K. Y. & Lee, W. (2017). The Impact of Three Factors on the Recovery of Item Parameters for the Three-Parameter Logistic Model. Applied Measurement in Education, 30(3), 228-242.
Kim, S., Cohen, A. S. & Lin, Y. (2006). LDIP: A Computer Program for Local Dependence Indices for Polytomous Items. Applied Psychological Measurement, 30(6),509- 510.
Kolen, M. J. & Brennan, R. L. (2014). Test Equating, Scaling, And Linking: Methods And Practices (3nd Ed). New York: Springer.
Kolen, M. J. &Whitney, D. R. (1982). Comparison Of Four Procedures For Equating The Tests Of General Educational Development. Journal Of Educational Measurement, 9(4). 279-293.
Lau. P. N., Lau, S. H., Hong, K. S. & Usop, H. (2011). Guessing, partial Knowledge, and Misconceptions in Multiple-Choice Tests. Educational Technology& Society, 14(4), 99-110.
Lesage. E, Valcke. M, & Sabbe (2013). Scoring Methods for Multiple Choice Assessment in Higher Education is it Still a Matter of Number Right Scoring or Negative Marking? Studies in Educational Evaluation, 39(3), 188-193.
Lin, C. K. (2018). Effects of Removing Responses with Likely Random Guessing Under Rasch Measurement on a Multiple-Choice Language Proficiency Test. Language Assessment Quarterly, 15(4), 406-422.
Magis, D. & Raîche, G. (2012). On the Relationships Between Jeffreys Modal and Weighted Likelihood Estimation of Ability Under Logistic IRT Models. Psychometrika. 77(1), 163-169.
Mueller, D. & Schrock, T. (1982). Effects of Violating Three Multiple-Choice Item Construction Principles. The Journal of Educational Research, 75 (5), 314-318.
Natarajan, V.(2009). Basic Principles of IRT And Application to Practical Testing & Assessment. MeritTrac Services (P) Ltd.
Ndalichako, J. & Rogers, W. T. (1997). Comparison of Finite Score Theory, Classical Test Theory and Item Response Theory in Scoring Multiple-choice Items. Educational and Psychological Measurement, 57(4), 580-589.
Nering, M. L. & Ostini, R. (2010). Handbook of Polytomous Item Response Theory Models Nering. New York, NY: Routledge /Taylor & Francis Group.
Ojerinde D. (2013). Classical Test Theory (CTT) VS Item Response Theory (IRT): An Evaluation of The Comparability of Item Analysis Results. A Guest Lecture Presented at The Institute of Education, University of Ibadan on 23rd May.
Onder, I. (2007). An Investigation of Goodness of Model Data Fit Model Veri Uyumunun Araştirilmasi. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 32, 210-220.
Öztürk-Gübes, N. & Kelecioglu, H. (2016). The Impact of Test Dimensionality, Common-Item Set Format, and Scale Linking Methods on Mixed-Format Test Equating. Educational Sciences: Theory and Practice, 16(3), 715-734.
Pachai, M. V., DiBattista, D. & Kim, J. A. (2015). A Systematic Assessment of ‘None of the Above’ on Multiple Choice Tests in a First Year Psychology Classroom. The Canadian Journal for the Scholarship of Teaching and Learning, 6(3), 1-14.
Penfield, R. D. (2014). An NCME Instructional Module on Polytomous Item Response Theory Models. Educational Measurement: Issues and Practice, 33(1), 36-48.
Petersen, N. S., Kolen, M. J. & Hoover, H. D. (1989). Scaling, Norming and Equating. In R. L. Linn (Ed.), Educational Measurement (3rd ed., Pp.221-262). New York NY: Macmillan Publishing company.
Raykov, T., Marcoulides, G. A. (2016). On the Relationship between Classical Test Theory and Item Response Theory: From One to the Other and Back. Educational and Psychological Measurement, 76(2), 325-338.
Reise, S. P. & Revicki, D. A. (2015). Handbook of Item Response Theory Modeling: Applications to Typical Performance Assessment. New York, NY: Routledge.
Reise, S. P. & Waller, N. G. (2003). How Many IRT Parameters Does It Take To Model Psychopathology Items?. Psychological Methods, 8(2), 164-184.
Rodriguez, M. C. & Albano, A. D. (2017). The College Instructor's Guide to Writing Test Items: Measuring student learning. New York, NY: Routledge.
Slepkov, A. D. & Godfrey, A. T. (2019). Partial Credit in Answer-Until-Correct Multiple-Choice Tests Deployed in a Classroom Setting. Applied Measurement in Education, 32(2), 138-150.
Sočan, G. (2015). Empirical Option Weights for Multiple-Choice Items: Interactions with Item Properties and Testing Design. Advances in Methodology & Statistics / Metodoloski zvezki, 12(1/2), 25-43.
Stage, C. (2003). Classical Test Theory or Item Response Theory . The Swedish Experience, Umea University, (7), 1-30.
Steiger, J. H. (1980). Tests for Comparing Elements of A Correlation Matrix. Psychological Bulletin, 87(2), 245-251.
Tarrant, M., Knierim, A., Hayes, S. & Ware, J. (2006). The Frequency of Item Writing Flaws in Multiple-Choice Questions Used in High Stakes Nursing Assessments. Nurse Education in Practice, 26(8), 662-671.
Tay, L., Huang, Q. & Vermunt, J. K. (2016). Item Response Theory with Covariates (IRT-C): Assessing Item Recovery and Differential Item Functioning for the Three-Parameter Logistic Model. Educational and Psychological Measurement, 76(1), 22-42.
Thomas, M., Steven, M. & Michael, C. (2002). A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement In Education, 15(3), 309-334.
Ueckert, S. (2018). Modeling Composite Assessment Data Using Item Response Theory. Pharmacometrics & Systems Pharmacology, 7(4), 205-218.
Van der Linden, W. J. (2009). Conceptual Issues in Response-Time Modeling. Journal of Educational and Measurement, 46(3), 247–272.
Van der Linden, W. J. (2010). Item Response Theory. International Encyclopedia of Education, 4, 81-88.
Van der Linden, W. J. (2016). Handbook of Item Response Theory. New York, NY: CRC Press /Taylor & Francis Group.
Vanderoost, J., Janssen, R., Eggermont, J., Callens, R. & De Laet, T. (2018). Elimination Testing with Adapted Scoring Reduces Guessing and Anxiety in Multiple-Choice Assessments, but does not Increase Grade Average in Comparison with Negative Marking. PLoS ONE, 13(10), 1-27.
Zhonghua, Z. (2010). Comparison of Different Equating Methods and An Application to Link Testlet-Based Tests. (Unpublished Doctoral Dissertation), The Chinese University of Hong Kong.
Zimmerman, D. W. & Williams, R. H. (2003). A new look at the influence of guessing on the reliability of multiple-choice tests. Applied Psychological Measurement, 27(5), 357-371.

المراجع

مراجع الدراسة

ابتسام عیسى خصاونة (2012). أثر اختلاف الأوزان النسبیة لقواعد انتهاک صیاغة فقرات الاختیار من متعدد فی الاختبارات على خصائصها السیکومتریة (رسالة دکتوراه غیر منشورة). کلیة التربیة، جامعة الیرموک.

إبراهیم محمد یعقوب، باسل خمیس أبو فودة (2010). أثر مخالفة قواعد صیاغة فقرات الاختیار من متعدد على التقدیرات المختلفة لنظریة استجابة الفقرة. مجلة کلیة التربیة، کلیة التربیة، جامعة الإسکندریة، 20(2)، 52-89.

إبراهیم محمد یعقوب، باسل خمیس أبو فودة (2012). اثر مخالفة قواعد صیاغة فقرات الاختیار من متعدد على الخصائص السیکومتریة للاختبار وفقراته. مجلة جامعة دمشق للعلوم التربویة والنفسیة، جامعة دمشق، 28(1)، 419-443.

أحمد عودة (2014). القیاس والتقویم فی العملیة التدریسیة. أربد: دار الأمل للنشر والتوزیع.

أحمد محمد التقی (2013). النظریة الحدیثة فی القیاس (ط2). عمان: دار المسیرة للنشر والتوزیع والطباعة.

أمینة محمد کاظم (1988). دراسة نظریة نقدیة حول القیاس الموضوعی للسلوک (نموذج راش). الکویت: مؤسسة الکویت للتقدم العلمی.

آن أناستازی، سوزانا أوربینا (2015). القیاس النفسی (ترجمة: صلاح الدین محمود علام). عمان: دار الفکر للنشر والتوزیع.

باسل خمیس أبو فودة (2014). أثر إعادة ترتیب بدائل الاستجابة فی صعوبة فقرة الاختیار من متعدد. مجلة دراسات عربیة فی التربیة وعلم النفس، (53)، 265-287.

باسل خمیس أبو فودة ؛ نجاتی أحمد یونس (2012). الاختبارات التحصیلیة المدرسیة (أسس بناء وتحلیل الأسئلة). عمان: دار المسیرة للطابعة والنشر.

حابس سعد الزبون (2013). أثر حجم العینة على تقدیر دالة المعلومات للاختبار والخطأ المعیاری فی تقدیرها باستخدام النظریة الحدیثة فی القیاس. مجلةجامعةالنجاحللأبحاث، جامعةالنجاحالوطنیة، 27(6)، 1313-1334.

حمدی یونس أبو جراد (2017). فاعلیة النموذج اللوجستی ثلاثی المعلمة فی معایرة مفردات اختبار تحصیلی محکی المرجع فی مقرر الریاضیات للصف السابع. إربد للبحوث والدراسات، جامعة إربد الأهلیة، 19(1)، 253-288.

حیدر إبراهیم ظاظا (2012). الکشف عن مدى انتهاک قواعد صیاغة فقرة الاختیار من متعدد فی أسئلة شهادة الدراسة الثانویة العامة فی الأردن. المجلة الأردنیة فی العلوم التربویة، جامعة الیرموک،8(1)، 81-91.

رحاب سعید الحکمانی (2008). مقارنة بین النظریة الکلاسیکیة للاختبار ونظریة الاستجابة للمفردة فی تقدیر قدرات الأفراد ومدى استقرار مؤشرات المفردات الاختباریة. المجلة التربویة، جامعة الکویت، 23(89)، 253- 259.

ساری سلیم سواقد (1992). اختبار صحة الافتراضات النظریة لطرق التصحیح لأثر التخمین، ومقارنة أثر استخدام هذه الطرق على الخصائص السیکومتریة للفقرة (رسالة دکتوراه غیر منشورة). کلیة الدراسات العلیا، الجامعة الأردنیة.

شاهر خالد سلیمان، علی محمد الصالح (2017). أثر موقع البدیل الصحیح فی اختبار اختیار من متعدد على تقدیرات معالم الفقرات والقدرة وفق النموذج اللوجستی ثلاثی المعلمة. دراساتعربیةفیالتربیةوعلمالنفس، رابطةالتربویینالعرب،90، 98-120.

صبری حسن الطراونة (2015). مدى انتهاک قواعد کتابة فقرات الاختیار من متعدد فی اختبارات الکفاءة فی اللغة العربیة واللغة الإنجلیزیة بجامعة مؤتة. مجلة التربیة، کلیة التربیة، جامعة الأزهر، 163(2)، 571-594.

صلاح الدین محمود علام (٢٠٠٥). نماذج الاستجابة للمفردة الاختباریة أحادیة البعد ومتعددة الأبعاد وتطبیقاتها فی القیاس النفسی والتربوی. القاهرة: دار الفکر العربی.

صلاح الدین محمود علام (2007). الاختبارات التشخیصیة مرجعیة المحک فی المجالات التربویة والنفسیة والتدریبیة (ط2). القاهرة: دار الفکر العربی.

صلاح الدین محمود علام (2015). القیاس والتقویم التربوی والنفسی: أساسیة وتطبیقاته وتوجهاته المعاصرة (ط6). القاهرة: دار الفکر العربی.

صلاح شریف عبد الوهاب ( 2001). أثر بعض الطرق الوزنیة لتقدیر الدرجات على صدق الاختبارات مرجعیة المحک ذات الاختیار من متعدد، مجلة کلیة التربیة ببنها، جامعة بنها، 12(49)، 202-255.

طه الخرشه (2016). أثر طرق معالجة أثر التخمین على تقدیر إحصائیات الأفراد والفقرات فی اختبارات الاختیار من متعدد وفق النظریة الحدیثة فی القیاس. مجلةجامعةالنجاحللأبحاث، جامعةالنجاحالوطنیة، 30(12)، 2348-2366.

عبد الرحمن عبد الله النفیعی (2012). الخصائص السیکومتریة لاختبار المصفوفات المتتابعة المتقدم فی ضوء نظریة الاستجابة للمفردة الاخباریة. مجلة التربیة، جامعة الأزهر،147(2)، 175-214.

عزالدین عبدالله النعیمی (2015). معالم الفقرات والأفراد وخاصیة اللا تغیر فی الاختبارات الوطنیة لضبط جودة التعلیم فی الأردن مقارنة بین النظریة الکلاسیکیة والنظریة الحدیثة فی القیاس. مجلةاتحادالجامعاتالعربیةللتربیةوعلمالنفس، کلیة التربیة، جامعة دمشق، 13(1)، 136-155.

عفاف راضی اللحیانی (2012). أثر بعض طرق تقدیر الدرجات للمفردات على ثبات وصدق درجات اختبار تحصیلی فی الریاضیات ذی الاختیار من متعدد لدى طالبات الصف الأول الثانوی بمکة المکرمة. دراساتعربیةفیالتربیةوعلمالنفس، رابطةالتربویینالعرب، 22(2)، 487-516

فریال محمد أبو عواد (2018). استقصاء تقدیرات معالم الفقرات والقدرة ودالة المعلومات لاختبار القدرات المعرفیة باستخدام النموذج اللوجستی ثلاثی المعلمة. دراسات نفسیة وتربویة، جامعة قاصدی مرباح،11(1)، 1-17.

لیندا کروکر، وجیمس الجینا (2017). مدخل الى نظریة القیاس التقلیدیة والمعاصرة (ترجمة: هند عبدالمجید الحموری، زینات یوسف دعنا). عمان: دار الفکر للنشر والتوزیع.

محمد صیتان الصمادی (2015). أثر مخالفة قواعد صیاغة فقرات الاختیار من متعدد على تقدیرات معالمها ودالة معلومات الاختبار باستخدام النموذج ثلاثی المعلمة ( رسالة دکتوراه غیر منشورة). کلیة التربیة، جامعة الیرموک.

معین سلمان النصراوین، محمد ولید موسى البطش (2018). مقارنة أربعة نماذج لمعالجة التخمین فی الأسئلة الموضوعیة/الاختیار من متعدد فی إطار النموذج اللوجستی ثلاثی المعلمة وأثرها على دقة تقدیر معلمة القدرة. دراسات العلوم التربویة، الجامعة الأردنیة، 45(4)، 332-353.

نضال الشریفین، رانیا الصبح (2011). أثر بنیة فقرات الاختیار من متعدد ومستوى القدرة لدى الأفراد على دقة التقدیرات لمعالم الفقرات والأفراد وفق نظریة الاستجابة للفقرة. مجلة جامعة أم القرى للعلوم التربویة والنفسیة، 3(2)، 45 -110.

نضال کمال الشریفین (2012). أثر طریقة تقدیر معالم الفقرة وقدرات الأفراد على قیم معالم الفقرة، والخصائص السیکومتریة للاختبار، فی ضوء تغیر حجم العینة. المجلة التربویة، جامعة الکویت، 26(104)، 177-238.

یوسف عبدالقادر أبوشندی، راشد سیف المحرزی، إیهاب محمد عمارة (2018). دقة تقدیر العلامات الحقیقیة عند درجات مختلفة للارتباط الموضعی بین فقرات الاختبار فى توزیعات مختلفة للقدرة. مجلةالعلومالتربویةوالنفسیة، جامعةالبحرین، 19(3)، 465-491.

Adedoyin, O. (2010). Investigating the Invariance of Person Parameter Estimates Based on Classical Test and Item Response Theories. International Journal of Educational Science, 2(2), 107-113.

Aiken, L. R. (1987).Testing With Multiple-Choice Items. Journal of Research and Development in Education. 20 (4), 44-57.

Aiken, L. R. (2003). Psychological Testing and Assessment (11^th ed). Boston: Pearson Education Group.

Aiken, L. R. & Groth-Marnat, G. (2006). Psychological Testing and Assessment (12th Ed). Boston, MA: Pearson Education Group.

Ainol, M. A. & Noor, L. A. (2006). Classical and Rasch Analyses of Dichotomously Scored Reading Comprehension Test Items. Malaysian Journal of ELT Research, 2(1), 1-20.

Albano, A. D., Christ, T. J. & Cai, L. (2018). Evaluating Equating in Progress Monitoring Measures Using Multilevel Modeling. Measurement: Interdisciplinary Research and Perspectives, 16(3), 168-180.

Angoff, W. H. (1987). Technical and Practical Issues in Equating. Applied Psychological Measurement, 11(3), 291-300.

Anstasi, A. & Urbina, S. (2005). Psychological Testing (7^th ed). New Jersey: Prentic-Hall.

Ayala, R. J. (2008). The Theory and Practice of Item Response Theory :Methodology in the Social Sciences. New York, NY: The Guilford Press.

Ayhan, S. (2015). Comparability of Scores from Cat and Paper and Pencil Implementations of Student Selection Examination to Higher Education, (Unpublished Master Dissertation). Bilkent University, Ankara.

Bechger, T., Maris, G., Verstralen, H. & Beguin, A. (2003). Using Classical Test Theory in Combination with Item Response Theory. Applied Psychological Measurement, 27(5), 319-334.

Bond, T. G. & Fox, C. M. (2015). Applying The Rasch Model: Fundamental Measurement in the Human Sciences (3^th Ed). New York, NY: Routledge.

Breakall, J., Randles, C. & Tasker, R. (2019). Development and Use of a Multiple-Choice Item Writing Flaws Evaluation Instrument in the Context of General Chemistry. Chemistry Education Research and Practice, 20(2), 369-382.

Campbell, M. L. (2015). Multiple-Choice Exams and Guessing: Results from a One-Year Study of General Chemistry Tests Designed to Discourage Guessing. Journal of Chemical Education, 92(7), 1194-1200.

Cappelleri, J. C., Jason, L.J. & Hays, R. D. (2014). Overview of classical test theory and item response theory for the quantitative assessment of items in developing patient-reported outcomes measures, Clin Ther, 36(5), 648-662.

Chang, S. H., Lin, P. C. & Lin, Z. C. (2007). Measures of Partial Knowledge and Unexpected Responses in Multiple-Choice Tests. Educational Technology & Society, 10(4), 95-109.

Coggins, J. V., Kim, J. K. & Briggs, L. C. (2017). Comparison of IRT and CTT Using Secondary School Reading Comprehension Assessments. Research in the Schools, 24(1), 80-93.

Crehan, K. & Haladyna, T. M. (1991). The Validity of Two Item-Writing Rules. The Journal OF Experimental Education, 59(2), 183-192.

David, M. (2013). A Note on the Item Information Function of the Four-Parameter Logistic Model. Applied Psychological Measurement, 37(4), 304-315.

DeMars, C. (2010). Item Response Theory: Understanding Statistics Measurement. New York, NY: Oxford University Press.

Dimiter, M. D. (2016). An Approach to Scoring and Equating Tests with Binary Items: Piloting With Large-Scale Assessments. Educational and Psychological Measurement, 76(6), 954-975.

Ebel, R. L. & Frisbie, D. A. (1991). Essentials of Educational Measurement. (5^th ED), New Jersey: Prentice-Hall, Englewood Cliffs.

Eleje, L. I., Onah, F. E. & Abanobi, C. C. (2018). Comparative Study of Classical Test Theory and Item Response Theory Using Diagnostic Quantitative Economics Skill Test Item Analysis Results. European Journal of Educational and Social Sciences, 3 (1), 71 – 89.

Field, A. (2009). Discovering Statistics Using SPSS: Introducing Statistical Method (3^rd ed.). Thousand Oaks, CA: Sage Publications.

Fraser, C. & McDonald, R. P. (1988). NOHARM: Least Squares Item Factor Analysis. Multivariate Behavior Research, 23, 267-269.

Georgiev, N. (2008). Item Analysis of C, D and E Series from Raven’s Standard Progressive Matrices with Item Response Theory Two-Parameter Logistic Model. Europe′s Journal of Psychology, 4(3), 1-17.

Gleason, J., Alley, A. & Baker, S. (2010). Effects of Item Writing Rules on The Reliability of Instruments to Measure The Mathematical Knowledge of Teachers. Journal of Mathematical Sciences & Mathematics Education, 5(2), 21-27.

Gorsuch, R. L. (1983). Factor Analysis (2^nd ed.). Hillside, NJ: Lawrence Erlbaum Associates.

Gregory, R. J. (2014). Psychological Testing: History, Principles and Applications(7^th ED). Boston: Person Education Group.

Haladyna, T. M., Downing, S. M. & Rodriguez, M. C. (2002). A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement in Education, 15 (3), 309-334.

Hambleton, R. K. (2004). Theory, Methods, and Practices in Testing for The 21st Century. Psicothema, 16(4), 696-701.

Hambleton, R. K. & Jonse, R. W (1993). Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement, 12(3), 38-47.

Hambleton, R. K. & Jones, R. W. (1994). Item Parameter Estimation Errors and Their Influence on Test Information Function. Applied Measurement in Education, 7(3), 171-186.

Hambleton, R. K. & Swaminathan, H. (1985). Item Response Theory: Principles and Applications. Boston, Kluwer-Nijhoff Publishers.

Hambleton, R. K., Swaminthan, H. & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park, CA: Sage Publications.

Harris, D. J. & Crouse, J. D. (1993). A Study of Criteria Used In Equating. Applied Measurement In Equating, 6(3), 195-240.

Hattie, J. (1985). Methodology Review: Assessing Unidimensionality of Tests and Items. Applied Psychological Measurement, 9 (2), 139-164.

Huang, Y., Trevisan, M. & Storfer, A. (2007). The Impact of the “all-of-the-above” Option and Student Ability on Multiple Choice Tests. International Journal for the Scholarship of Teaching and Learning, 1(2), 1-13.

Hulin, C. L., Drasgow, F. & Parsons, C. K. (1983). Item Response Theory: Application to Psychological Measurement. Homewood IL: Dow Jones Irwin.

Hwang, D. (2002). Classical Test Theory and Item Response Theory: Analytical and Empirical Comparisons, Paper presented at the Annual Meeting of the Southwest Educational Research Association, Austin, 1-22. ED. 466 779.

Inal, H. & Anil, D. (2018). Investigation of Group Invariance in Test Equating under Different Simulation Conditions. Eurasian Journal of Educational Research, 78, 67-86.

Jasper, F. (2010). Applied Dimensionality and Test Structure Assessment with The START-M Mathematics Test. The International Journal of Educational and Psychological Assessment, 6(1), 104-125.

Jinming, Z. (2012). The Impact of Variability of Item Parameter Estimators on Test Information Function. Journal of Educational and Behavioral Statistics, 37(6), 737-757.

Joo, S.-H., Lee, P. & Stark, S. (2018). Development of Information Functions and Indices for the GGUM-RANK Multidimensional Forced Choice IRT Model. Journal of Educational Measurement, 55(3), 357-372.

Kellere, R. R. (2007). A Comparison of Item Response Theory True Score Equating and Item Response Theory-Based Local Equating (Unpublished Doctoral Dissertation), University Of Massachusetts Amherst.

Kim, K. Y. & Lee, W. (2017). The Impact of Three Factors on the Recovery of Item Parameters for the Three-Parameter Logistic Model. Applied Measurement in Education, 30(3), 228-242.

Kim, S., Cohen, A. S. & Lin, Y. (2006). LDIP: A Computer Program for Local Dependence Indices for Polytomous Items. Applied Psychological Measurement, 30(6),509- 510.

Kolen, M. J. & Brennan, R. L. (2014). Test Equating, Scaling, And Linking: Methods And Practices (3^nd Ed). New York: Springer.

Kolen, M. J. &Whitney, D. R. (1982). Comparison Of Four Procedures For Equating The Tests Of General Educational Development. Journal Of Educational Measurement, 9(4). 279-293.

Lau. P. N., Lau, S. H., Hong, K. S. & Usop, H. (2011). Guessing, partial Knowledge, and Misconceptions in Multiple-Choice Tests. Educational Technology& Society, 14(4), 99-110.

Lesage. E, Valcke. M, & Sabbe (2013). Scoring Methods for Multiple Choice Assessment in Higher Education is it Still a Matter of Number Right Scoring or Negative Marking? Studies in Educational Evaluation, 39(3), 188-193.

Lin, C. K. (2018). Effects of Removing Responses with Likely Random Guessing Under Rasch Measurement on a Multiple-Choice Language Proficiency Test. Language Assessment Quarterly, 15(4), 406-422.

Magis, D. & Raîche, G. (2012). On the Relationships Between Jeffreys Modal and Weighted Likelihood Estimation of Ability Under Logistic IRT Models. Psychometrika. 77(1), 163-169.

Mueller, D. & Schrock, T. (1982). Effects of Violating Three Multiple-Choice Item Construction Principles. The Journal of Educational Research, 75 (5), 314-318.

Natarajan, V.(2009). Basic Principles of IRT And Application to Practical Testing & Assessment. MeritTrac Services (P) Ltd.

Ndalichako, J. & Rogers, W. T. (1997). Comparison of Finite Score Theory, Classical Test Theory and Item Response Theory in Scoring Multiple-choice Items. Educational and Psychological Measurement, 57(4), 580-589.

Nering, M. L. & Ostini, R. (2010). Handbook of Polytomous Item Response Theory Models Nering. New York, NY: Routledge /Taylor & Francis Group.

Ojerinde D. (2013). Classical Test Theory (CTT) VS Item Response Theory (IRT): An Evaluation of The Comparability of Item Analysis Results. A Guest Lecture Presented at The Institute of Education, University of Ibadan on 23rd May.

Onder, I. (2007). An Investigation of Goodness of Model Data Fit Model Veri Uyumunun Araştirilmasi. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 32, 210-220.

Öztürk-Gübes, N. & Kelecioglu, H. (2016). The Impact of Test Dimensionality, Common-Item Set Format, and Scale Linking Methods on Mixed-Format Test Equating. Educational Sciences: Theory and Practice, 16(3), 715-734.

Pachai, M. V., DiBattista, D. & Kim, J. A. (2015). A Systematic Assessment of ‘None of the Above’ on Multiple Choice Tests in a First Year Psychology Classroom. The Canadian Journal for the Scholarship of Teaching and Learning, 6(3), 1-14.

Penfield, R. D. (2014). An NCME Instructional Module on Polytomous Item Response Theory Models. Educational Measurement: Issues and Practice, 33(1), 36-48.

Petersen, N. S., Kolen, M. J. & Hoover, H. D. (1989). Scaling, Norming and Equating. In R. L. Linn (Ed.), Educational Measurement (3rd ed., Pp.221-262). New York NY: Macmillan Publishing company.

Raykov, T., Marcoulides, G. A. (2016). On the Relationship between Classical Test Theory and Item Response Theory: From One to the Other and Back. Educational and Psychological Measurement, 76(2), 325-338.

Reise, S. P. & Revicki, D. A. (2015). Handbook of Item Response Theory Modeling: Applications to Typical Performance Assessment. New York, NY: Routledge.

Reise, S. P. & Waller, N. G. (2003). How Many IRT Parameters Does It Take To Model Psychopathology Items?. Psychological Methods, 8(2), 164-184.

Rodriguez, M. C. & Albano, A. D. (2017). The College Instructor's Guide to Writing Test Items: Measuring student learning. New York, NY: Routledge.

Slepkov, A. D. & Godfrey, A. T. (2019). Partial Credit in Answer-Until-Correct Multiple-Choice Tests Deployed in a Classroom Setting. Applied Measurement in Education, 32(2), 138-150.

Sočan, G. (2015). Empirical Option Weights for Multiple-Choice Items: Interactions with Item Properties and Testing Design. Advances in Methodology & Statistics / Metodoloski zvezki, 12(1/2), 25-43.

Stage, C. (2003). Classical Test Theory or Item Response Theory . The Swedish Experience, Umea University, (7), 1-30.

Steiger, J. H. (1980). Tests for Comparing Elements of A Correlation Matrix. Psychological Bulletin, 87(2), 245-251.

Tarrant, M., Knierim, A., Hayes, S. & Ware, J. (2006). The Frequency of Item Writing Flaws in Multiple-Choice Questions Used in High Stakes Nursing Assessments. Nurse Education in Practice, 26(8), 662-671.

Tay, L., Huang, Q. & Vermunt, J. K. (2016). Item Response Theory with Covariates (IRT-C): Assessing Item Recovery and Differential Item Functioning for the Three-Parameter Logistic Model. Educational and Psychological Measurement, 76(1), 22-42.

Thomas, M., Steven, M. & Michael, C. (2002). A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement In Education, 15(3), 309-334.

Ueckert, S. (2018). Modeling Composite Assessment Data Using Item Response Theory. Pharmacometrics & Systems Pharmacology, 7(4), 205-218.

Van der Linden, W. J. (2009). Conceptual Issues in Response-Time Modeling. Journal of Educational and Measurement, 46(3), 247–272.

Van der Linden, W. J. (2010). Item Response Theory. International Encyclopedia of Education, 4, 81-88.

Van der Linden, W. J. (2016). Handbook of Item Response Theory. New York, NY: CRC Press /Taylor & Francis Group.

Vanderoost, J., Janssen, R., Eggermont, J., Callens, R. & De Laet, T. (2018). Elimination Testing with Adapted Scoring Reduces Guessing and Anxiety in Multiple-Choice Assessments, but does not Increase Grade Average in Comparison with Negative Marking. PLoS ONE, 13(10), 1-27.

Zhonghua, Z. (2010). Comparison of Different Equating Methods and An Application to Link Testlet-Based Tests. (Unpublished Doctoral Dissertation), The Chinese University of Hong Kong.

Zimmerman, D. W. & Williams, R. H. (2003). A new look at the influence of guessing on the reliability of multiple-choice tests. Applied Psychological Measurement, 27(5), 357-371.