Equating Test Forms for Progress in International Reading Literacy Study (PIRLS 2011) in Sultanate of Oman Using Item Response Theory

##plugins.themes.bootstrap3.article.main##

Amal khamis Abdullah Alzaabi , Rashid Saif Al-mehrzi , Abdulhameed Hassan

Abstract

      The study aims to compare between true score of mixed item formats (dichotomous and polytomous items), using single group design and nonequivalent group with common items design. The study used PIRLS test, which consists of 146 items, (74 multiple-choice items and 72 short answer items), distributed over 13 booklets. Each booklet has common items with some other booklets and some uncommon items, as well as two passages: reading for literary experience and reading to acquire and use information. The 13 booklets were distributed to a random sample of 10394 students from grade 4 in the Sultanate of Oman. MULTILOG 7.03 software was used to estimate item and ability parameters using the graded response model and Poly Equate (V0.5) software. The 13 booklets were equated using true score equating and observed score equating. The results showed differences in the descriptive characteristics for the 13 booklets before equating, and reduction in these differences after equating with both equating methods. Paired samples t-test showed statistical significant differences between the two equating methods with all booklets towards the observed score equating except with booklet 10 where there are differences towards true score equating and booklets 4 and 5 where there is no statistical difference between the two equating methods.

##plugins.themes.bootstrap3.article.details##

Keywords

PIRLS test
Test equating
True score equating
Observed score equating
Oman

Section
Articles in Arabic
References
المراجع
المراجع باللغة العربية:
-أيوب، حسين محمد (1994). المقارنة بين أربع طرق للمعادلة عندما يكون التصميم من مجموعات متكافئة وغير متكافئة، الجامعة الأردنية، الأردن.
-بركات، مايا إبراهيم (2010). أثر تصميمات المعادلة ومتوسط صعوبة الاختبارات وتوزيع القدرة على معادلة درجات الاختبارات متعددة الأبعاد باستخدام نظرية الاستجابة للمفردة، (رسالة دكتوراه غير منشورة)، جامعة القاهرة، جمهورية مصر العربية.
-الدوسري، راشد حماد (2001). معادلة الاختبارات، مفهومها، وطرقها، ومشكلات تطبيقها. مجلة العلوم النفسية والتربوية، البحرين، 2(4)، 106-141.
-الشمري، مها مطلق، والشريفين، نضال (2015). معادلة درجات نُسخ مختلفة من اختبار القدرات المعرفية لدى طلبة الثانوية العامة بالمملكة العربية السعودية، (دراسة ماجستير غير منشورة)، جامعة اليرموك، اربد.
-طيفور، مصطفى أحمد (2007). دراسة مقارنة لنماذج نظرية الاستجابة للمفردة في معادلة درجات الاختبارات، معهد الدراسات التربوية، القاهرة.
-علام، صلاح الدين محمود (2005). نماذج الاستجابة للمفردة الاختبارية أحادية البعد ومتعددة الأبعاد وتطبيقاتها في القياس النفسي والتربوي، القاهرة، دار الفكر العربي.
-عودة، أحمد سليمان، وعبيدات، عمر سليمان (2013). فاعلية الاختبار التكيفي المحوسب في تقدير القدرة العقلية باستخدام مصفوفات رافن. دراسات العلوم التربوية، 2(40)، 1602-1621.
-المحرزي، راشد بن سيف (2014). المقارنة بين طرق المعادلة الكلاسيكية لدرجات نماذج اختبار القدرات العامة باستخدام تصميم الجماعات المتكافئة. رسالة الخليج، 134، 15-42.
-المحرزي، راشد بن سيف (2015). المفاضلة بين الدرجات المكافئة لنماذج اختبار القدرات العامة باستخدام طرق المعادلة الكلاسيكية في تصميم المفردات المشتركة بجماعات غير متكافئة. مجلة العلوم التربوية والنفسية، 16(3)، 394-429.
-محمد، محمد حبشي حسين (2006). تكافؤ القياس بين النسختين العربية والإنجليزية لاستبيان مؤشر أساليب التعلم في ضوء نظرية الاستجابة للمفردة. مجلة دراسات نفسية، مصر، 16(4)، 537-591.
-المدانات، رائد فايز (2012). مقارنة فاعلية طريقتي معادلة الدرجات الحقيقية والمشاهدة في معادلة الاختبارات باستخدام جذع مشترك ومجموعات غير متكافئة. مجلة العلوم النفسية والتربوية، البحرين، 13(2)، 365-394.
-المديرية العامة للتقويم التربوي (2011). التقرير الوطني للدراسة الدولية لقياس مهارات القراءة PIRLS 2011، سلطنة عمان.
-هيبة، محمد أحمد علي، وعمر، محمود أحمد (2011). تكافؤ قياس القائمة المختصرة للعوامل الخمسة للشخصية بين الجنسين في ضوء نظرية الاستجابة للمفردة ونمذجة المعادلة البنائية. مجلة القراءة والمعرفة، مصر، 115، 91-131.
-وزارة التربية والتعليم (2014). دليل الدراسة الدولية لقياس مهارات القراءة (PIRLS)، سلطنة عمان.
-الوليلي، اسماعيل حسن فهيم (2005). تكافؤ درجات الاختبارات في ضوء نظريتي القياس الكلاسيكية والحديثة، دراسة سيكومترية مقارنة. مجلة كلية التربية، جامعة بنها، مصر، 15(63)، 98-149.

المراجع باللغة الإنجليزية:
-Andersson, B., Branberg, K. & Wiberg, M. (2013). Performing the kernel method of test equating with the package equate. Journal of Statistical Software, 55(6), 1-25.
-Baker, F. B. (2001). The basics of item response theory. USA, Eric.
-Baker, F. B., (1992). Equating tests under the graded response model. Applied Psychological Measurement, 16(1), 87-96.‏
-Baker, F. B. & Al‐Karni, A. (1991). A comparison of two procedures for computing IRT equating coefficients. Journal of Educational Measurement, 28(2), 147-162.‏
-Battauz, M. (2015). EquateIRT, An R package for IRT test equating. Journal of Statistical Software, 68(7), 1-22.‏
-Branberg, K. (2010). Observed score equating with covariates (Doctoral dissertation, department of statistics, Umea University).‏
-Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991). Fundamentals of item response theory, Sage Publications Inc.‏
-IEA’s Progress in international reading literacy study. (2011). Methods and procedures- sampling implementation. Chestnut Hill, Boston College. Retrieved from: http:timssandpirls.bc.edu. 18/12/2016.
-IEA’s Progress in international reading literacy study. (2011). Population coverage and sample participation rates-Appendix-C. Chestnut Hill: Boston College.
-Ju, L. C. (2008). Comparisons between classical test theory and item response theory in automated assembly of parallel test forms. The Journal of Technology, Learning and Assessment, 6(8), 4-42.‏
-Kabasakal, K. A. & Kelecioglu, H. (2015). Effect of differential item functioning on test equating. Educational Sciences: Theory and Practice, 15(5), 1229-1246.‏
-Kolen, M. J. & Brennan, R. L. (2004). Test equating, scaling, and linking: methods and practice. New York: Springer.
-Li, Y. H., Lissitz, R. W. & Yang, Y. N. (1999). Estimating IRT equating coefficients with polytomously and dichotomously scored items. Paper presented at the annual meeting of the National Council on Measurement in Education, (Montreal, April 19-23, 1999).
-Livingston, S. A. (2004). Equating test scores (without IRT), Educational Testing Service, Princeton.
-Marian, S. & Jay, C. (2001). Developing the PIRLS reading assessment. In Campbell, J. R., Kelly, D. L., Mullis, I. V. S., Martin, M. O. & Sainsbury, M. (2001), Framework and specifications for PIRLS assessment (2001), (2nd ed.) Chestnut Hill, MA, Boston College.
-Mullis, V. S., Martin, O., Kennedy, A. M., Tong, L., Sainsbury, M. (2009). PIRLS (2011), assessment framework,‏ Chestnut Hill: Boston College.
-Ozturk-Gubes, N. & Kelecioglu, H. (2016). The impact of test dimensionality, common-item set format, and scale linking methods on mixed-format test equating. Educational Sciences: Theory and practice, 16(3), 715-734.‏
-Taha, H. (2008). The status of Arabic language today. Journal of Education, Business and Society, Contemporary Middle Eastern Issues, 1(3), 186-192.
-United Nations Development Program (2009). Human Development Report, Overcoming Barriers, Human Mobility and Development, United Nations, NY.