Ahmed bin Saleh bin Ali Al-Saadi
Youssef Abdel Qader Abu Shindi
Rashid bin Saif Al Mahrezi

Abstract

The study aimed to examine the effect of sample size and response rating scales on estimating Almehrizi generalized alpha reliability coefficient for different scaled scores using real data for students' attitudes towards mathematics in TIMSS2019 for test administration in 2019. The sample consisted of 5117 male and female fourth-grade students in Sultanate of Oman. To achieve study objectives, three data sets were created through manipulating the response rating scales to obtain three types of response rating scales (four response categories which was the original scale – three response categories - two response categories). For each response rating scale, 100 subsamples were randomly selected using three sample sizes (30 for small sample size – 200 for medium sample size – 1000 for large sample size). In addition, five scaled scores were computed for the three types of rating scales: raw scores, standardized scores, percentile scores, and two TIMSS scaled scores. Almehrizi's generalized Alpha Coefficient was computed for each of these scaled scores for all data sets. Finally, these reliability coefficients were compared to answer research questions using descriptive statistics, bias and RMSE. Results revealed that the Almehrizi’s Generalized Alpha Coefficients for all data sets showed high accuracy, as they were very close to the reliability coefficient values for the original data set for all scaled scores. Both bias and RMSE values were very close to zero indicating accurate estimation even for small sample size (30). The study recommended utilization of this coefficient to estimate reliability for different scaled scores in research and assessment tools.

Metrics

Metrics Loading ...

##plugins.themes.bootstrap3.article.details##

Keywords

Generalized Alpha Reliability Coefficient
Sample size
Response rating scale
Bias ratio

References
Abu Hashim, S. (2006). Psychometric properties of measurement tools in psychological and educational research using the SPSS program. Educational Research Center (in Arabic), College of Education, King Saud University.
Abu Hilal, M., Al-Abed, A., & Al-Mutairi, M. (2020). Research and theses in behavioral sciences (in Arabic). Al-Falah Library for publication and distribution. Kuwait.
Abdel Samie, M. (2017). The effect of the number of response categories and the number of participants on the accuracy of the Alpha and Omega Coefficient values in estimating the stability of psychological scale scores. Egyptian Journal of Psychological Studies, 27(96), 317-384.
Al Nuaimi, D. (2012). The effect of the size and level of age group and type of data on the stability coefficient of some maximum performance physical tests (in Arabic). Carcook University Journal of the Humanities, 7(3), 1458-1473.
Alawneh, M. (2016). The effect of sample size, paragraph style, and students' gender on the psychometric characteristics of an achievement test in mathematics for eleventh grade students in Palestinian public schools (in Arabic). Majma Magazine, (17), 426-473.
Al-Dawy, M. (2011). An investigation of the effect of extreme scores and the number of response categories on the estimation of the Alpha Cronbach coefficient (in Arabic). Journal of the College of Education, 27(1), 117-175.
Ali, H. & Hassan, Y. (2011). Effect of Likert number of substitutions on the psychometric properties of the psychometric scale and assumptions of two-way factorial design (in Arabic). Journal of Psychological Counseling, (29), 56-131.
Al-Jarrah, K. (2015). The effect of sample size, paragraph difficulty and its distinction on the information function and standard error according to the paragraph response theory: the two-parameter model [Unpublished master's thesis] (in Arabic). Mutah University, Jordan.
Allam, R. (2011). Scientific research methods in psychological and educational sciences. Universities Publishing House, Cairo, Egypt.
Allam, S. (2006). Educational and psychological measurement and evaluation: Its basics, applications and contemporary trends (in Arabic). Dar El Fikr El Arabi, Cairo, Egypt.
Al-Lasasmeh, S. (2018). The effect of sample size and the method of dealing with missing values on test stability, discrimination coefficients, and difficulty of paragraphs [Unpublished master's thesis] (in Arabic). Mutah University, Jordan.
Almehrizi, R. S. (2013). Coefficient alpha and reliability of scale scores. Applied Psychological Measurement, 37(6), 438-459. https://doi.org/10.1177/0146621613484983
–––. (2021). Coefficient β As Extension of KR-21 Reliability for Summed and Scaled Scores for Polytomously-scored Tests. Applied Measurement in Education, 34(2), 139-149.‏ https://doi.org/10.1080/08957347.2021.1890740
–––. (2022). Reconceptualization of Coefficient Alpha reliability for test summed and scaled scores. Educational Measurement: Issues and Practice, 41(3), 38-47.‏
Al-Omari, H. (2018). Comparison of three methods in estimating the reliability of composite tests that include the quality of the paragraphs (alpha, alpha stratification, Raju) (in Arabic). Journal of Association of Arab Universities for Education and Psychology, 16(2), 85-102.
Al-Zaboun, H. (2013). The effect of sample size on estimating the information function of the test and the standard error in estimating it using the modern theory of measurement. An-Najah University Journal of Research-Human Sciences, 27(6), 1313-1334.
Barnette, J. J. (2010). Likert Scaling In: Encyclopedia of Research Design. Thousand Oaks, CA: SAGE Publications, Inc.‏
‏Bonett, D. G. (2002). Sample size requirements for testing and estimating Coefficient Alpha. Journal of Educational and Behavioral Statistics, 27(4), 335-340.‏
Cho, E. (2016). Making reliability reliable: A systematic approach to reliability coefficients. Organizational Research Methods, 19(4), 651-682.‏ https://doi.org/10.1177/1094428116656239
Choudhury, S. & Bhattacharjee, D.(2014). Optimal number of scale points in Likert scales for quantifying compulsive buying behavior. Asian Journal of Management Research, 4(3), 431-440.‏
Cronbach, L. J. (1951). Coefficient alpha and internal structure of tests. Psychometrika, 16, 297-334
Cronbach, L. J., Schönemann, P., & McKie, D. (1965). Alpha coefficients for stratified-parallel tests. Educational and Psychological Measurement, 25(2), 291-312.‏ https://doi.org/10.1177/001316446502500201
Customer, T. (2013). The effect of the sample size on the estimation of the information function of the test and the standard error in its estimation using the modern theory of measurement (in Arabic). An-Najah University Journal for Research-Human Sciences, 27(6), 1313-1334.
Danner, D., Blasius, J., Breyer, B., Eifler, S., Menold, N., Paulhus, D. L., ... Ziegler, M. (2016). Current Challenges, New Developments, and Future Directions in Scale Construction. European Journal of Psychological Assessment, 32(3), 175-180. https://doi.org/10.1027/1015-5759/a00037
Geldhof, G. J., Preacher, K. J., & Zyphur, M. J. (2014). Reliability estimation in a multilevel confirmatory factor analysis framework. Psychological Methods, 19(1), 72-91. https://doi.org/10.1037/a0032138
Green, S. B., & Hershberger, S. L. (2000). Correlated errors in true score models and their effect on coefficient alpha. Structural Equation Modeling, 7(2), 251-270.‏ https://doi.org/10.1207/S15328007SEM0702_6
Harwell, M. (2019). A strategy for using bias and RMSE as outcomes in Monte Carlo studies in statistics. Journal of Modern Applied Statistical Methods, 17(2), 2-16. https://doi.org/10.22237/jmasm/1551907966
Hussein, M. (2007). The effect of item direction and the number of response alternatives on the stability of Likert-type measuring instruments (in Arabic). Egyptian Journal of Psychological Studies, 17(56), 353-392.
Ismail, M. (2015). The effect of the number of response alternatives in the Likert scale on the psychometric properties of the scale and measuring attitudes: An applied study on the trainees of the Institute of Public Administration, Saudi Arabia (in Arabic). Public Administration, 55(4), 833-875.
Johanson, G. A., & Brooks, G. P. (2010). Initial scale development: sample size for pilot studies. Educational and psychological measurement, 70(3), 394-400.‏ https://doi.org/10.1177/0013164409355692
Kline, P. (1986). A handbook of test construction (psychology revivals): Introduction to psychometric design. Routledge.‏
Krish, A. (2018). Ordinal Alpha Coefficient: Estimating the stability coefficient of test scores using ordinal data (in Arabic). Journal of Psychological and Educational Sciences, 4(1), 10-23.
Lee, J. & Paek, I. (2014). In search of the optimal number of response categories in a rating scale. Journal of Psychoeducational Assessment, 32(7), 663-673.‏ https://doi.org/10.1177/0734282914522200
Lord, F. M. & Wingersky, M. S. (1984). Comparison of IRT true-score and equipercentile observed-score equatings. Applied Psychological Measurement, 8(4), 453-461.‏ https://doi.org/10.1177/014662168400800409
Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the number of response categories on the reliability and validity of rating scales. Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 4(2), 73. https://doi.org/10.1027/1614-2241.4.2.73
Maydeu-Olivares, A., Kramp, U., García-Forero, C., Gallardo-Pujol, D., & Coffman, D. (2009). The effect of varying the number of response alternatives in rating scales: Experimental evidence from intra-individual effects. Behavior Research Methods, 41(2), 295-308.‏ https://doi.org/10.3758/BRM.41.2.295
McComas, W. F. (2014). Trends in international mathematics and science study (TIMSS). The Language of Science Education: An Expanded Glossary of Key Terms and Concepts in Science Teaching and Learning.‏
Mehrens, W. A. & Lehmann, I. J. (1978). Measurement and evaluation in education and psychology: A Qualitative approach.‏
‏Morera, O. F. & Stokes, S. M. (2016). Coefficient α as a measure of test score reliability: Review of 3 popular misconceptions. American Journal of Public Health, 106(3), 458-461. https://doi.org/10.2105/AJPH.2015.302993
Novick, M. R. & Lewis, C. (1967). Coefficient Alpha and the reliability of composite measurements. Psychometrika, 32(1), 1-13.‏ https://doi.org/10.1002/j.2333-8504.1966.tb00356.x
Odeh, A. (2021). Measurement and evaluation in the teaching process (in Arabic). Dar alamal, Irbid, Jordan.
Preston, C. C. & Colman, A. M. (2000). Optimal number of response categories in rating scales: Reliability, validity, discriminating power, and respondent preferences. Acta Psychologica, 104(1), 1-15.‏ https://doi.org/10.1016/S0001-6918(99)00050-5
Revicki, D. (2014). Internal consistency reliability. In Encyclopedia of Quality of Life and Well-Being Research, pp. 3305–3306 [Michalos, AC, editor]. Dordrecht, The Netherlands: Springer Netherlands.
Shaftel, J., Nash, B. L., & Gillmor, S. C. (2012, April). Effects of the number of response categories on rating scales. In Proceedings of the annual conference of the American Educational Research Association (pp.1-24).‏
Streiner, D. L. (2003). Starting at the beginning: An introduction to Coefficient Alpha and internal consistency. Journal of Personality Assessment, 80(1), 99-103.
Tarawneh, N. (2017). The effect of sample size in estimating the stability coefficient in the light of generalization theory [Unpublished master's thesis] (in Arabic). Mutah University, Jordan.
Tighza, M. (2017). Recent directions in estimating the validity and reliability of the scores of measurement tools: A theoretical, evaluative and applied analysis (in Arabic). Journal of Psychological and Educational Sciences, 3(1), 7-29.
TIMSS & PIRLS (2019). International Study Center. Boston College. Retrieved from: https://timss2019.org/international-database/
Traxler, K. (2017). Estimating Bias in Multilevel Reliability Coefficients: A Monte Carlo Simulation. University of Northern Colorado.‏
Trizano-Hermosilla, I., & Alvarado, J. M. (2016). Best alternatives to Cronbach's Alpha reliability in realistic conditions: Congeneric and asymmetrical measurements. Frontiers in Psychology, 7,1-8. https://doi.org/10.3389/fpsyg.2016.00769
Wakita, T., Ueshima, N., & Noguchi, H. (2012). Psychological distance between categories in the Likert scale: Comparing different numbers of options. Educational and Psychological Measurement, 72(4), 533-546.‏ https://doi.org/10.1177/0013164411431162
Weijters, A. J. M. M., & Ribeiro, J. T. S. (2011, April). Flexible heuristics miner (FHM). In 2011 IEEE symposium on computational intelligence and data mining (pp. 310-317).
Yahya, J. (2009). The effect of some contextual variables on the mathematical knowledge of eighth grade teachers and their students' achievement in mathematics in Qalqilya Governorate [Unpublished master's thesis] (in Arabic). Palestine.
Yang, Y. & Green, S. B. (2011). Coefficient Alpha: A reliability coefficient for the 21st century? Journal of Psychoeducational Assessment, 29(4), 377-392.‏ https://doi.org/10.1177/0734282911406668
Zakry, A. (2014). The effect of the difference in sample size on the reliability test (Otis-Lennon) for the intermediate level mental ability form (j), using the Rasch model (in Arabic). Arabian Gulf Message, 35 (131), 37-66.
Zaree, N. (2021). Comparison of test scores reliability coefficients under a set of variables: A Monte Carlo simulation study (in Arabic). Journal of the College of Education in Sohag, 88 (88), 1107-1174.
–––. (2022). The effect of different statistical analysis methods depending on the type of interval and ordinal data on the psychometric properties of the Likert scale: A simulation study (in Arabic). Journal of Educational Sciences and Human Studies, (22), 238-266.
Zumbo, B. D. (2006). Validity: Foundational issues and statistical methodology. Handbook of Statistics, 26, 45-79.‏ https://doi.org/10.1016/S0169-7161(06)26003-6
Zumbo, B. D., Gadermann, A. M., & Zeisser, C. (2007). Ordinal versions of Coefficients Alpha and Theta for Likert rating scales. Journal of Modern Applied Statistical Methods, 6(1), 21-29. https://doi.org/10.22237/jmasm/1177992180

*****************************************************************************************

أبو هاشم، سيد. (2006). الخصائص السيكومترية لأدوات القياس في البحوث النفسية والتربوية باستخدام برنامج SPSS. مركز البحوث التربوية، كلية التربية، جامعة الملك سعود، السعودية.
أبو هلال، ماهر والعابد، عدنان والمطيري، معصومة. (2020). البحوث والرسائل الجامعية في العلوم السلوكية.. مكتبة الفلاح للنشر والتوزيع، الكويت.
إسماعيل، محمد. (2015). أثر عدد بدائل الاستجابة في مقياس ليكرت على الخصائص السيكومترية للمقياس وقياس الاتجاهات: دراسة تطبيقية على متدربي معهد الإدارة العامة، المملكة العربية السعودية. الإدارة العامة، 55(4)، 833-875.
تيغزة، أمحمد. (2017). توجيهات حديثة في تقدير صدق وثبات درجات أدوات القياس: تحليل نظري تقويمي وتطبيقي. مجلة العلوم النفسية والتربوية، 3(1)، 7-29.
الجراح، خلدون. (2015). أثر حجم العينة وصعوبة الفقرة وتمييزها على دالة المعلومات والخطأ حسب نظرية الاستجابة للفقرة: النموذج ثنائي المعلمة ]رسالة ماجستير غير منشورة[. كلية العلوم التربوية، جامعة مؤتة، الأردن.
حسين، محمد. (2007). أثر اتجاه المفردة وعدد بدائل الاستجابة على ثبات أدوات القياس من نوع «ليكرت». المجلة المصرية للدراسات النفسية، 17(56)، 353-392.
زارع، نسرين. (2021). مقارنة معاملات ثبات درجات الاختبار في ظل مجموعة من الاشتراطات: دراسة محاكاة مونت كارلو. مجلة كلية التربية بسوهاج، 88(88)، 1107-1174.
زارع، نسرين. (2022). تأثير اختلاف طريقة التحليل الإحصائي تبعا لنوع البيانات الفترية والرتبية على الخصائص السيكومترية لمقياس ليكرت: دراسة محاكاة. مجلة العلوم التربوية والدراسات الإنسانية، (22)، 238- 266.
الزبون، حابس. (2013). أثر حجم العينة على تقدير دالة المعلومات للاختبار والخطأ المعياري في تقديرها باستخدام النظرية الحديثة في القياس. مجلة جامعة النجاح للأبحاث-العلوم الإنسانية، 27(6)، 1313-1334.
زكري، علي. (2014). أثر اختلاف حجم العينة على فحص الثباتية لاختبار (أوتيس- لينون) للقدرة العقلية المستوى المتوسط الصورة (j) باستخدام نموذج راش. رسالة الخليج العربي، 35(131)، 37-66.
الضوي، محسوب. (2011). تحري تأثير الدرجات المتطرفة وعدد فئات الاستجابة على تقدير معامل ألفا كرونباخ. مجلة كلية التربية، 27(1)، 117-175.
الطراونة، نادية. (2017). أثر حجم العينة في تقدير معامل الثبات في ضوء نظرية التعميم ]رسالة ماجستير غير منشورة[. كلية العلوم التربوية، جامعة مؤتة، الأردن.
عبد السميع، محمد. (2017). تأثير عدد فئات الاستجابة وعدد المشاركين على دقة قيم معاملي ألفا وأوميجا في تقدير ثبات درجات المقياس النفسي. المجلة المصرية للدراسات النفسية، 27(96)، 317-384.
علام، رجاء. (2011). مناهج البحث العلمي في العلوم النفسية والتربوية ط7. دار النشر للجامعات، القاهرة، مصر.
علام، صلاح الدين. (2006). القياس والتقويم التربوي والنفسي: أساسياته وتطبيقاته وتوجهاته المعاصرة. دار الفكر العربي، القاهرة، مصر.
علاونة، معزوز. (2016). أثر حجم العينة ونمط الفقرة وجنس الطلبة على الخصائص السيكومترية لاختبار تحصيلي في الرياضيات لدى طلبة الصف الحادي عشر في المدارس الحكومية الفلسطينية. مجلة مجمع، (17)، 426-473.
علي، حجاج وحسن، ياسر. (2011). تأثير عدد بدائل ليكرت على الخصائص السيكومترية للمقياس النفسي وافتراضات التصميم العاملي ثنائي الاتجاه. مجلة الإرشاد النفسي، (29)، 56-131.
العمري، حسان. (2018). المقارنة بين ثلاث طرائق في تقدير ثبات الاختبارات المركبة التي تتضمن نوعية من الفقرات (ألفا، ألفا الطبقي، راجو). مجلة اتحاد الجامعات العربية للتربية وعلم النفس، 16(2)، 85-102.
عودة، أحمد. (2010). القياس والتقويم في العملية التدريسية. دار الأمل، إربد، الأردن.
كريش، أحمد. (2018). معامل ألفا الرتبي: تقدير معامل ثبات درجات الاختبار باستخدام البيانات الرتبية. مجلة العلوم النفسية والتربوية، 4(1)، 10-23.
اللصاصمة، شريفة. (2018). أثر حجم العينة وطريقة التعامل مع القيم المفقودة على ثبات الاختبار ومعاملات تمييز وصعوبة الفقرات ]رسالة ماجستير غير منشورة[. كلية العلوم التربوية، جامعة مؤتة، الأردن.
النعيمي، ضرغام. (2012). تأثير حجم ومستوى الفئة العمرية على معامل الثبات لبعض الاختبارات البدنية ذات الأداء الأقصى. مجلة جامعة كركوك للدراسات الإنسانية، 7(3)، 1458-1473.
يحيى، جهاد. (2009). أثر بعض المتغيرات السياقية على المعرفة الرياضية لدى معلمي الصف الثامن وتحصيل طلابهم في الرياضيات في محافظة قلقيلية ]رسالة ماجستير غير منشورة[. جامعة النجاح الوطنية كلية الدراسات العليا، فلسطين.
How to Cite
Al-Saadi, Ahmed bin Saleh bin Ali, Youssef Abdel Qader Abu Shindi, and Rashid bin Saif Al Mahrezi. 2025. “Effects of Sample Size and Response Rating Scales on Estimating Almehrizi Generalized Alpha Reliability Coefficient for Different Scaled Scores”. Journal of Educational Sciences – Qatar University 24 (3). https://doi.org/10.29117/jes.2024.0193.
Section
Articles in Arabic