1. 문제제기 및 연구 목적
탈북이탈주민의 증가와 더불어 탈북학생 수는 해마다 꾸준히 증가하여 2012년 4월 현재 초중고 정규학교와 대안교육시설에 재학하고 있는 학생수는 2,202명에 이르고 있다. 그런데, 많은 탈북학생들이 남한 학교에 정착하는 과정에서 학업부진을 겪으며, 대학 진학이후에도 기초학력부족으로 인한 어려움을 경험하는 것으로 나타나고 있다(백영옥 외, 2011). 탈북학생들의 학업부진 이유로는 이주민으로서의 적응 뿐 아니라 남북한 교육 내용의 차이, 남한 학교의 경쟁풍토, 북한과 제3국 체류기간 동안의 학업결손 등이 보고되었다(유가효 외, 2003; 이기영, 2001; 정병호 외, 2006; 한만길 외, 1999; 한만길 외, 2000; 한만길 외, 2009). 탈북학생의 학업부진은 학업중단으로 이어져서 탈북학생의 학업중단률은 2012년 현재 3.3%로 남한학생의 학업중단률(초 0.6%, 중 1%, 고 2%)에 비하여 높은 수준이다.
<중 략>
탈북학생의 학력을 측정하기 위하여 개발된 초등학교용 국어시험의 문항편파성을 검토하기 위하여 동일 검사지가 남한 학생과 북학출신 학생들에게 시행되었다 다음 <표 2>에는 a형(초등학교 1, 2학년용), b형(초등학교 3, 4학년용), c형(초등학교 5, 6학년용)의 각 문항별로 남한 학생과 북한 학생의 문항별 정답률 차이가 제시되었다.
이 표에 의하면 남북한 학생간 국어과목 점수차이는 초등학교 1, 2학년은 15.52점, 3, 4학년은 26.56점, 5, 6학년은 29.08점으로 학년이 올라감에 따라 학력격차가 크게 발생하는 것으로 나타났다. 문항별로 전체 평규점수 차이보다 유의하게 크거나 작은 점수 차이가 발생한 문항이 붉은 색으로 표시되었는데 점수차이가 유의하게 작은 7개 문항은 전부 남북한 학생 모두 정답률이 90%가 넘는 쉬운 문항이었다. 정답률 차이가 유의하게 큰 6개 문항은 시의 내용이나 상대방의 감정을 이해해야 답을 할 수 있거나, 관습이나 문화에 익숙해야 답을 할 수 있는 문항들이었다. <부록 1>부터 <부록 6>에는 각 검사지별로 정답률 차이가 유의하게 크거나 작게 나타난 문항들이 제시되었다.
· 길은배 외(2003). 북한이탈 청소년의 남한 사회 적응 실태 및 지원 방안 연구. 한국청소년개발원연구보고서.
· 김성홍(2008). 북한이탈 청소년들을 위한 도시형 대안학교 설립방안에 대한 연구.
· 김미숙 외(2004). 탈북청소년의 학교적응 실태분석 연구. 한국교육개발원 RR2004-2.
· 김미숙(2005). 북한이탈학생의 학교적응 실태및 지원방안. 한국교육개발원 KP2005-06.
· 김현철(2011). 탈북학생 기초학습능력 진단평가도구 개발(Ⅱ). 한국교육개발원 수탁연구보고서.
· 백영옥 외(2011). 북한이탈주민의 대학생활-진학 및 적응. 북한이탈주민지원재단 연구총서 2011-02.
· 백혜정 외(2006). 북한이탈 청소년 종합대책 연구 I: 남한사회 적응과정을 중심으로. 한국청소년개발원 연구보고 06-R04.
· 이기영(2001). 북한이탈청소년의 남한사회 부적응 문제에 관한 유형분석. 한국청소년개발원 연구보고.
· 이향규 외(2011). 탈북청소년의 교육 종단연구(Ⅱ). 한국교육개발원 RR2011-30.
· 이희원 외(2011). 탈북청소년을 위한 학습전략 프로그램 모델 개발 및 평가. 한국교육개발원. TR 2011-34-1.
· 한만길 외(1999). 북한 이탈 주민의 남한 교육 적응 연구. 한국교육개발원 RR99-11.
· 한만길 외(2000). 남북한 학생의 학력수준 비교연구-탈북학생의 학습능력을 중심으로. 한국교육개발원 CR 2000-47.
· 한만길(2009). 북한이탈학생의 증가에 따른 교육지원 대책. 한국교육개발원 OR2009-3-1.
· 한만길, 윤종혁, 이향규, 김일혁(2009). 탈북청소년의 교육실태 분석 및 지원방안 연구. 한국교육개발원 RR 2009-10.
· 한만길 외(2010). 탈북청소년 교육 종단연구(I): 예비조사 및 연구설계. 한국교육개발원 RR 2010-14.
· 한만길, 김윤나, 이봉주, 송현정, 송미영, 김지혜(2010). 탈북학생 기초학습능력 진단평가도구 개발. 한국교육개발원, 기술보고 TR 2010-16-3.
· Ackerman, T. A. (1992). A didactic explanation of item bias, item impact, and item validity from a multidimensional perspective. Journal of Educational Measurement, 29, 67-91.
· Agresti, A. (1990). An introduction to categorical data analysis. New York: Wiley.
· Clauser, B. B., Nungester, R. J., & Swaminathan, H. (1996). Improving the matching for DIF analysis by conditioning on both test score and an educational background variable. Journal of Educational Measurement, 33(4), 453-464.
· Clauser, B. E., Nungester, R. J., Mazor, K., & Ripkey, D. (1996). A comparison of alternative matching strategies for DIF detection in tests that are multidimensional, Journal of Educational Measurement, 33(2), 202-214.
· Ercikan, K., Gierl, M. J., McCreith, T., Puhan, G., & Koh, K. (2004). Comparability of bilingual versions of assessments: Sources of incomparability of English and French versions of Canada’s national achievement tests. Applied Measurement in Education, 17, 301?21.
· Ercikan, K., & Koh, K. (2005). Examining the construct comparability of the English and French versions of TIMSS, International Journal of Testing, 5(1), 23-35.
· French, A. W., & Miller, T. R. (1996). Logistic Regression and its used in detecting differential 문항 functioning in polytomous items. Journal of Educational Measurement, 33(3), 315-332.
· Grisay, A., de Jong J., Gebhard, E., Berezner, A., & Halleux-Monseur, B. (2006, April). Translation equivalence across PISA countries. Paper presented in the meeting of the American Educational Research Association, San Francisco, CA.
· Hambleton, R. K. (2001). The next generation of the ITC test translation and adaptation guidelines. European Journal of Psychological Assessment, 17, 164-172.
· Hui, C. H., & Triandis, H. C. (1985). Measurement in cross-cultural psychology: a review and comparison of strategies. Journal of Cross-Cultural Psychology, 16(2), 131-152.
· Jodoin, M. G, & Gierl, M. J. (2001). Evaluating Type I Error and Power Rates Using an Effect Size Measure With the Logistic Regression Procedure for DIF Detection. Applied Measurement in Education, 14, 329-49.
· Klieme, E., & Baumert, J. (2001). Identifying national cultures of mathematics education: Analysis of cognitive demands and different item functioning in TIMSS. European Journal of Psychology and Education, 19(3), 385-402.
· Lapointe, A. E., Mead, N. A., & Askew, J. M. (1992). Learning mathematics Princeton, NJ: Educational Testing Service.
· Le, L. T. (2009). Investigating gender differential item functioning across countries and test languages for PISA science items. International Journal of Testing, 9, 122-133.
· Mazor, K. M., Kanjee, A., & Clauser, B. E. (1995). Using logistic regression and the Mantel-Haenszel with multiple ability estimates to detect differential item functioning. Journal of Educational Measurement, 32, 131-144.
· McMillan, J. H. (2004). Classroom Assessment: Principles and Practice for Effective Instruction. Boston: Pearson.
· OECD (2006). Assessing Scientific, Reading and Mathematical Literacy: A Framework for PISA 2006. Paris: OECD.
· O'Leary, M. (2002). The stability of country rankings across item formats in TIMSS, Educational Measurement: Issues and Practice, 21(4), 27-38.
· Sohn, W. (2009). Extra Matching on Cultural Factor to Improve DIF Detection for International Assessment, Korean Journal of Educational Evaluation, 22(3), 889-908.
· Swaminathan, H., & Rogers, H. J. (1990). Detecting differential item functioning using logistic regression procedures. Journal of Educational Measurement, 27, 361-370.
· Wu, A. D., & Ercikan, K. (2006). Using multiple variable matching to identify cultural sources of differential item functioning, International Journal of Testing, 6(3), 287-300.
· Zumbo, B. D. (1999). A Handbook of the theory and methods of differential item functioning(DIF): Logistic regression modeling as a unitary framework for binary and Likert-type(ordinal) item scores. Ottawa, Ontario, Canada: Directorate of Human Resources Research and Evaluation, Department of National Defense.
· Zumbo, B. D., & Thomas, D. R. (1997). A measure of effect size for a model-based approach for studying DIF. Working Paper of the Edgeworth laboratory for Quantitative Behavioral Science, University of Northern British Columbia: Prince Geroge, B. C.