מבחן גורלי

הרפורמה בחינוך מציעה לדרג כל בית-ספר לפי מבחני הערכה והישגים.  לידיעת הרפורמיסטים: מחקרים מראים שייתכנו טעויות של עשרות אחוזים בדירוג קבוצות לפי ציונים, עד כדי תוצאות הפוכות.  איך נמדוד, באין כלי מדידה אמין?

 לפנינו שתי כיתות: האחת של בנים, השנייה של בנות. משרד החינוך מחליט לבחון את הראייה של התלמידים. המטרה: לתת לכיתה הגרועה יותר עדשות מגע ללא תשלום. בעקבות החוקרים ,(1) ולמען הפשטות, נניח כי בכיתת הבנים יש שני תלמידים ובכיתת הבנות תלמידה אחת. נניח עתה שבין הבנים יש אחד הרואה טוב מהשני (ציון הראייה שלהם הוא 3 ו.(1-  ציון הראייה של הבת הוא .2

  שאלה: איזו כיתה תקבל ממשרד החינוך עדשות מגע, כאשר ההחלטה תהיה על בסיס הציון הממוצע?

 תשובה (א:( אם המבחן יהיה לראות תמונה (כמו מספר המורכב מנקודות) בדרגת קושי ,1.5  בן אחד (ציון ראייה (3  והבת  (2) יראו, והבן השני – (1) לא. במקרה כזה הציון הממוצע של הבנים יהיה  1.5 ושל הבנות .2  הבנים כושלים יחסית, ולכן זכאים לעדשות מגע.

 תשובה (ב:(  אם במבחן יהיה סימן לזיהוי בדרגת קושי ,2.5  בן אחד  (3) יראה אותו, ואילו השני (1) וכן הבת – (2) לא יראו. במקרה כזה הממוצע של הבנים יהיה  1.5 ושל הבנות .0 הבנות כושלות יחסית, ולכן הן הזכאיות לעדשות מגע.

 אז מי באמת רואה פחות טוב? הבנים או הבנות? התשובה היא שאין תשובה חד-משמעית, על אף שהציון של כל משתתף חד-משמעי לחלוטין. זה מה שיכול לבטל את האפקטיביות של הרפורמה בחינוך מבית-מדרשו של שלמה דברת.


 סיפורו של מחקר

 ההתחלה היתה ב,2002-  עת פורסם מחקרם של שלמה יצחקי ומגי אייזנשטאט מהאוניברסיטה העברית על דירוג קבוצות לפי ציונים. השניים טענו כי השיטות המתמטיות הנהוגות היום, בעיקר שיטת הממוצע, עלולות להטעות, גם כאשר הציון של כל תלמיד במבחן הוא מדויק. לפעמים נקבל ממוצע הפוך לחלוטין מהממוצע שיתקבל במבחן מעט שונה – בדיוק מה שקרה במבחן הראייה. השניים חשבו שמדובר בקוריוז סטטיסטי. באותה עת לא היה להם מושג האם התופעה רחבה אם לאו.

 אור בשר ויעל שחק-אלנברג, תלמידי המחלקה להנדסת תעשייה וניהול באוניברסיטת בן גוריון, בהדרכת עדנה שכטמן, החליטו לבדוק את שכיחות התופעה בקרב כ50,000- נבחני הבגרות במתמטיקה בשנים .2002-2001  הם בחרו במתמטיקה כדי למנוע כל טענה על הציונים שקיבלו התלמידים וההשפעה האפשרית של הבוחן על הציון.

 המחשה א': הציון הממוצע של בנים ממוצא מזרחי היה ,91 ושל בנים ממוצא מערבי .93 –  מסקנה: במתמטיקה בנים מערביים טובים במקצת ממזרחיים.  אלא שניתוח מראה שבתחום הציונים 73 עד 100 יש יותר בנים מזרחיים, ואילו המערביים מתרכזים בציונים שמעל ל100- ומתחת ל.73- מסקנה: אם המבחן היה בנוי כך שיותר תלמידים בינוניים היו יכולים להצליח בו, והיו בו פחות שאלות שרק מצטיינים יכולים להשיב עליהן – המזרח היה מנצח.

 המחשה ב:'  בנות בתי-ספר ממלכתיים-דתיים הוציאו ציון ממוצע גבוה יותר מבנות בבתי-ספר ממלכתיים במבחן בגרות 5 יחידות לימוד (הדרגה הקשה ביותר.(  מתברר כי לדתיות יש עדיפות בתחום הציונים שבין 78 ל ,92-ואילו החילוניות טובות בציונים האחרים. בעוד שבהמחשה א' קיבלנו שהמערביים זכו בציון ממוצע גבוה בזכות הצלחתם בציונים הגבוהים, בהמחשה ב'  הדתיות זכו בציון ממוצע גבוה על אף שכשלו, יחסית, בציונים הגבוהים.

 קוריוז סטטיסטי?  הנה המסקנה העגומה: בממוצע הכלל-ארצי שיעור הטעויות האפשרי בדירוג קבוצות על-פי הציון הממוצע הוא כ.30%- בממוצע של נבחני 5 יחידות לימוד שיעור הטעויות האפשרי הוא כ.50%- ומסקנת החוקרים: כ40%- מדירוג הציונים הממוצעים יכול להיות הפוך ממה שנמצא במבחן של אותה שנה.

 התוצאה הזו מקבלת משנה אמינות אם שמים לב למקרים שבהם הממוצע המתהפך לא מתקבל. זה קורה אצל נבחנים שהוריהם ילידי ישראל, שתמיד פחות טובים מנבחנים שהוריהם ילידי אירופה-אמריקה. זה קורה גם אצל יהודים מול ערבים.

 קובעים החוקרים: "בנתוני ...2001 ניתן היה לבנות מבחן ברמת קושי שונה (לעתים קלה יותר ולעתים קשה יותר,(  ובכך להפוך את דירוג הקבוצות. עבור השוואות אלה אין למעשה שום משמעות לדירוג הקבוצות על-פי הממוצעים שלהן."

  אז מה?

"בשנים האחרונות רפורמות חינוכיות משמעותיות שנערכו בעולם...התבססו על בחינה של תוצאות ותפוקות חינוכיות. זאת מתוך הבנה שלאיכותו של התהליך החינוכי ולהישגיו חשיבות לא פחותה מאשר לכמות המשאבים...התוכנית המוצעת מאמצת תפיסה זו" – כך קובע דו"ח דברת, שמבקש לבחון, ולתת ציונים, לכל בית-ספר ולכל כיתה, ובכך לאפשר "קיום מצפן המאפשר לבדוק את תהליכי העבודה...בהקשר זה נודעת חשיבות מיוחדת למדידה ולהערכה. כלי מדידה אמינים...הם האמצעי המשמעותי ביותר."

  החוקרים המצוטטים כאן אומרים לשרת החינוך ולמצדדי הרפורמה של דברת: רבותי, אין לכם כלי מדידה אמינים. לכן דירוג בתי-ספר, כיתות ומורים לפי הציון הממוצע של התלמידים - הכלי המרכזי ברפורמה – יהיה לא אמין.

 וזה קורה כאשר מניחים שמבחנים אכן מודדים נכון יכולות של תלמידים – עניין שנוי במחלוקת קשה בין חוקרי חינוך.

 מחקר אמריקני (2) בדק איך מסתדרים בתי-ספר עם רפורמה נוסח דברת. כאשר יש מבחנים ארציים תדירים,  כל בית-ספר מנסה להביא למירב את הציון הממוצע שלו. השיטה הרצויה היא להשקיע בהישגי התלמידים. במחקר בפלורידה חשף החוקר תופעה חדשה, שלא היתה קיימת לפני רפורמת-דברת שם: בתי-הספר מסלקים לקראת המבחנים את התלמידים הפחות מוצלחים, ובכך מעלים מלאכותית את הציון הממוצע.

 (1) אור בשר, שלמה יצחקי, יעל שחק-אלנברג ועדנה שכטמן: על מגבלה בדירוג רמת הצלחה של קבוצה במערכת החינוך. טרם פורסם.
(2) David N. Figlio: Testing, Crime and Punishment. NEBR Working  Paper

12.4.2005
שתפו: