ניתוח של מספר המדליות באולימפיאדה ביחס לכלכלה

האולימפיאדה הסתיימה ועת חשבון הנפש וחשבון המדליות הגיע. האמריקאים מובילים בטבלת המדליות הן במספר הכללי (113) והן במספר מדליות הזהב (39) ועקפו את הסינים להם  38 מדליות זהב "ורק" 88 מדליות בסה"כ. אבל לסינים כידוע יתרון מספרי קל, משהו בקטנה…רגע אבל להודו יש גם אוכלוסיית ענק אבל להם רק 7 מדליות בסה"כ ומתוכן רק זהב אחת, אז מה ינבא את מספר המדליות? אולי זה התוצר? אולי תוצר לנפש? השקעה כספית בספורט? רמת הרפואה?

ובכן, הכנסנו כמה מאגרי ביג דטא לתמונה ותוכנה די מקצועית לכריית מידע ועיבוד נתונים וניסינו לענות על השאלה: מה קובע את מספר המדליות של מדינה? ובכן… כפי שניתן היה לתאר מראש זה קצת טריקי.

לפני שנציג את התוצאות יש הנחת עבודה, כמו בכל מחקר. ההנחה היא שאנו סופרים את המספר המצטבר של המדליות, כלומר כמה מדליות בסה"כ ללא קשר לסוג המדליה זהב, כסף או ארד. הסיבה? ההבדלים בתוצאות, בניקוד או בהישגים שבין המדליות הם ממש זניחים. זכיה בזהב או בארד יכולה להיות על חודה של נקודה, שבריר שניה או שיפוט לקוי, זו פשוט התפלגות כאוטית מדי. תגידו שזה נכון גם בין המקום הרביעי לשלישי? כמובן שתצדקו אבל בכל זאת, אנו סופרים כאן מדליות לא כמעט מדליות.

אז הכנסנו את לטבלה אחת גדולה את טבלת המדליות הרשמית יחד עם נתונים רבים ממאגרי המידע של האו"ם על הכלכלה של כל מדינה (תוצר, תמ"ג, אוכלוסייה) נתונים על 'כוח רך', על השקעה ממשלתית, אוכלוסייה כפרית מול עירונית, התפלגות הגילאים של האוכלוסייה ועוד ועוד…

הרצנו 4 מודלים סטטיסטיים שונים (רגרסיה, רשת נוירונים, עץ החלטות KNN) על כל המשתנים, והתוצאה? המודל הטוב ביותר היה רגרסיה לינארית על משתנה אינדקס הכוח הרך של המדינה ברמת מיתאם r=0.71.

ובעברית? ככל שלמדינה ציון גבוה יותר באינדקס 'כוח רך' כך היא זוכה ביותר מדליות. היחס בין ציון הכוח הרך למספר המדליות עומד על מתאם חיובי חזק של כאמור 0.71.

למען האמת, גם המשתנה 'כוח רך' בנוי בעצמו מ 10 תתי נושאים במשקלות שונים (לפרטים נוספים), ואם נרצה לדייק עם המודל ניתן לעשות רגרסיה עם משתנים רבים ולקבל תוצאה יותר מדוייקת אבל נניח לכל זה בצד ולא נסבך את הדברים. מצאנו משתנה בודד שנותן תחזית די טובה.

אבל מה, על פי המודל הזה, מספר המדליות הצפוי לישראל עומד על 7 ואנו קבלנו רק 4 מדליות. אז קודם כל בהחלט יתכנו אי דיוקים במודל (וגם 0.7 אינו מתאם מלא של 1) וגם כנראה – ועם כל הכבוד לספורטאים שלנו – החגיגות היו אולי קצת מוגזמות ביחס למדינות דומות לנו בעולם.

בגרף להלן, ציר ה Y מספר המדליות הכללי שקיבלה כל מדינה, ציר ה X ציון המדינה בכוח רך. צבעים לכיוון הצהוב מסמנים תמ"ג גבוה ולכיוון הכחול תמ"ג נמוך. הקו החוצה מתאר את קו המגמה