אנחנו לא יודעים כלום

למה אי אפשר לסמוך על מחקרים שמופיעים בפרסומות? מה צריך לעשות כדי לדייק בבדיקה רפואית? איך מונעים מאנשים מלשקר בסקרים? והאם "מדגם מייצג" הוא בכלל אפשרי? לרגל שבוע הספר: פרק מתוך ספרם של חיים שפירא

עעם כמה בני זוג קיימתם יחסים במרוצת החיים? האם אי-פעם בגדתם בבן/בת הזוג? שאלות אינטימיות כאלה ואחרות מופיעות בסקרים בנוגע לנושא משעמם במיוחד... סקס. תוצאה מוזרה שחוזרת בסקרים אלה היא שגברים שוכבים עם יותר נשים מאשר נשים עם גברים. תוצאה בולטת אחרת היא שיש יותר גברים בוגדים מאשר נשים בוגדות. זה אפשרי אם הרווקות מ*ג*ו**נו*ת את המפגשים שלהן יותר מאשר הרווקים, אבל סקרים מראים שגם הרווקים ששוכבים עם נשים נשואות מג*וו*נים יותר מרווקות ששוכבות עם גברים נשואים.

נסכם את הממצאים: חיי המין של הגברים מרובים יותר ומגוונים יותר מחיי המין של הנשים. זה לא מתיישב עם העובדה שמספר הגברים והנשים פחות או יותר שווה. במילים אחרות, עם מי הגברים בוגדים כל-כך הרבה כשהנשים כל-כך נאמנות?

מסקנה אפשרית היא שגברים נוטים להגזים כלפי מעלה בתשובותיהם, ונשים מדווחות על מספר נמוך מניסיונן האמיתי, ובכל אופן, הנה לנו דוגמה לסקר שמפיק מספרים באופן מתמטי (ממוצע חשבוני), ובכל זאת המסקנה שלו אינה מדעית. קשה לעשות סקר שתוצאותיו יקלעו למציאות בקירוב ראוי. צריך לדייק בגודל המדגם, לבחור נכון את הנדגמים, לנסח היטב את השאלה, בקיצור - להימנע ממכשולים רבים. הנה כמה מהם.

מכשול ראשון

שקרים, רבותיי, שקרים

הנה גילוי מרעיש: אנשים משקרים - לעתים לאחרים, לעתים לעצמם. למשל, כששואלים אנשים כמה שעות ביום הם צופים בטלוויזיה, הרוב מייחסים לעצמם פחות שעות צפייה מהאמת, משום שקשה להם להכיר בעובדה ששליש משעות הערות מבוזבז ברביצה מול המסך. יש נושאים המועדים מראש לשקרים: סקס, הכנסה, הרגלים, עבירות פליליות. נושאים כאלה מחייבים את הסוקר להיות מתוחכם כדי לגלות את השקרים או לפחות לעקוף אותם.

הנה דוגמה לעקיפה שכזו: בתקופת מלחמת וייטנאם עשו בארצות הברית סקר שמטרתו הייתה לברר איזה שיעור מחייליה צורך סמים. שאלות ישירות היו גורמות לחיילים שצורכים סמים לשקר, כיוון שעישון סמים הוא עבירה. אז עורכי הסקר השתמשו בתחבולה יפיפייה. במקום לשאול את החייל, "האם צרכת סמים?", הם ביקשו ממנו לשלוף קלף מתוך קערה ולהשיב על שאלה מהקלף שנשלף. בקערה היה מספר שווה של קלפים עם כל אחת מהשאלות האלה:

המטרה הייתה לערפל את האינפורמציה המועברת כאשר חייל משיב "כן". נוח לו להשיב "כן" כי המראיין שמולו לא יודע אם הוא משיב בחיוב על שאלת הסמים או על זיהוי המשולש.

נניח שנבדקים 1,200 חיילים, אזי בערך 400 חיילים שלפו קלף מכל סוג. כ-400 שלפו את הקלף השמאלי המתייחס לשימוש בסמים. ונניח ש-500 חיילים השיבו על שאלת הקלף הנשלף: "כן", מה נוכל להבין מכך? 400 מתוך תשובות "כן" אמורות להגיע מן הקלף האמצעי, ואף לא תשובת "כן" אחת אמורה להגיע מן הקלף הימני (מהסיבה הפשוטה שמה שכתוב בו אינו נכון). ולכן, אם נחסיר מ-500 את 400 התשובות "כן" שהתקבלו משולפי הקלף האמצעי, נקבל כי כ-100 ענו "כן" לשאלה של הקלף השמאלי: "האם השתמשת בסמים?". המסקנה היא ששיעור המשתמשים בסמים הוא בערך אחד לארבעה (100 מתוך 400), כלומר 25%.

מכשול שני

לכל תשובה יש שאלה

אפשר לשאול: "האם אתה מרוצה מהעלאת המסים?", ואפשר לשאול: "האם אתה מרוצה מהתוכנית לצמצום הגירעון?". כל בר דעת מבין ששתי השאלות יובילו לתוצאות שונות.

זוכה פרס נובל פרופ' דניאל כהנמן, ושותפו למחקרים רבים פרופ' עמוס טברסקי ז"ל, עשו ניסוי מרתק שבוחן את השפעת ניסוח השאלה על התשובה. הם הציגו למשתתפי הניסוי שני סיפורים. התרכזו נא והקשיבו לסיפור הראשון:

במקום מסוים פרצה מגפה ויש שתי אסטרטגיות להתמודד איתה. בעזרת אסטרטגיה A יינצלו בדיוק 200 אנשים מתוך 600 הנתונים בסכנה. בעזרת אסטרטגיה B, יש סיכוי של שליש שיינצלו כל ה-600, וסיכוי של שני שלישים שאיש לא יינצל. מה עדיף?

רוב הנשאלים העדיפו את האסטרטגיה הראשונה.

ועכשיו, הסיפור השני: לפי אסטרטגיה A ימותו בוודאות 400 איש מתוך ה-600; לפי אסטרטגיה B יש סיכוי של שליש שאיש לא ימות, וסיכוי של שני שלישים שאיש לא יינצל. מה עדיף?

הפעם רוב הנבדקים העדיפו את האסטרטגיה השנייה.

אם הייתם מרוכזים מספיק ודאי הבחנתם ששני הסיפורים זהים לחלוטין, ורק הניסוח של השאלה היה שונה. אז נכון, אנחנו חכמים, המצאנו את הסמארטפון והטסנו בני אדם לירח, אבל החשיבה האינטואיטיבית עדיין זקוקה לשיפורים.

הנה עוד דוגמה: תארו לעצמכם משאל עם בסוגיית הנסיגה מרמת הגולן.

יש שתי אפשרויות לשאלה: א. האם אתה בעד שלום בר קיימה עם סוריה, המבטיח פתיחת גבולות ומעבר חופשי ברכבך לאירופה, ביקור בשווקים של דמשק, ואספקה זולה של פיסטוקים סוריים איכותיים (אף שמקורם בכלל בלבנון) בתמורה לנסיגה מן הגולן?; או ב. האם תהיה מוכן לסגת מכל רמת הגולן ולסכן את שלום ילדיך ואת עצם קיומה של מדינת ישראל בתמורה להסכם שלום (זכור שהסכם זה אינו יותר מפיסת נייר)?

אל ייאוש, אם באמת מעוניינים בדעת הקהל, אפשר להפחית את ההטיה של הניסוח. הפתרון המקובל הוא להציג כמה סוגים של שאלות עם ניסוחים מקבילים. זה נקרא דגימה מחולקת. תשובה להרכב מגוון של שאלות תניב אינפורמציה מהימנה, במיוחד אם דואגים להבין כל תשובה בתוך הקונטקסט שלה.

מכשול שלישי

תסמונת החלוק הלבן

האם סקרים פוליטיים הם בבחינת נבואה המגשימה את עצמה? נניח שאתם משתתפים בבחירות לכנסת וברצונכם להצביע עבור מפלגה קטנה, אך יש לכם חשש שקולכם ירד לטמיון, מאחר שלפי הסקרים המפלגה אינה עוברת את אחוז החסימה; או להפך, אתם חוששים שהמפלגה הזאת תיעלם, אז אתם ממהרים להצביע עבורה. מה לעשות?

דעתי היא שאסור להתחשב בנתוני הסקרים בכלל, ובתחזיותיהם לגבי המפלגות שאינן עוברות את אחוז החסימה בפרט. אם נתחיל להצביע על-פי הסקרים, כולנו ניפול במלכודת הנבואה המגשימה את עצמה. כל מפלגה נוטה בזמן בחירות להאדיר את כוחה, משום שידוע כי קולות צפים נוטים לצוף לכיוון המפלגות החזקות (בכדורגל ישנה תופעה דומה - קבוצה מצליחה רוכשת אוהדים רבים).

הנה דוגמה נוספת, הפעם מעולם הרפואה: כאשר מודדים לחץ דם או דופק, אצל נבדקים רבים מתרחשת "תופעת החלוק הלבן" - נבדקים נוטים להתרגש בעת הבדיקה, ולחץ הדם והדופק עשויים להגיע לרמות גבוהות מן האמת. ועוד דבר: כשהאחות מודדת דופק, היא יכולה לעשות זאת בשתי שיטות שונות - למנות את הפולסים במשך דקה, או לעצור אחרי עשר שניות ולהכפיל את התוצאה ב-6. השיטה השנייה תניב תוצאה גבוהה יותר בממוצע, שכן נבדקים נוטים להתרגש יותר בתחילת הבדיקה.

אם ניתן לנבדק לקרוא פרק מתוך "פו הדוב" או "הבית בקרן פו", הוא יהיה רגוע מדי, ולחץ הדם והדופק יהיו מוטים הפעם לכיוון ההפוך, למטה מן התוצאה שהיינו רוצים למדוד.

אם כך, אני מציע את השיטה הבאה: האחות תתעלם מלחץ הדם ומהפולסים של הדקה הראשונה, ואז, בדקה השנייה, אחרי ש"תופעת החלוק הלבן" חלפה או לפחות נחלשה, תחל המדידה.

מכשול רביעי

מי הזמין את הסקר?

הנה משהו שקורה לעתים קרובות כשרוצים לפרסם מוצרים. עורכים את הסקר בצורה שגויה בכוונה, מתוך ידיעה מראש שהתוצאה תהיה שגויה (מוטה) לכיוון הרצוי. חברת תרופות עשויה לערוך מחקר מניפולטיבי שבוחן תרופה חדשה על חולים שכבר נמצאים בתהליך של הבראה. זוהי בחירה שגויה של הנדגמים (sampling bias).

דרך נוספת היא *להזמין* תוצאה רצויה על-ידי כך שנקיים הרבה סקרים קטנים, במקום סקר אחד גדול. אם נבדוק, למשל, הרבה קבוצות של חמישה רופאי שיניים, סביר שבסופה של הבדיקה תימצא קבוצה שבה רובם ממליצים על משחת שיניים מסוימת ורק את הסקר הזה נפרסם. זהו פרסום מוטה publication bias)).

אפשר גם פשוט "לשכוח" לפרסם את תופעות הלוואי הקשות של תרופה כלשהי. חברת התרופות לא שיקרה, היא לא אמרה שאין תופעות לוואי, היא רק התעלמה מהעובדה הזו והתמקדה בנתון המוצלח של שיעור המבריאים.

כלומר יש פה דיווח מוטה (reporting bias).

מכשול חמישי

מה זה בכלל מדגם מייצג?

תארו לעצמכם שמחר בבוקר כל תושבי ישראל יקבלו מסרון כזה: "אם את/ה אוהב/ת לענות על סקרים, סמס/י את הספרה 1; אם אינך אוהב/ת לענות על סקרים, סמס/י את הספרה 2. אתם יודעים מה יקרה כאן? יתקבל שקרוב ל-100% מהישראלים אוהבי סקרים הם (כתבתי "קרוב ל-100%" כי אולי ישנם כמה אנשים מבולבלים שאינם אוהבים לענות על סקרים ויענו בכל זאת). לפעמים סוג הסקר או דרך הדגימה מסייגים חתך של האוכלוסייה. במקרים אלה, הנדגמים אינם מייצגים.

בשביל שהמדגם יהיה מייצג, צריך שהפרופורציה של כל תכונה רלבנטית תהיה זהה לפרופורציה באוכלוסייה. למשל: אם רוצים לדעת מהו שיעור הלקוחות שמרוצים מארונות באיקאה, חשוב שאחוז הנדגמים ממין נקבה יהיה זהה לאחוז הלקוחות ממין זה באוכלוסייה. בפוליטיקה, סקר שלפני בחירות לכנסת חייב להבטיח שאחוז הקיבוצניקים בו זהה לאחוז הקיבוצניקים באוכלוסייה. כנ"ל לגבי רמת השכלה, מידת הדתיות, גובה הכנסה, שייכות לעדה, הגיל, וכולי.

איך משיגים זאת? אולי נלך על מדגם מקרי וסתם נצלצל לאנשים הביתה? לא רעיון טוב. למשל, סקר טלפוני בשעות הבוקר עשוי ליצור הטיה, כי יש יותר נשים זמינות (שאינן עובדות מחוץ לבית) מאשר גברים.

אחת הדוגמאות המפורסמות היא הכישלון בניבוי זהותו של נשיא ארצות הברית בשנת 1936. בשנה זו טעה כתב העת Literary Digest בסקר שערך, אף שהשתמש במדגם עצום של מיליוני אנשים. הטעות נבעה מכך שהסקר היה טלפוני בלבד בתקופה שרק לאנשים בעלי הכנסה גבוהה היה מכשיר כזה.

ג'ורג' גאלופ קנה את תהילתו כאשר פרסם תוצאות מדויקות באותן בחירות, אף כי התבסס על מדגם קטן יותר באופן משמעותי, אך גם מכון גאלופ אינו חסין מטעויות: באוקטובר 2012, כחודש לפני הבחירות לנשיאות ארצות הברית, העניק המכון יתרון של 7% למועמד הרפובליקני מיט רומני, וכולנו יודעים שרומני חזר הביתה ואובמה נשאר בבית הלבן.

מכל מקום, השיטה השכיחה כיום להשגת מדגם מייצג היא דגימה אקראית. הנה כמה דוגמאות לדגימה כזו - והכשלים שבהן.

א. דגימה אקראית פשוטה: מסתכלים בספר הטלפונים ומתקשרים לכל אדם עשירי ברשימה. הבעיה היא שהטלפונים ממשיכים לעשות בעיות, כי גם בימינו ייתכן שלחלק מן האוכלוסייה לא יהיה טלפון נייח (הפעם אולי יהיו אלה דווקא העשירים), וידוע כי יש אנשים שאינם עונים לשיחה שאינה מזוהה או שמספרה אינו מוכר.

ב. דגימה מרובדת: כאן מחלקים את האוכלוסייה לפי תכונה מסוימת, או בשפה המקצועית רובד מסוים (strata), ומאזנים את הסקר בין הרבדים. 500 נשים ו-500 גברים, למשל.

אני כבר שומע אתכם שואלים שאלות רבות ומוצדקות.

לג'ורג' גאלופ מיוחסת האמירה שסקרים בפוליטיקה נועדו אך ורק כדי להפנות את תשומת לב המנהיגים לדעת הקהל, וכל פרשנות אחרת היא פשוט שטות. נו, טוב.

מכשול שישי

הגודל לא קובע

סקרים מביאים בחשבון טעות מסוימת ("רווח סמך", בעגה המקצועית). הנה דוגמה: במקום לומר "17% מן הישראלים אוהבים מוזיקה קלאסית", יש לומר משהו כמו: "17% מן הישראלים אוהבים מוזיקה קלאסית עם טעות שולית של 3% ורמת ודאות של 95%". ועכשיו בעברית: בביטחון של 95% נוכל לומר שהמרווח בין 14% ל-20% מכסה את האחוז המדויק של ישראלים חובבי המוזיקה הקלאסית (17-3=14 ו-17 3=20).

מה זה ביטחון? כאן צריך לחשוב באופן מופשט על הרבה ניסויים דמיוניים (נגיד אלף), שבהם גודל האוכלוסייה הוא כגודל החברה הישראלית, גודל הדגימה הוא בהתאם לגודל הסקר, והתוצאות הן כפי שהתקבלו. באוסף הניסויים הדמיוניים, יותר מ-95% מן הניסויים יאשרו את המסקנה שלנו. לא השתכנעתם? זה בדיוק אותו השיקול שמוביל אותנו להאמין שהסיכוי לקבל 6 בהטלה אחת של קובייה הוא שישית.

איך יכול להיות שמדד הרייטינג בישראל מסתמך על מאות בתי אב, שמהם מקישים לגבי הרגלי הצפייה של מיליוני האזרחים? ואיך יכול להיות שפרסמו את מנת המשכל הממוצעת בישראל ולא בדקו אותי? ובאופן כללי, איך יכול להיות שחוקרים תכונה של אוכלוסייה גדולה (מאוד) על-פי חלק קטן מתוכה? הרי זה בלתי אפשרי לשאול את כל האנשים את כל השאלות.

וכשאני כותב "תכונה" אני מתכוון לכל נתון סטטיסטי שמעניין אותנו. מה מעניין אותנו? הכול (כמעט). מהו השכר הממוצע בחברת החשמל? מהו גובה ההוצאות הממוצע על תרבות במשפחה תל אביבית? כמה שעות ביום משחק הנער הישראלי הממוצע במחשב? מהי הכמות הממוצעת של דמעות שמזיל תנין בחמת גדר? נתונים מעין אלה (טוב, אולי למעט הדמעות של התנין) מתפרסמים בתקשורת מדי יום ביומו. איך יודעים שהדגימה מספקת את התשובה הנכונה לגבי האוכלוסייה כולה? אולי במקרה הגרלנו את כל הנערים שאין להם בבית מחשב או את קומץ המשפחות שמגיעות פעמיים בשבוע להצגה בתיאטרון?

ובכלל, איך יודעים כמה אנשים לשאול? לעתים כתוב בעיתון משהו מעין, "המידע מבוסס על מדגם של 626 אנשים" - מדוע 626? אולי היינו צריכים להמשיך לאסוף נתונים על מנת לקבל תוצאות מדויקות יותר, ואולי כבר הגזמנו לגמרי והיה אפשר לשאול הרבה פחות אנשים?

כמו כל טכניקה סטטיסטית, הסקר אינו נותן הבטחה שהתוצאה מייצגת נכונה את האוכלוסייה הנדגמת. אבל, אם הוא בוצע כהלכה, קיימת הבטחה שההסתברות לקבל תוצאה מייצגת היא גבוהה. החדשות הטובות הן שאפשר להבטיח רמת ודאות גבוהה וטעות שולית קטנה כאשר בוחרים מספר גבוה של נדגמים. החדשות המעניינות הן שברוב המקרים גודל המדגם הרצוי אינו תלוי בגודל האוכלוסייה הנדגמת. אחוז הנדגמים אינו חשוב, אלא המספר שלהם. זה עניין מתמטי. הנוסחה מתעלמת מגודל האוכלוסייה, אלא אם כן האחוז הנדגם הוא משמעותי.

כדי להדגיש את הפליאה שבדבר: אם דגמנו משקל של 500 אנשים מעיר מסוימת, ואנחנו משתמשים בממוצע שלהם כהערכה למשקל הממוצע של כל תושבי העיר, אזי רמת הוודאות תהיה זהה כמעט לחלוטין כאשר מדובר בניו יורק או בקריית מוצקין. מפתיע, לא?

אפילוג

בין אורניום לגרניום

נסיים בהרהור בדבר התועלת שבקריאת הסקרים על נושאים סבוכים. חודשים אחדים לפני שכתבתי את השורות האלה התפרסם סקר שבדק את עמדתם של הישראלים בנוגע לטרום-הסכם שנחתם בין המעצמות לבין איראן בסוגיית הגרעין האיראני. אף על פי שככל הנראה רוב-רובם של הנשאלים לא קראו את ההסכם ולחלקם לא ממש ברור ההבדל בין אורניום לגרניום, 88% הביעו התנגדות נחרצת, 11% התנגדו באופן נחרץ פחות, ורק 1%(!) מהנשאלים לא ענו.

לעתים אני שומע את חבריי הטובים (אנשים חכמים בדרך כלל) אומרים משפטים כגון: "אם הם יעשירו את האורניום לרמה של 5%, אז אני זורם עם זה, 7% זה כבר מתחיל להיות מפחיד". נו, מה תגידו על זה?