לפני 5 שנים, קבוצה של חוקרים מגוגל הכריזה על הישג מדהים. הם הצליחו לעקוב אחרי התפשטות השפעת בארה"ב ללא צורך בתוצאות של בדיקה רפואית, ולו אחת. הם עשו זאת יותר מהר מכל רשות האמונה על בריאות הציבור. המעקב של גוגל השתהה ביום אחד בלבד, בהשוואה להשהיה של שבוע, משך הזמן שלוקח לרשויות לקבל תמונה המתבססת על דיווחים של רופאים. גוגל היתה מהירה יותר מכיוון שעקבה אחרי התפרצות המחלה על-ידי מציאת מיתאם בין חיפושים של אנשים ברשת לבין הסימפטומים של המחלה שלהם.
היישום, "Google Flu Trends" היה לא רק מהיר, מדויק וזול, אלא גם נטול תיאוריות. המהנדסים של גוגל לא פיתחו תיאוריה בשאלה האם יש מיתאם בין החיפושים - סימפטומים של שפעת" או "בתי מרקחת בקרבת מקום" - לבין התפשטות המחלה. הצוות של גוגל פשוט לקח את 50 מיליון מונחי החיפוש השגורים ונתן לאלגוריתמים לעשות את העבודה.
ההצלחה של היישום הפכה לסמל של המגמה החמה החדשה בעסקים, טכנולוגיה ומדע: "ביג דאטה". מה, שאלו עיתונאים, יכול המדע ללמוד מגוגל?
כמו מילות באזז אחרות, גם "ביג דאטה" הוא מונח עמום, שזורקים אנשים שיש להם משהו למכור. יש השמים דגש על הגודל העצום של קבוצות הנתונים שיש כיום. מה שמעניין הרבה חברות בנוגע לביג דאטה הוא הנתונים הקיימים, חיפושים באינטרנט, תשלומים בכרטיסי אשראי ונתונים מתקשורת סלולרית.
יישום השפעת של גוגל התבסס על נתונים קיימים. מה שחשוב לא פחות הוא שזול לאסוף את הנתונים יחסית להיקפם, שמדובר בערב רב של נתונים הנאספים לצרכים שונים ושניתן לעדכן אותם בזמן אמת. מאחר שהתקשורת, הפנאי והמסחר עברו לאינטרנט, והאינטרנט עברה לטלפונים, למכוניות ואפילו למשקפיים, ניתן להקליט ולכמת את החיים באופן שקשה היה להעלות על הדעת לפני עשור.
לאלה התומכים בביג דאטה יש ארבע טענות מלהיבות: שהנתונים מייצרים תוצאות מדויקות; שניתן לשמור כל נקודת נתונים, מה שהופך את הטכניקות הוותיקות של דגימה סטטיסטית למיושנות; שזה "פאסה" לבדוק מה גורם למה, כי המתאם הסטטיסטי אומר לנו את מה שאנחנו צריכים לדעת; ושאין צורך במודלים מדעיים או סטטיסטיים, מכיוון שהמספרים מדברים בעד עצמם.
לרוע המזל, הטענות הללו הן פשטניות מדי, במקרה הטוב. במקרה הגרוע, כך על-פי פרופ' דייוויד ספיגלהלטר, מאוניברסיטת קיימברידג', "מדובר בקשקוש מוחלט".
להבין את החיים
חברות כמו גוגל, פייסבוק ואמזון מחפשות דרכים חדשות להבין את החיים שלנו. יועצים טוענים שהציבור תמים לגבי הפוטנציאל של ביג דאטה. דוח שפורסם לאחרונה על-ידי ה-McKinsey Global Institute טען שמערכת הבריאות האמריקאית תוכל לחסוך 300 מיליארד דולר בשנה - אלף דולר לכל אמריקאי - באמצעות שיפור האינטגרציה והניתוח של נתונים שמיוצרים על-ידי גופים שונים.
אבל למרות שביג דאטה טומן בחובו הבטחה רבה למדענים, יזמים וממשלות, התחום ככל הנראה יאכזב אותנו אם נתעלם מכמה לקחים סטטיסטיים מוכרים.
"יש הרבה בעיות נתונים קטנות בביג דאטה", אומר ספיגלהלטר, "הן לא נעלמות בגלל שיש הרבה נתונים. הן מחמירות".
לפני שנה הודיע אתר החדשות Nature News על חדשות עצובות: התפרצות השפעת האחרונה גבתה את חייו של קורבן בלתי צפוי - יישום השפעת של גוגל. לאחר שסיפק דיווחים מהירים ומדויקים על התפרצויות במשך כמה חורפים, המודל איבד כיוון. המודל של גוגל הצביע על התפרצות חמורה של המחלה, אך כשהנתונים האיטיים והמאוזנים של ה-CDC הגיעו, הם הראו שההערכות של גוגל היו מוגזמות.
הבעיה היתה שגוגל לא ידעה מה הקשר בין מונחי החיפוש לבין התפשטות השפעת. המהנדסים של גוגל עדיין מבררים מה קרה. הם פשוט גילו דפוסים סטטיסטיים בנתונים. מה שעניין אותם היה מיתאם ולא סיבתיות. זהו ניתוח ביג דאטה אופייני. קשה (ויש הטוענים שבלתי אפשרי) להבין מה גורם למה. הרבה יותר זול וקל למצוא מיתאמים. לכן, כך טוען הספר "Big Data" מאת מאייר שיינברגר וקוקייר, "סיבתיות לא תיעלם מן השטח, אבל היא ירדה מגדולתה כמקור העיקרי של המשמעות".
אלא שתיאוריה שמתבססת רק על מיתאמים איננה יציבה. אם אין לך מושג מה עומד מאחורי מיתאם, אין לך מושג מה יכול לגרום לו להתמוטט. אחד ההסברים לכישלון של מודל השפעת של גוגל הוא שהחדשות היו מלאות בסיפורי שפעת מפחידים בדצמבר 2012, ושהסיפורים האלה גרמו לאנשים בריאים לערוך חיפושים בנושא.
מודל השפעת יתאושש, לאחר שיכויל בעזרת נתונים עדכניים, אבל אם לא נלמד את הלקחים מהאירוע, הוא יחזור על עצמו.
2.4 מיליון מעטפות
סטטיסטיקאים בילו את 200 השנים האחרונות בניסיון להבין את המלכודות האפשריות בניסיון להבין את העולם באמצעות נתונים. כיום הנתונים רבים, מהירים וזולים יותר - אבל זה לא אומר שכל המלכודות נעלמו.
ב-1936, הרפובליקאי אלפרד לנדון רץ לבחירות נגד הנשיא פרנקלין רוזוולט. כתב עת התנדב לחזות את התוצאות. הוא ערך סקר שאפתני ביותר באמצעות הדואר, בניסיון להגיע ל-10 מיליון אנשים, רבע מבעלי זכות ההצבעה.
לאחר שתיעד את התוצאות לפי 2.4 מיליון המעטפות (מספר מדהים) שהגיעו במהלך חודשיים, העיתון הכריז על מסקנותיו: לנדון ינצח בשיעור של 55-41% התוצאה היתה שונה: רוזוולט הביס את יריבו ב-61-37%.
סקרי דעת קהל מבוססים על דגימה של אוכלוסיית המצביעים. כלומר - הסוקרים צריכים להתמודד עם שני גורמים: טעות בדגימה והטיה בדגימה.
טעות בדגימה משקפת את הסיכון שדגימה אקראית לא תשקף את הדעות האמיתיות של האוכלוסייה. "מרווח הטעות" שמדווח בסקרים כאלה משקף את הסיכון שככל שהדגימה גדולה יותר, מרווח הטעות קטן יותר.
טעות בדגימה מתרחשת כאשר דגימה שנבחרה באקראי אינה משקפת את אוכלוסיית הבסיס באופן אקראי לגמרי; הטיה בדגימה מתרחשת כאשר הדגימה אינה נבחרת באקראי כלל.
כתב העת, שחיפש קבוצת נתונים גדולה, כשל בשאלת הדגימה המוטית. הוא שלח טפסים לאנשים ברשימה שאסף מרישום כלי רכב ומדריכי טלפונים - דגימה שהיתה, לפחות באותה שנה, מורכבת מאנשים בעלי ממון באופן לא פרופורציונלי. מה שהחריף את הבעיה היה שהסיכוי שתומכי לנדון ישלחו בחזרה את התשובות שלהם היה גבוה יותר. די היה בצירוף של שתי ההטיות הללו כדי לשבש את הסקר.
שיגעון הביג דאטה מאיים לחזור על הטעות הזאת שוב. מכיוון שקבוצות נתונים קיימות כל-כך מבולגנות, קשה להבין אילו הטיות גלומות בהם.
ערימה מבולגנת
פרופ' ויקטור מאייר שיינברגר מאוקספורד מעדיף להגדיר קבוצת ביג דאטה כ-"N = All" - כלומר, כבר אין לנו דגימה, אלא יש לנו את כל אוכלוסיית הרקע. כשעורכים בחירות, סופרים את כל הקולות.
האם זה תיאור נכון של רוב קבוצות הנתונים שאנחנו מתייחסים אליהן? כנראה שלא. "אני לא מאמין שמישהו יכול להשיג את כל הנתונים אי-פעם", אומר פטריק וולף, פרופסור למדעי המחשב וסטטיסטיקה מ-Univerity College London.
טוויטר היא דוגמה לכך. בעיקרון, אפשר לתעד ולנתח כל מסר בטוויטר ולהשתמש בו כדי להסיק מסקנות על מצב הרוח הציבורי. אלא שמשתמשי טוויטר לא מייצגים את האוכלוסייה הכללית. על-פי מחקרים, מדובר באוכלוסייה שרובה צעירה, עירונית או פרברית, ושחורה יותר מאשר האוכלוסייה הכללית.
צריך תמיד לשאול מי ומה חסר, בעיקר כשיש ערימה מבולגנת של נתונים. קייזר פונג, אנליסט ומחבר הספר Numbersense, מזהיר מפני הנחה שמה שחשוב נמצא בידינו. "כשאומרים על נתונים שהם מייצגים את כלל האוכלוסייה, מדובר בדרך כלל בהנחה ולא בעובדה".
קחו לדוגמה את האפליקציה Street Bump מבוסטון, שמזהה בורות בכביש באמצעות מד המהירות של הטלפון. כשתושבי בוסטון מורידים את האפליקציה ונוהגים, הטלפון שלהם מודיע לעירייה אוטומטית על הצורך לתקן את הכביש. עיריית בוסטון מתגאה שהנתונים מספקים לה מידע בזמן אמת שמאפשר לה לתקן בעיות ולתכנן את השקעותיה לטווח הארוך.
אלא שלמעשה, האפליקציה יוצרת מפה של בורות עם הטיה לאזורים צעירים ואמידים, שבהם יש לאנשים טלפונים חכמים. האפליקציה מייצגת את כלל האוכלוסייה במובן שהיא מתעדת כל בור מכל טלפון שכולל את האפליקציה. זה לא אותו הדבר כמו לתעד כל בור בכביש.
קסם סטטיסטי?
אבל למי אכפת מהטיות בדגימה כשאפשר לעשות כסף? חברות בעולם בוודאי מריירות כשהן חושבות על ההצלחה המדהימה של רשת הכלבו טרגט, שדווחה ב"ניו-יורק טיימס" ב-2012. טרגט אספה כל-כך הרבה נתונים על לקוחותיה, והיא כה טובה בניתוח הנתונים הללו, עד שהתובנות שלה על הצרכנים נראות כמו קסם.
בכתבה הופיעה דוגמה על אדם שנכנס לחנות של הרשת במיניאפוליס והתלונן שהחברה שולחת לבתו בת העשרה קופונים של בגדי תינוקות ובגדי היריון. המנהל התנצל עמוקות - אבל אז נאמר לו שבת העשרה אכן בהיריון. האבא פשוט לא ידע. טרגט, שניתחה את הרכישות של הנערה - מגבונים ללא ריח ותוספי מגנזיום - כן ידעה. קסם סטטיסטי? יש הסבר יותר פשוט.
"יש כאן עניין רציני של חיוב שגוי (false positive)", אומר קייזר פונג, שבילה שנים בפיתוח שיטות דומות. פונג אומר שלא נשמע על אינספור סיפורים על כל האנשים שקיבלו קופונים של בגדי תינוקות אבל לא היו בהיריון.
כששומעים את הסיפור עם האב והנערה, קל להניח שהאלגוריתמים של טרגט אינם טועים. רוב הסיכויים שזה לא כך. ייתכן שנשים בהיריון מקבלות הצעות כאלה רק מכיוון שכל מי שברשימת הדיוור של הרשת מקבל אותן. אנחנו לא צריכים להסיק מכך שטרגט מעסיקה קוראי מחשבות.
כל זה לא אומר שאין טעם בניתוח נתונים: זה עשוי להיות רווחי. אפילו שיפור קטן בדיוק של הקופונים הוא פרס כדאי. אלא שאסור לבלבל רווחיות עם ידיעה מוחלטת.
"אף אחד לא רוצה נתונים. כולם רוצים תשובות"
ב-2005, ג'ון יואנידיס, אפידמיולוג, פרסם מחקר בשם "למה רוב ממצאי המחקר שמתפרסמים אינם נכונים". אחד הרעיונות מאחורי העבודה של יואנידיס הוא מה שסטטיסטיקאים מכנים בשם "בעיית ההשוואות המרובות". כשבוחנים דפוס בנתונים, מקובל לשאול האם הדפוס עשוי להיות מקרי. אם הסיכוי שהוא אקראי קטן, אפשר לקרוא לדפוס "מובהק מבחינה סטטיסטית".
בעיית ההשוואות המרובות עולה כשחוקר מחפש כמה דפוסים אפשריים. קחו לדוגמה ניסוי אקראי שבו נותנים ויטמינים לכמה תלמידי בתי ספר יסודי ופלסיבו לאחרים. האם הוויטמינים עובדים? הכל תלוי בשאלה מה זה "עובד". החוקרים יכולים לבחון את הילדים בפרמטרים של הגובה, המשקל, מצב השינויים, ההתנהגות בכיתה, תוצאות המבחנים ואפילו (לאחר זמן) האם ישבו בכלא וכמה הרוויחו. צריך גם לבדוק שילובים: האם לוויטמינים יש השפעה על הילדים העניים יותר, העשירים יותר, הבנים, הבנות? אם בודקים מספיק מתאמים, תוצאות אקראיות יעלימו את הממצאים האמיתיים.
יש דרכים שונות להתמודד עם העניין אבל הבעיה יותר חמורה בקבוצות נתונים גדולות, מכיוון שיש הרבה יותר השוואות אפשריות מאשר נקודות נתונים שאפשר להשוות. ללא ניתוח זהיר, היחס בין הדפוסים האמיתיים לדפוסים מזויפים, נוטה להיות אפס.
מה שיותר גרוע הוא שאחת מתרופות הנגד לבעיית ההשוואות המרובות היא שקיפות, המאפשרת לחוקרים אחרים להבין כמה היפותזות נבדקו וכמה תוצאות סותרות מתחבאות במגירות שולחן העבודה כי הן לא נראו מספיק מעניינות לפרסום. אלא שקבוצות נתונים קיימות בדרך כלל אינן שקופות. אמזון וגוגל, פייסבוק וטוויטר, טרגט וטסקו - החברות הללו לא מתכוונות לחלוק את הנתונים שלהם איתכם או עם מישהו אחר.
קבוצות נתונים וכלי ניתוח חדשים, גדולים ובעלי עוצמה יגזרו קופונים. לאיש אין ספק בכך. יש כמה מקרים שבהם ניתוח של קבוצות נתונים גדולות הצליחו לייצר ניסים. דייוויד ספיגלהלטר מקיימברידג' מצביע על גוגל טרנסלייט, שפועל על0ידי ניתוח סטטיסטי של מאות מיליוני מסמכים שתורגמו על-ידי בני אדם ומעתיק דפוסים. זוהי דוגמה למה שמדעני מחשב מכנים בשם "לימוד מכונה" והוא יכול לתת תוצאות מדהימות ללא צורך בתכנות מוקדם של כללי תחביר.
לפתור בעיות חדשות
אלא שביג דאטה לא פותר את הבעיה שהפכה לאובססיה אצל סטטיסטיקאים ומדענים במשך מאות בשנים: בעיית התובנה, הסקה של מה שמתרחש באמת והבנה כיצד ניתן להתערב כדי לשפר מערכת. "יש לנו כאן משאב חדש", אומר פרופסור דייוויד האנד מ-Imperial College London. "אבל אף אחד לא רוצה 'נתונים'. מה שהם רוצים זה תשובות".
כדי להשתמש בביג דאטה על מנת לייצר תשובות כאלה יש צורך בהתקדמות ניכרת בשיטות סטטיסטיות. "עכשיו זה המערב הפרוע", אומר פטריק וולף מ-UCL, "אנשים חכמים יכולים לתמרן ולהשתמש בכל כלי כדי לעשות שכל מהנתונים האלה וזה מדליק. אבל כרגע יש הרבה דברים שאנחנו לא יודעים".
סטטיסטיקאים משתדלים לפתח שיטות חדשות כדי לנצל את ההזדמנות הטמונה בביג דאטה. שיטות חדשות כאלה חיוניות אבל הן לא יפעלו על-ידי התבססות על לקחים סטטיסטיים של פעם, ולא על-ידי התעלמות מהם.
זכרו את ארבעת הטענות לטובת ביג דאטה. קל לחשוב שמדובר בדיוק חסר תקדים אם אנחנו פשוט מתעלמים מ"חיובים שגויים", כמו במקרה של טרגט. הטענה שסיבתיות ירדה מגדולה היא נחמדה אם אנחנו מתנבאים בסביבה יציבה אבל לא בעולם שמשתנה (כמו במקרה של מודל השפעת של גוגל) או אם אנחנו עצמנו מתכוונים לשנות אותו. ההבטחה ש-"N - All" ולכן שהטיית הדגימה חסרת חשיבות פשוט איננה נכונה ברוב המקרים החשובים. ובאשר לרעיון ש"אם יש מספיק נתונים, המספרים מדברים בעד עצמם" - זה נראה נאיבי להחריד כשמדובר בקבוצת נתונים שבהן מספר הדפוסים המזויפים עולה בהרבה על התגליות האמיתיות.
"ביג דאטה" כבר כאן, אבל התובנות עדיין לא. האתגר הוא כיצד לפתור בעיות חדשות ולהגיע לתשובות חדשות - מבלי לעשות את אותן שגיאות סטטיסטיות של פעם בקנה מידה גדול יותר מאי-פעם.
כמויות אין סופיות של מידע