שיחת הרקע עם פרופ' נפתלי תשבי, חוקר בפקולטה למדעי המחשב ובמרכז ספרא לחקר המוח באוניברסיטה העברית בירושלים, נמשכת כמעט כמו ראיון מלא, ומתחילה אי שם בשנות השבעים המוקדמות. פרופ' תשבי פיתח מערכות זיהוי קול חכמות עבור הצבא עוד בשנות השבעים, והמחקר שלו נמצא היום בלב העניין התחום הטכנולוגי הכי טרנדי בעשור האחרון: בינה מלאכותית, וליתר דיוק - למידה עמוקה.
הסבלנות ונועם ההליכות שלו עלולים לבלבל מעט: מאחורי פרופ' תשבי אין שום אקזיט נוצץ כמו זה של עמיתו, פרופ' אמנון שעשוע, מייסד מובילאיי שמכר את חברת הבינה המלאכותית שלו לאינטל תמורת 15.3 מיליארד דולר, אך מדובר באחד מומחי הבינה המלאכותית החשובים והמשפיעים בעולם. בעולם הבינה המלאכותית המקומית הוא אפילו סוג של סלבריטי שכולם מכירים. פרופ' תשבי מציג את ממצאיו בכנסים הרבים בהם הוא מופיע, האחרון שבהם התקיים במרכז הבינתחומי בהרצליה בנוכחות בכירי השחקנים בתחום הבינה המלאכותית בישראל.
תחום הלמידה העמוקה עבר לקדמת הבמה הודות לשתי התפתחויות טכנולוגיות מרכזיות: הופעת הביג דאטה - מאסות של נתונים שניתן לסרוק ולנתח; ובמקביל אמצעים טכנולוגיים פיזיים שיאפשרו לעבדם ביעילות - לדוגמה הכרטיסים הגרפיים של חברת אנבידיה, שהתבררו כמתאימים למשימה. מלוא הפוטנציאל של התחום מתברר רק עתה: מחשבים שמסוגלים לקרוא את המציאות, ללמוד אותה, ולהסיק ממנה תובנות הם הבסיס לרכב האוטונומי - שחייב לקרוא את סביבת הרכב ולפענח אותה; זהו הבסיס ליכולת של הסייעניות האישיות, סירי ואלקסה, להבין שפה; כך גם בוטים שעונים לנו אוטומטית בשירות לקוחות ומנסים לסייע לנו.
מה זה בעצם אומר, בינה מלאכותית?
"בחלוקה גסה, בינה מלאכותית מחולקת לארבעה תחומים:
"האחד, ראייה ממוחשבת. התחום השני הוא דיבור ושפה, שמקבל ביטוי באמצעות הסייעניות סירי ואלקסה, תמלול שיחות או הבחנה בין שני אנשים שמדברים יחד. התחום השלישי הוא עיבוד טקסט. לדוגמה, הכתוביות האוטומטיות ביוטיוב שעובדות מצוין, או גוגל טרנסלייט, שעקומת הלמידה שלה מהירה יותר מכל טכנולוגיה אחרת שאנחנו מכירים. כמו כן, עיבוד טקסט מאפשר לקחת מסמך נתון ולכתוב אותו בסגנון אחר, למשל משפטי או תנ"כי.
"התחום הרביעי הוא זה שמושך את מרב תשומת הלב: רובוטיקה וכלים אוטונומיים. למרות מה שנדמה, אנחנו רק בתחילת הדרך. אני סבור שהפרופסורים אמנון שעשוע ושי שלו לא מעריכים נכון את הקושי, משום שהם מתייחסים לפן הטכנולוגי בעוד שבפועל מדובר בפסיכולוגיה חברתית. הבעיה היא לא להסיע את המכונית, אלא לחזות מה יעשו בני אדם אחרים שנוהגים. אילו היינו יכולים להוריד ביום אחד את כל בני האדם מהכביש ולהשאיר אותו אך ורק למכוניות אוטונומיות, לא הייתה בעיה בכלל. אבל בני אדם הם לא צפויים וקשה מאוד למדוד את הסטטיסטיקה שלהם - זה קשור לחקר ההתנהגות האנושית וזה משהו שמובילאיי לא עוסקת בו. אז התחום יתפתח, אבל לאט יותר ממה שצופים".
מה דרוש כדי שזה יקרה?
"דרושה יכולת לתאר באופן מתמטי את ההתנהגות האנושית הלא צפויה - את מחוות הידיים או כללי המשא ומתן שעושים בזווית העין עם הנהג השני. בנוסף, יש השפעה גיאוגרפית: אנשים מסתכנים באופן שונה במקומות שונים. למשל, בסקנדינביה אנשים מסתכנים פחות ועוברים פחות על החוק, ולכן קל יותר לחזות את ההתנהגות שלהם. יש גם הבדלים בין ימים שונים, למשל אם אנשים עצבניים בגלל אירוע מסוים או מזג אוויר שונה או שעה אחרת ביום. דרושה לנו טכנולוגיה שממדלת התנהגות של הרבה אנשים ביחד".
איך אפשר יהיה לפתור את זה?
"צריכה להיות הסתגלות של המכוניות לבני אדם ולהפך: אנשים יצטרכו להתנהג באופן יותר צפוי וזהיר בסביבתן. אולי כדאי יהיה לסמן את המכוניות ככאלה".
תהליך הלמידה מפורק לשכבות מידע
בשנות התשעים הקים פרופ' תשבי את המעבדה ללמידה חישובית במכון למדעי המחשב, שהפכה לאחת מקבוצות המחקר המובילות בתחום זה בארץ ובעולם. הוא עבד שנים רבות במוסדות מחקר מהשורה הראשונה בארה"ב, בכללם מעבדות בל, MIT, המכון לפיזיקה עיונית ב-UCSB, ומעבדות המחקר של IBM, ועמד גם בראש מרכז מחקר של אינטל לבינה חישובית. בין מחקריו בולטות עבודות בלמידה חישובית וביולוגית, ניתוח והבנת השפה האנושית באמצעות המחשב, ותפיסה ביולוגית ומכנית של צלילים ומוזיקה. בשנים האחרונות מתמקד מחקרו בשיטות חישוביות וסטטיסטיות לכימות מידע בעל משמעות במערכות ביולוגיות, ועקרונות ארגון עצמי והסתגלות של מערכות עצביות.
כל אלו מתכנסים לתחום שייתכן שהוא יוכל לסייע בו: למידת מכונה באמצעות רשתות נוירונים. מדובר במערכת מחשב שמדמה את פעולתם של הנוירונים במוח, כך שחלקי הזיכרון השונים ברשת מקיימים קשרים עם חלקי זיכרון רבים אחרים בה, ובנוסף קשרים "נחלשים" או "מתחזקים" בהתאם לצורך. אחד המחקרים הבולטים של פרופ' תשבי עוסק בשאלה כיצד עובדות רשתות הנוירונים, מתוך הנחה שאם נבין כיצד הן עובדות נוכל לא רק לבנות מכונות חכמות יותר, אלא אולי נוכל להבין את האופן שבו בני אדם חושבים ולומדים. אך אף על פי שאנחנו יודעים שבינה מלאכותית עובדת, אין לנו מושג כיצד זה קורה - תשבי וחוקרים אחרים מגדירים זאת כ"קסם".
האופן שבו רשת נוירונים פשוטה עובדת
בשלב הראשון, מראים למערכת כמויות עצומות של תמונות של עצם מסוים, והיא לומדת לזהות אותו. השלב השני הוא זה שבו המכונה מיישמת את מה שהיא למדה וכשהיא רואה תמונה, היא יודעת לזהות האם בעל החיים שמופיע בה הוא חתול או נמר, או האם האדם הוא משה או חיים. משתמשי הרשתות החברתיות הם שותפים פעילים בתהליך הזה, באופן כמעט יומיומי. למשל, כאשר אנחנו מתייגים את עצמנו בפייסבוק, אנחנו מלמדים את המכונות של פייסבוק לזהות אותנו כך שכשנעלה תמונות נוספות, המערכת תציע לנו בעצמה את התיוג הנכון.
החלק הראשון של התהליך, הלמידה, מורכב מכמה שלבים - שכבות - של טיפול במידע. כך למשל, בשכבה הראשונה יאובחנו הפיקסלים השונים שמרכיבים את התמונה, בשכבה הבאה יזוהו גבולות העצמים שנמצאים בה, בשכבה שלאחריה יאובחנו שילובים שונים של גבולות של עצמים. בשכבה נוספת יזוהו - אם מדובר בפנים לדוגמה - הגבולות של העיניים האף וכו'. ואז, בעוד שכבה, יזוהו שילובים של כל העצמים וכל המרכיבים הנוספים יחדיו. ופה בדיוק נמצא הקסם: משום שהאופן שבו מתרחשת הלמידה עצמה בתוך המערכת, בין שכבות הנוירונים לבין עצמם, נשארה חידה.
מה זאת אומרת? למה קסם?
"הדבר שהכי מתסכל אותנו, אנשי הלמידה החישובית והאנשים התיאורטיים שמתיימרים להבין, הוא שלא הבנו מדוע רשתות הנוירונים עובדות כל כך טוב. עולות שאלות כמו מה הקשר בין מספר שכבות העיבוד לאיכות הלמידה, ומה הן בכלל לומדות מלכתחילה. באילו תכונות של התמונה שלך המערכת משתמשת, ובאילו היא לא משתמשת.
"לא היתה לנו שום תאוריה שהעניקה לנו משוואות פשוטות שמתארות את ההתנהגות של הרשת. הייתי ונשארתי פיזיקאי, אז אני רוצה הסבר שאומר לי תשמע - הרשת הזאת למדה טוב כי קרו הדברים הבאים, ורשת אחרת לא למדה טוב כי התרחש משהו אחר. הדברים האלו חשובים כדי להבין האם ניתן לשפר את המערכת ולאילו כיוונים אפשר לשפר אותה. השאלה כיצד לגרום לאלגוריתמים להיות מהירים יותר מעניינת מהנדסים, אני מעוניין להבין מה המערכת למדה ועד כמה היא קרובה לביצועים אופטימליים".
הדיוק השתפר, רמת המורכבות ירדה
בנסיונו להבהיר את הדברים בנוגע ללמידת מכונה, פרופ' תשבי מספר על מחקר אחר שלו, שעסק בדיוק הסמנטי של שפות. פרופ' תשבי, עם תלמידתו נגה זסלבסקי, חישבו מתמטית את מידת הדיוק הלשוני האופטימלי שניתן להגיע אליה באמצעות שפות אנושיות , בהתחשב במורכבת שלהן. או במילים אחרות: עד כמה יכול דובר ליצור במוחו של השומע את התמונה הכי קרובה לזו שיש במוחו שלו. ככל שהשפה מורכבת יותר היא יכולה להגיע לדיוק רב יותר. אך לאחר שבדקו 111 שפות טבעיות, הם גילו שבפועל כולן מפגינות ביצועים שקרובים מאוד לקו שהתיאוריה קבעה שהוא האופטימלי.
באופן דומה, פרופ' תשבי ניסה להראות שככל שמוסיפים עוד דוגמאות ועוד שכבות עיבוד לרשתות הנוירונים כדי לאמן אותן בשלב האימון, כך עולה הדיוק שלהן, דהיינו משתפרת היכולת שלהן לזהות מה מופיע בתמונה בלתי מוכרת. "זה מרשים מאוד, כי זה אומר שאנחנו מבינים היטב איך למידה באמצעות הרבה דוגמאות משפרת את הביצועים".
החידוש הגדול של פרופ' תשבי לא נעוץ בעצם יכולת הלמידה , אלא בדרך שעוברות הרשתות אל הביצוע האופטימלי. הניסוי הראה שעד שלב מסוים, תוספת של מורכבות על המערכת גרם לה להציג תוצאות מדויקות יותר - זה היה צפוי ואינטואיטיבי - ההפתעה הייתה שבשלב כלשהו התחולל מהפך, ורמת הדיוק המשיכה להשתפר, בעוד רמת המורכבות של התהליך החלה דווקא לרדת, דבר שמשפר את יכולת ההכללה של הרשת.
רמת המורכבות היורדת היא השלב שבו המערכת מצליחה לזקק מספיק טוב את המהות של הדבר אותו היא מנסה "להבין", ולבצע הכללה טובה שלו. פרופ' תשבי מסביר: "המוח שלנו מוגבל, ואם נעמיס אותו בפרטים לא רלוונטיים לא נוכל להכליל טוב. במקום זה, נזכור ונחפש פרטים לא חשובים, כמו שמות כל הספרים שניצבים בארון שמאחורי.
"את זה בדיוק רשת הנוירונים צריכה ללמוד - לזהות את הפרטים הלא חשובים. הבעיה היא שאף אחד לא אומר למערכת מהם הפרטים הלא חשובים, היא צריכה ללמוד את זה לבד, וזה דורש זמן. בפנים של בנאדם, למשל, הפרטים החשובים הם ככל הנראה שילוב של צבע העיניים, המרחק בין האוזניים, המיקום של האף ועוד כמה פרמטרים שמסתכמים בכ-20 מספרים בסך הכל. אותם צריך ללמוד ולזכור, ואת כל השאר לשכוח".
אז עיקר הלמידה היא להבחין בין עיקר לתפל?
"כשזה נאמר ככה זה נשמע טריוויאלי, אבל אנחנו מנסים להבין מבחינה מתמטית כיצד רשתות נוירונים לומדות להבחין בין עיקר לטפל. זו פעם ראשונה שאנשים מקבלים תמונה מלאה של כל הרשת, שמאפשר להבין למה שכבות עיבוד המידע השונות ברשת הנוירונים עוזרות אחת לשנייה, ומה הייעוד שלהן. הייעוד שלהן הוא לשכוח את מה שלא חשוב. "במחקר, אני מסביר באופן מדויק איך האלגוריתם הזה של הלמידה מצליח לעשות את השכחה הזאת".
מה המשמעות המעשית של זה?
"חלק מהשכבות ממומשות בחומרה וחלק בתוכנה, באמצעות תכנות יותר יעיל. העניין הוא שכולם חשבו שהמשמעות של הרבה שכבות הוא פעולה יותר עשירה ולכן ממושכת יותר מבחינת זמן, ולכן גם יותר יקרה. החידוש הלא אינטואיטיבי היה שיותר שכבות - משמעותו לימוד יותר מהיר.
"את התעשייה מעניין איך מתאימים בצורה אופטימלית את רשת הנוירונים לבעיה שהיא צריכה לפתור. ברור שאם לכל בעיה אצמיד את הרשת הכי חזקה אבזבז הרבה משאבים, לכן הייתי רוצה להיות מסוגל להגיד כמה שכבות צריך באמת כדי לפתור את הבעיה מבלי לבצע חישובים מיותרים.
"דוגמה נוספת היא שבקשרים בין שכבות הנוירונים יש משהו שנקרא מהלך מקרי, או "מהלך שיכור". זה אומר שחלק גדול מזמן האימון מתבזבז בעצם על רעש. אם אצליח להבין יותר טוב את המהלך הזה, אז אולי במקום לתת לשיכור ללכת סתם, אוכל להקפיץ אותו ישר הביתה".
בהכירך את היכולות השונות שהמדע מציע אבל גם את המגבלות, מה לדעתך יהיה התחום הבא בבינה מלאכותית שיתפתח?
"כל התחום של יצירתיות על ידי בינה מלאכותית עומד להתפתח בקצב מעניין - בקולנוע, אמנות פלסטית ומוזיקה. הבינה המלאכותית לא רק תבחר שירים ותמליץ לי עליהם, אלא תסנתז לי שירים שלא נשמעו אף פעם כי היא תבין את מצב הרוח שלי ותדע איזה סוג של מוזיקה אני רוצה לשמוע ואז תכתוב ותלחין אותם. ולא רק מוזיקה, אלא גם קולנוע ואמנות פלסטית - כל דבר שיש בו אלמנט של יצירתיות. זה עניין של חודשים או שנים עד שאפשר יהיה ליצור דמויות חדשות שישחקו בסרט או בסדרה שכולה ממוחשבת. בתחום הזה של המדיה יש הרבה מאוד כסף. זה יקרה בעתיד הלא רחוק.
"תחום נוסף שיתפתח הוא התחום הביו-רפואי, שהוא אחד האתגרים הכי גדולים - כל הנושא של הנדסת תרופות ושל מאגרי מידע רפואיים שיכולים לסייע לחיזוי מחלות. תהיה שם הרבה עבודה: ברגע שמאגרי המידע הרפואיים יהיו נגישים ובטוחים נהיה בעולם אחר לגמרי מבחינה רפואית".
אבל עדיין יישאר האתגר של מידול התנהגות מורכבת של בני אדם?
"יש שתי רמות של הבנה - הראשונה שבהן היא איך אני או אתה חושבים. כאן אנחנו רחוקים מאד מפתרון, זה אולי יקרה, אבל לאט. אבל אנחנו קרובים למדל התנהגות סטטיסטית של הרבה אנשים ביחד, של עיר שלמה. זה בדיוק מה שווייז עושים כשהם מכוונים נהגים לדרכים חדשות כדי שלא כולם יתקעו בפקק שהם עצמם יצרו. קל יותר לפענח התנהגות של עדר מאשר של פרט אחד, אבל האם הטכנולוגיה תצליח לחזות את האביב הערבי הבא? אני לא יודע, ככל הנראה יהיה לה יותר קל לעשות את זה על סמך פייסבוק או וואטסאפ מאשר לחזות את ההתנהגות של מנהיג אחד כמו אסד".
למה זה קשה יותר?
"זה כמו שיותר קל לזהות אדם מסוים מאשר לזהות גידול בצילום רנטגן. בגידול, יש כמה פיקסלים שמישהו צריך לשים לב שהם חריגים. הבעיה היא שהמידע החריג הזה נמרח והולך לאיבוד ברגע שהוא עובר משכבה לשכבה. אלו בדיוק סוג התובנות של מה עובד ומה לא עובד, שמאפשר יכולת סיווג של בעיות קשות לעומת קלות באופן שיוכל לכוון למקום טוב יותר את כל התעשייה. זה מסדר את השאלות הפרקטיות לפי רמת ההתכנות של הפתרון. או כמו שמישהו אמר - אין דבר יותר טוב מתיאוריה טובה".