איך מחשבים עם חושים כמעט אנושיים יכולים לשנות את חיינו


עם קצת עזרה מאינטליגנציה מלאכותית וחיישנים מיוחדים, הרובוטים של הדור הבא יהיו מסוגלים לעשות אינספור פעולות חדשות - החל מלהבין דיבור בסביבה ורועשת ועד לזהות יין מזויף בכוס • כך זה עובד

מחשבים שיכולים לגעת, לשמוע ולהריח / צילום: Shutterstock
מחשבים שיכולים לגעת, לשמוע ולהריח / צילום: Shutterstock

גם המחשבים החכמים ביותר לא יכולים להבין לגמרי את העולם בלי יכולת לראות, לשמוע, להריח, לטעום או לגעת. אבל עד כה, במרוץ הארוך לבניית תוכנה שתחשוב כמו בני אדם, ואולי אפילו תנצח אותם בשעשועוני טריוויה, הרעיון של רובוט עם חושים כמו־אנושיים נשמע מופרך. אלא שכעת, אומרים מהנדסים וחוקרים בתעשייה - המציאות הכמעט מדומיינת הזו קורמת עור וגידים.

אלמנטים כמו זיהוי קולי או זיהוי פרצופים, שמופעלים על ידי בינה מלאכותית, כבר מזמן הפכו למאפיינים מוכרים בסמארטפונים ובגאדג'טים. כיום, חיישנים מיוחדים, machine learning ורשתות נוירונים (קטגוריית משנה של בינה מלאכותית שמחקה את האופן שבו המוח האנושי פועל), דוחפים את החושים הדיגיטליים לשלב הבא. כך למשל הם יוצרים רובוטים שיכולים לנחש אם החבילה שבירה, להריח האם הרדיאטור עומד להישרף או לזהות יין שרדונה מזויף.

המחקר עוד נמצא בשלביו הראשוניים, אך ההייפ סביב הדור הבא של בינה מלאכותית רק הולך וגובר. פרוייקט מיוחד מאפשר הצצה נדירה ל־10 מודלים של בינה מלאכותית בעלת יכולות חושיות.

רואים שקוף

זה נשמע כמו יכולת בסיסית, אך רובוטים אינם יודעים להחזיק בקבוקי זכוכית או כוסות פלסטיק שקופות. הסיבה היא שרוב הרובוטים רואים את העולם על ידי קרני אור אינפרא אדום, הידועות בשם חיישני עומק, וכך הם קובעים מהי הצורה של האובייקט שמולם.

מכיוון שהקרניים עוברות דרך חומרים שקופים, הן לוכדות רק צללים עמומים. כדי לפתור את הפער, מהנדסים מאוניברסיטת קרנגי מלון ציוותו חיישן עומק למצלמת צבע רגילה, שלוכדת גוונים של אדום, ירוק וכחול שנמצאים בשוליים של חפצים שקופים. אחר כך הם מלמדים את המערכת להכיר בהבדלים החזותיים הקלים האלה ומאפשרים לזרוע רובוטית לכוונן את אחיזתה. "במקום לשלוח לייזרים ולמדוד כמה זמן לוקח להם לחזור אלינו בחזרה", אומר דיווד הלד, עוזר לפרופסור במכון הרובוטיקה של אוניברסיטת קרנגי מלון, "הראייה שלנו יותר דומה לדרך בה עובדת מצלמה צבעונית".

 
  

דמיון מפותח

תארו לעצמכם אפליקציה שמייצרת סצנה קולנועית מרהיבה לפי טקסט שאתם כותבים. ובכן, זה בדיוק מה שיצרנית התוכנה OpenAI מפתחת. באמצעות בינה מלאכותית בשם DALL-E האפליקציה משרטטת תמונות דמיוניות מהמילים שהמשתמשים מקלידים ממוחם הקודח.

יש גם מי שמשתמשת באותם כלים על מנת לעשות בדיוק ההפך: אפליקציה נוספת בשם CLIP מנסחת טקסט מנומק וגדוש תארים מתמונות המוזנות אליה. איליה סוצקבר, מייסד ומדען ראשי של OpenAI מסביר שהאפליקציות למעשה משתמשות ברשתות עצביות ש"לועסות ומעכלות" נתונים מספריה נרחבת של תמונות וטקסט. תהליך העיכול נמשך עד שהן מייצרות תמונה או טקסט חדשים לחלוטין בהתאם למה שהוזן. מי יודע, אולי בקרוב הן גם עומדות לייתר לבמאים של הוליווד את העובדה: בין היתר, המערכות יכולות ליצור גרסאות ויזואליות של ספרים או תסריטים. לפי סוצקבר, מלבד הצצה לאופן שבו מערכות המחשב "רואות" את העולם, רשתות עצביות יכולות לספק לנו תובנות מעניינות על המוח האנושי עצמו.

איך צליל נולד

הצלילים ממלאים תפקיד חשוב בסיוע לרובוטים המפרידים בין חפצים. בעזרתם הם יכולים לזהות פגמים סמויים במוצרים על פס ייצור או לקבוע מה נמצא בתוך חבילות סגורות.

חוקרים ב"קרנגי מלון" יצרו מאגר נתונים של צלילים דיגיטליים ודימויים בדרך מקורית: הם זרקו באוויר קוביות צעצוע, כלי עבודה, תפוחים, נעליים וכדורי טניס בעזרת רובוט שבנו בחברה, כשלזרועו מחובר מגש. בסופו של דבר, הם הקליטו יותר מ־15 אלף צלילים שונים של 60 מוצרים ביתיים. הנתונים שעברו דיגיטציה הוזנו למודל למידת מכונה, ולפי החוקרים הגאים, המערכת פיתחה יכולות שמיעה כל כך טובות, שהיא הצליחה לזהות בהצלחה את מרבית הפריטים, ב-75% מהמקרים, מבלי אפילו לראותם. הפתעה גדולה יותר נרשמה בהמשך: לפי אחד החוקרים, אבהינב גופטה, אחרי שהמערכת האזינה לקבוצה מסוימת של חפצים, היא כבר הצליחה לנחש מאפיינים זהים בחפצים דומים, כאלה שלא הכירה. כך למשל, היא ידעה לזהות כדור גומי קופץ, רק כי הוא נשמע כמו כדור טניס.

לשמוע קול בקהל

מערכת העצבים של הרובוטים יכולה להבחין בין קולות רקע לרעש של ממש, או אפילו לדעת להפריד בין כמה צלילים ולהתמקד בדובר מרכזי בלבד. יכולות שיכולות להיות סופר שימושיות בחדרים הומי אדם או ברחובות סואנים.

דאגלס בק, סגן נשיא למחקר אקדמי בחברת Oticon המייצרת מכשירי שמיעה, מסביר שהמערכת הזו משתמשת בסוג של פילטר דיגיטלי. לא פחות ממיליוני דגימות דיבור מוזנים לאלגוריתימים - עם ובלי רעשי רקע - על מנת לבודד את המאפיינים הייחודיים של הדיבור האנושי על פני כל צליל אחר. אחרי שעברו את האימון, בכל פעם שהמכשיר קולט ועושה דיגיטציה של צליל, המערכות העצביות עוברות דרך דפוסי הנתונים על מנת להפריד קולות. זה יכול להיות הבחנה בין הפועל שמדבר לפטיש הקונגו שהוא עובד איתו ברחוב, או התמקדות בדפוס הייחודי של קול בודד. ויש גם בשורה של ממש עבור ליקויי שמיעה: לפי בק, שתלים לאוזן המופעלים בעזרת רשתות עצביות, ומונחים על ידי אותות חשמליים מהמוח - יוכלו בקרוב לאפשר לסובלים מאובדן שמיעה לשלוט על מה שהם שומעים, או מה שהם לא ממש רוצים לשמוע.

 
  

חוש טעם רובוטי

מדי פעם יצרניות המזון משיקות טעמים משונים כמו בירה בטעם ליצ'י או פופקורן בטעם אבטיח, ומקוות שהלקוחות יגיבו בחיוב. מעתה, הן יכולות לחזות זאת במדויק. פלטפורמה בשם Gastrograph AI חוזה באמצעות למידה עצמית כיצד אנשים יגיבו למוצרי מזון חדשים. אז איך זה עובד? המערכת, שנוצרה על ידי החברה הניו-יורקית Analytical Flavor Systems מצליבה נתונים שנאספו מאלפי צרכנים שמדרגים מנות באפליקציה.

הקטגוריות מחולקות לטעמים לפי סוגי מזון כמו דגים, בשר, צמחים, פירות. ויש גם תת קטגוריות מתוחכמות יותר כמו נגיעה של תפוח ירוק או טעם תפוז מעודן, אומר ג'ייסון כהן, מנכ"ל ומייסד הסטארטאפ. המערכת מפרקת את הנתונים לגרף מרובה־זרועות לפי טעמים והעדפות, ואלו נשמרים במאגר מידע הולך ומתרחב שיכול לשמש לסימולציה של האופן בו לקוחות בשוק מסוים יגיבו למוצרים חדשים.

לשון חשמלית

המכשיר המשוכלל הבא הוא בקושי בגודל של כיס במכנס הג'ינס. המכשיר, שפותח על ידי מדענים במחלקת המחקר של IBM בציריך, נקרא Hypertaste - ומכונה גם לשון חשמלית. הוא מורכב מחיישנים אלקטרו־כימיים המורכבים ממערך אלקטרודות. כאשר המכשיר מוצב על שפה של כוס, האלקטרודות במכשיר מגיבות למולקולות שונות בנוזלים הנותנות ליין או סודה את טעמן הייחודי, ויוצר קוד של אותות חשמליים שהופכים ל"טביעת האצבע הדיגיטלית" של המכשיר, כך אמר פטריק רוך, החוקר המוביל בפרויקט.

אלגוריתמים של למידת מכונה משווים בין טביעות האצבע האלה במאגר הולך וגדל. מרגע שנוצרה התאמה, התוצאות יכולות להישלח לאפליקציית טלפון חכם המאפשרת למשתמשים לזהות משקה כמו פינו נואר או פפסי. על ידי כוונון מדויק של המידע, התהליך יכול לחזות עד כמה חזקים יהיו המשקאות, כמו קפה מריר ביותר או קוקטיילים מדוללים.

 
  

לעבור את מבחן הריח

דרך מקורית נוספת לשימוש בבינה מלאכותית מפותחת בצרפת. שם סטראטפ מקומי בשם Aryballe, פיתח חיישנים ביולוגיים ולמידת מכונה כדי לחקות את התהליך שהמוחות שלנו משתמשים בו לזיהוי והבחנה בין ריחות. תחום המוכר גם כחוש ריח דיגיטלי. זה הולך ככה: החיישן קולט מולקולות ריח באוויר ומקודד אותן למידע הכולל חתימה דיגיטלית ייחודית. במקביל, מערכות עצביות מתאימות את המידע למאגר נתונים עצום של תכונות שנותחו בעבר כמו ריחות חמוצים, מתוקים, פירותיים או חריפים, או שילובים מיוחדים ביניהם.

וזה לא הכול: אפשר גם ללמד את המערכת לקלוט ריחות ספציפיים, כמו סוג מסוים של פולי קקאו או בושם ממותג. "שאנל מס' 5 אמור להיות בעל ניחוח מסוים. ואם תנסה לזייף אותו הוא יהיה בעל ניחוח מאוד דומה. אלא שאנחנו יכולים לזהות בביטחון כאשר לא מדובר בשאנל ,אלא בזיוף", אומר מנכ"ל Aryballe סם גיומה. הטכנולוגיה יכולה לשמש גם לזיהוי סחורה מקולקלת או לכיבוי תנור לפני שהמזון בו נשרף.

מאגר מידע עצום לריחות

צמד חוקרים באוניברסיטת קליפורניה שבריברסייד הלך צעד אחד קדימה: הם השתמשו במערכת למידת מכונה שיכולה לנחש איך אנשים יגיבו לריח מסוים עוד לפני שבכלל נתקלו בו. כדי לעשות זאת, הם בוחנים דפוסי פעילות של קולטן ריח במחילות האף כאשר הוא נחשף לתרכובות שונות, בקטגוריות כמו "לימוני" או "כלב רטוב". אחר כך הם יצרו מאגר מידע עצום של הדפוסים האלה כפי שנצפו בכ־40 חיישנים - לבני אדם יש בערך 400 - והכשירו מודל תוכנה לפרק את הנתונים ולהעריך איך החיישנים יגיבו לריחות השונים.

"המידול שלנו הוביל אותנו להסבר ביולוגי אפשרי לסיבה שבני אדם יכולים להבחין בריחו של הוורד מתוך זר פרחים שלם", הסביר מי שהוביל את המחקר, אננדסנקר ריי, פרופסור לביולוגיה מולקולרית, תאית ומערכתית. לדבריו, אפשר להשתמש במערכת כדי למצוא תחליפים טבעיים לכימיקלים רעילים במוצרי קוסמטיקה ומזון, מבלי שהצרכנים יחושו בהבדל.

 
  

המגע האנושי

בני אדם תופסים כמובן מאליו את מרבית יכולות המישוש שלנו, על אף שחלקן דיי מורכבות. קחו לדוגמא את חיפוש המפתחות החפוז בכיס או את היכולת לכפר את החולצה מבלי להסתכל. בניגוד למין האנושי, הרובוטים עדיין לא השכילו ללמוד את המלאכות הללו, אומר לנו יונז'ו לי, חוקר מ־MIT.

הצוות של לי מנסה לגשר על הפער שבין מגע לראייה על ידי מערכת בינה מלאכותית שיכולה לזהות מה התחושה של חפץ לפי איך שהוא נראה, ולהיפך: לתאר איך נראה חפץ לפי המגע בו. כדי לעשות זאת, הם בנו מאגר מידע של מיליוני זיווגים מוחשיים-ויזואליים, שנאספו מסרטוני מצלמת רשת שצילמה 200 פריטים יומיומיים שחיישן של GelSight נגע בהם אלפי פעמים.

מאגר המידע שנולד מכך, VisGel, משמש לבניית מודלים של בינה מלאכותית שמטרתה למצוא את ההתאמות הסבירות ביותר שניתן להפיק ממידע חזותי או מתמונות המופקות ממידע טקטי. "בני אדם פיתחו את היכולות האלה מתוך ניסיון החיים שלנו", אומר לי. "לעומת זאת, רשתות עצביות יכולות ללמוד הרבה יותר מהר".