באחד מפרקי העונה הנוכחית של "סיליקון ואלי", הסדרה הקומית המעולה של HBO, נפגשים שני נציגי סטארט-אפ עם מנהלים בקרן הון סיכון ומציגים בפניהם את הרעיון: "שאזאם של אוכל!" - המשתמשים יצלמו מנות והמערכת תזהה באיזה מאכל מדובר, מה הערך הקלורי שלו ואיפה אפשר למצוא אותו. המשקיעים מתלהבים והשניים יוצאים לדרך. בהמשך הפרק מציג המתכנת שבהם את האפליקציה בפני הקולגות. הוא מצלם נקניקייה בלחמנייה ועוברות כמה שניות מתוחות עד שמופיעה תשובה על המסך: "נקניקייה". העובדים צוהלים והוא עובר למאכל הבא: פרוסת פיצה. התוכנה מעבדת, עוברות כמה שניות, ועל המסך מופיעה התשובה החד משמעית: "לא נקניקייה". "רגע", שואלת בהלם אחת מאנשי הצוות, "התוכנה הזאת רק יודעת לזהות נקניקיות?". "לא", מרגיע אותה המתכנת כשהבעת ניצחון עדיין מרוחה על פניו, "היא יודעת לזהות גם מה לא נקניקייה".
מייק ג'אדג', יוצר הסדרה שמחזיק אצבע הדוקה על הדופק של עמק הסיליקון, לא כתב את הסצנה במקרה. הוא מודע היטב לאפשרות שבקרוב תופיע בשוק אפליקציה שתהיה השאזאם של אוכל, או של בגדים, ספרים, בני אדם. למעשה, בכנס I/O של גוגל שהתקיים בחודש שעבר בקליפורניה, הודיעה חברת הענק על כוונתה ליצור כלי כזה בדיוק: Google Lens.
הרעיון שבבסיס הטכנולוגיה שגוגל דוחפת לא לגמרי מקורי: ה-Fire Phone של אמזון מ-2014 איפשר לאתר מוצרים לרכישה באמצעות המצלמה שבו, וגם כלי של פינטרסט, שהושק השנה, משתמש במצלמת הסמארטפון כדי לצלם חפצים בעולם האמיתי ואז לאתר אובייקטים דומים באתר. אבל לכלי החדש של גוגל, שלצד טכנולוגיות ומוצרים חדשים של החברה פורש חזון גדול יותר שיקרום עור וגידים בשנים הקרובות, יש פוטנציאל לשנות סדרי עולם. לא רק משום שהוא יהפוך את המצלמה לאמצעי קלט משוכלל משהיה אי פעם, ובמקרים רבים ייתר את השימוש במקלדת, אלא גם מפני שהוא צפוי להתממשק עם פרויקטים גדולים אחרים של גוגל ועם בסיסי הנתונים האדירים שגם כך עומדים לרשות מהנדסי החברה.
עיבוד הררי המידע הללו באמצעות מה שמכונה מכונות לומדות או אינטליגנציה מלאכותית, צפוי לאפשר לגוגל ליצור מוצרים חדשים שישנו את הדרך שבה אנו משתמשים בטכנולוגיה. והמוצרים הללו, מן הסתם, יכניסו לקופתה המתפקעת ממילא של החברה עוד הררי מזומנים.
החיים מבעד לעדשה
אחד היישומים שהודגמו בכנס היה אמנם בנאלי להפליא, אבל הוא אפשר לצופים לקבל הצצה ראשונית לעתיד על-פי גוגל, ולמגוון האפשרויות שיצוצו בו. עדשת המצלמה כוונה לברקוד ולסיסמה שהודבקו לראוטר אלחוטי. לאחר שהמידע נקלט תוך שבריר שנייה בטלפון החכם, הוא התחבר בצורה אוטומטית לאותה רשת בלי שבעליו היה צריך לפתוח תפריטים, להטריח את עצמו בהקלדת אותיות גדולות ואותיות קטנות ומספרים וסימנים, ואז לקנח ב-Join הססני. כל מי שצפה בהדגמה יכול היה בקלות לדמיין כיצד בעוד לא הרבה שנים, יוכל כל אחד להפנות את עדשת הטלפון שלו אל פוסטר או אל שלט, שעליו משורבטות בכתב יד שמה של רשת אלחוטית וסיסמתה, והטלפון יבצע את ההתחברות בעצמו.
עוד יכולות של Lens, שהדגים מנכ"ל גוגל, סונדאר פיצ'אי (ללמדכם עד כמה מרכזי הפרויקט לכיוון שגוגל צועדת אליו), היו זיהוי של פרחים ("זה טוב לאנשים עם אלרגיות, כמוני", הסביר פיצ'אי), וכן זיהוי של מסעדות והעלאת כל המידע על אודותיהן - תפריטים, ביקורות ואפשרות להזמין בהן מקום - פשוט באמצעות הפניית המצלמה אל המקום שבו הן נמצאות.
כדי להבין את המשמעות המלאה של הפיתוחים הללו, מספיק להיזכר בכך שגוגל היא אחת החברות המובילות במירוץ אל ייצור המכונית האוטונומית. כל מכונית כזאת תהיה מצוידת בכמה וכמה מצלמות שסורקות את הסביבה כדי לנווט אותה בבטחה ליעדה, אבל המצלמות הללו גם יצלמו שלטים שמכריזים על מבצעים בחנויות או על כך שדירה או בית עסק מוצעים למכירה או להשכרה; הן יאספו מידע ויזואלי על סרטים והופעות והצגות, והן גם יוכלו לזהות בני אדם על-פי תווי פניהם ששמורים במאגרי מידע אחרים. אפשרויות השימוש במידע שכזה, לטוב ולרע, הן אינסופיות.
במילותיו של פיצ'אי עצמו, בכנס של גוגל לפני כשנה, "גוגל כולה נבנתה משום שהתחלנו להבין טקסט ועמודי רשת, כך שלעובדה שמחשבים יכולים להבין תמונות וסרטוני וידיאו יש השלכות מרחיקות לכת על ליבת המשימה שלנו".
כך, אם למשל מישהו מעוניין לדעת איזו חולצה לובש האדם שהולך מולו ברחוב, היכן אפשר לרכוש אותה והאם היא מהסוג שיכריח אותו להתאמץ בשבילה ולכבס אותה ביד, הוא יצטרך רק להפנות את המצלמה לכיוונו של אותו אדם. "בעזרת מצלמה, אתה יכול להשלים משימה באמצעות צילום של אובייקט בתמונה בודדה או בווידיאו", הסביר למגזין WIRED ג'יארד לאפוט, מהתוכנית לאינטראקציה בין בני אדם לרובוטים באוניברסיטת קרנגי מלון. "עם מקלדת, לעומת זאת, היית משלים את המשימה הזאת באמצעות הקלדה של מלים שמתארות את אותו הדבר. אתה צריך למצוא את התיאור הנכון ואז להזין אותו בצורה מדויקת לתוך המחשב".
חוויה מותאמת אישית
לאקוסיסטמה החדשה של גוגל יתווסף גם פיצ'ר בסיסי למדי, Smart Reply, שיודע לקרוא הודעות דואר אלקטרוני שנשלחות בג'ימייל ואז מציע למשתמשים כמה אפשרויות לתשובות אוטומטיות. הגישה היא שבמקום לבזבז זמן על ניסוח והקלדה, המשתמש מקיש על האפשרות שמעבירה בצורה הטובה ביותר את המסר שבו הוא חפץ, ואז משגר אותה לנמען תוך שנייה.
אבל זה רק מתחיל שם. בנאום שלו בכנס האחרון סיפק פיצ'אי נתונים על נפח השינוי שעוברת גוגל ועל הקצב שבו הוא מתרחש: מספר הטעויות בזיהוי הוראות קוליות ירד כמעט בחצי בין 2016 ל-2017, הוא הסביר, והוסיף כי העכבר, המקלדת, ואפילו טכנולוגיית המולטי-טאץ', מפנים את מקומם לטובת זיהוי קול ותמונה.
פיצ'אי אמר שכשהחברה פיתחה את Google Home - הרמקול והעוזר האישי של החברה שמופעל באמצעות פקודות קוליות - חשבו המהנדסים לשלב בו שמונה מיקרופונים שיסייעו להם לשמוע קולות מכל כיוון ולהתגבר על רעשי רקע. באמצעות שימוש במערכות למידת מכונה, הם הצליחו לצמצם את מספר המיקרופונים המוטמעים במכשיר לשניים בלבד, וכך לשמור על אותה איכות קלט. "למידת מכונה", הוסיף פיצ'אי, "היא מה שאפשר לנו לפני שבועיים להכריז על תמיכה רבת משתמשים ל-Google Home, כך שהמערכת כרגע יכולה לספק חוויה מותאמת אישית לשישה בני אדם בבית שלכם".
1.2 מיליארד תמונות ביום
כשמדובר בטכנולוגיה לזיהוי תמונות, הנתונים מרשימים אפילו יותר. כדי להדגים את ההתקדמות בתחום הראה פיצ'אי תמונה של ילד נרגש נושף לעבר ארבעה נרות דולקים על עוגה, והסביר שמשילוב של הרבה אלמנטים בתמונה - זוג ידיים גדולות שמחזיקות ילד קטן, מספר הנרות, העוגה, הלהבות, ההבעה הנרגשת על פניו של הילד ואחרים - יכולים האלגוריתמים להסיק שמדובר באירוע משפחתי משמח שבני אנוש מכנים חגיגת יום הולדת. בשנת 2010, שיעור הטעויות של מחשבי גוגל בניסיון להבין תמונה שכזו עמד על 30%. במשך השנים, הראה המנכ"ל, הלך וירד הגרף, וכיום הוא מסתכל מלמטה על הגרף שמייצג את שיעור הטעויות שעושים בני אדם כשהם נדרשים לנתח את משמעותה של תמונה.
ליכולות הללו יש לא מעט אפליקציות נוספות. למשל, היכולת של פיקסל - הטלפון החכם של גוגל - לנקות רעשים דיגיטליים מתמונות שצולמו בתנאים של תאורה ירודה. בקרוב, מבטיח פיצ'אי, תהיה לפיקסל יכולת להסיר מפריים שצולם במצלמה שלו גם אלמנטים שמפריעים לכם. אם למשל תצלמו את ילדכם מבעד לעצם שחוסם את שדה הראייה שלכם (גדר מחוררת, נניח), האלגוריתם יידע להעלים בשבריר שנייה את המתכת הלא פוטוגנית ולהציג לעולם את הצאצא שלכם במלוא תפארתו. ההדגמה של היכולת הזאת, אגב, סחטה קריאות השתאות ומחיאות כפיים סוערות מאלפי הצופים בנאום של המנכ"ל.
כדי לטפל בחישובים המורכבים שדורשת כל אחת מהמשימות הללו, פיתחה גוגל שבב מיוחד, מעבד בשם TPU (Tensor Processing Unit) שיטפל בלימוד מכונה. החברה מחברת את המעבדים לזה ומוסיפה אותה למרכזי המידע הקיימים שלה. כל לוח אם שבו ארבעה מעבדים מסוגל לטפל ב-180 טריליון חישובים בשנייה; העיבוד הזה נעשה כמובן בענן ומשוגר חזרה למשתמש הקצה תוך שברירי שנייה, ובלי להאט את פעולת המכשיר שהוא משתמש בו.
עוד פיצ'ר שמשתלב בחזון הוא שירות Google Photos, שהושק לפני שנתיים, ושבו טכנולוגיית למידת מכונה מארגנת את התמונות שמעלים אליו הגולשים. כיום יש לשירות יותר מ-500 מיליון משתמשים פעילים, ובכל יום מעלים אליו 1.2 מיליארד תמונות. נפח המידע העצום הזה מרשים מאוד כשחושבים כמה נחמד מצדה של גוגל להקצות כל-כך הרבה מקום, כדי שאנשים יוכלו להעלות לרשת את הזיכרונות הוויזואליים שלהם. אבל צריך לזכור שגוגל אינה מלכ"ר: במידע האינסופי הזה ייעשה שימוש שיועיל מאוד לחברה.
אחת הסיבות לכך שגוגל מציעה למשתמשים את השירות היא היכולת לשמור אותם בתוך האקוסיסטמה העצומה שלה, שכוללת מפות ותרגום וחיפוש ודואר ומה לא. גם כאן אין מדובר באלטרואיזם: חברות ענק מסוגה של גוגל שמחות לספק בחינם כמעט את כל צרכינו הדיגיטליים בתמורה למידע שאנחנו נותנים להן בשפע. או כפי שהסביר פרופ' פדרו דומינגוז, מחבר הספר The Master Algorithm, בראיון לאתר The Ringer: "גם אם גוגל לא מרוויחה באופן ישיר מהשירות שהיא מספקת, היא עדיין אוספת באמצעותו מידע".
אולם הסיבה העיקרית לכך שגוגל שמחה כל-כך לאפשר לחצי מיליארד בני אדם לדחוס לשרתיה כמויות בלתי נתפסות של תמונות, היא שמתישהו בעתיד יש סיכוי טוב שהיא תשתמש בהן כדי לאמן את האלגוריתמים שלה. בשנים האחרונות הפך האינטרנט לזירה ויזואלית יותר מאי פעם, וגוגל כנראה סבורה שיכולות שיתוף התמונות ישמשו אותה כמעין דלת אחורית לעולם הרשתות החברתיות והצ'טים, שאליו היא מנסה לחדור ללא הצלחה זה עשור. בעוד אנו מאפשרים לגוגל לעקוב אחרינו באמצעות הדפדפן שלה ואפליקציות כמו Maps, Google Photos הוא ככל הנראה המוצר הראשון של החברה מאז ג'ימייל שמצליח לשכנע כמויות עצומות של בני אדם לחלוק עם החברה מידע אישי בקנה מידה עצום.
היכונו לשלטון המכונה
אף שגוגל זהירה יותר מפייסבוק בגישה שלה כלפי פרטיותם של הגולשים, קשה להאמין שהנורמות של היום יהיו גם הנורמות בעוד שנה או שנתיים, וכי תנאי השימוש הנוכחיים של Google Photos לא ישתנו בעתיד. על פי מגזין The Ringer, למשל, כשגוגל החלה להשתמש בטכנולוגיה לזיהוי קולי, היא הרגישה שהיא צריכה לקבל את רשותם של המשתמשים כדי לאמן את האלגוריתמים שלה באמצעות השאילתות הקוליות שלהם. כיום, כל קובצי הקול נשמרים אצלה כברירת מחדל.
למידע שיופק מכמויות התמונות האדירות שגוגל מקבלת בששון מהמשתמשים שלה יש כמובן ערך כלכלי אדיר. עם הזמן, האלגוריתמים יוכלו ללמוד על מקומות ומוצרים ובני אדם שאותם הם יזהו באמצעות טכנולוגיית זיהוי פנים, ולהציע להם ולחברים שלהם פרסומות מותאמות אישית - למיקום, למצב הרוח, לתאריך ולמעשה לכל דבר.
כפי שהשתקף בסצנה מהסדרה "סיליקון ואלי" שתוארה בתחילת הכתבה, הבסיס ליכולת הלימוד של האלגוריתמים, ולאחר מכן ליכולתם להפיק מהלימוד תובנות, הוא עבודה אנושית מאומצת, מפני שלאחר שהאפליקציה המדומיינת מכריזה על כל מזון שאינו נקניקייה כ"לא נקניקייה", המתכנת נשלח לקטלג "אלפי תמונות מהאינטרנט", כדי לאמן את האלגוריתם.
גם גוגל מאמנת היטב את האלגוריתמים שלה באמצעות בני אדם, כדי שבבוא היום הם לא יאכזבו - וזה מה שעושה פרויקט Google Quick Draw, שמאמן אלגוריתמים לזהות איורים. במסגרת הפרויקט, גולשים נדרשים למשחק אתגרי: לאייר עיגול, כנסייה, חוף ים ודברים אחרים בתוך פחות מ-20 שניות. בזמן הזה, האלגוריתם לומד אט-אט את הצורות. מה שנחמד, וגם קצת שטני, בכל זה, הוא שהמערכת בנויה כך שלגולש, שמסייע בחינם לחברת הענק ליצור טכנולוגיה שמתישהו תנסה למכור לו דברים, יהיה די כיף לעשות את מה שהוא עושה.
פרופ' אמיר גלוברזון מהחוג למדעי המחשב באוניברסיטת תל-אביב אמר לי לא מזמן שכדי ללמד תוכנות לזהות בתמונות רעיון מורכב כמו "ילד בתחפושת", מאמנים אותן על בסיסי נתונים עצומים שתויגו על-ידי בני אנוש. "אחרי שנראה שהתוכנה למדה את מה שהיא הייתה אמורה ללמוד, משחררים אותה לפעולה", הסביר, "אבל אז, כדי שהיא תעבור על תמונות שהיא רואה בפעם הראשונה ותזהה בהן דברים, היא עושה תהליך שקצת קשה להסביר אותו. המודלים האלו מאוד מורכבים והם כוללים מיליונים של פרמטרים, כמו למשל מה שנדרש מהתוכנה לעשות כדי לזהות מה היא רואה בתמונות".
במילים אחרות, בזמן שמאות מיליוני המשתמשים של גוגל העלו לענן בשנים האחרונות אינספור תמונות, איורים ושאלות קוליות על ילדים, מקומות, שינויי מזג אוויר, חיות, מחשבים, עצים, שלטים ופיג'מות, הם לא רק יצרו את בסיס המשתמשים האדיר של גוגל ואת היכולת של החברה למכור להם מוצרים נחמדים, אלא גם, במידה רבה, סללו את הדרך אל עולם שיישלט יותר ויותר על-ידי מכונות. האם זה טוב או לא? בשלב הזה, אף אחד עדיין לא יודע.