אקו של אמזון הוא ההגשמה המוחשית של ההבטחה להביא לכל בית עוזר אישי שמופעל באמצעות בינה מלאכותית. מי שמחזיק בגאדג'ט מופעל הקול (הידוע כ"אלכסה" מכיוון שהקול הוא נשי) נוטים להטיף לכל העולם על קסמיה, ולשבח את יכולתה להזמין מונית אובר או פיצה, או לבדוק את שיעורי-הבית במתמטיקה של הילד. החברה אומרת כי מדי יום מצהירים יותר מ-5,000 בני אדם על אהבתם לאלכסה.
מצד שני, חובבי אלכסה יודעים שאם לא מדברים אליה באופן מאוד ברור.... וגם.... איטי, היא תגיד: מצטערת, אין לי תשובה לשאלה הזו. "אני אוהב אותה. אני שונא אותה. אני אוהב אותה", כתב אחד הלקוחות באתר האינטרנט של אמזון - אך למרות זאת העניק לאלכסה חמישה כוכבים. "אתם תלמדו מהר מאוד איך לדבר אתה באופן שהיא תבין, וזה די כמו לדבר עם פעוט קטן ומתסכל".
בשנים האחרונות נרשמה התקדמות רבה בתחום זיהוי הקול, אך הטכנולוגיה עדיין אינה מספיק טובה כדי להבטיח שימוש עממי ויומיומי וליצור עידן חדש של אינטראקציית אדם-מכונה, שיאפשר לנו לדבר עם כל הגאדג'טים שלנו: כלי רכב, מכונות כביסה ומכשירי טלוויזיה. למרות ההתקדמות בזיהוי דיבור, ממשיכים מרבית האנשים להחליק, להקיש ולהקליק, וקרוב לוודאי שהם ימשיכו לעשות זאת בעתיד הנראה לעין.
מה מעכב את ההתקדמות? אחת הסיבות היא שהבינה המלאכותית שמניעה את הטכנולוגיה טעונה שיפור. יש גם מחסור חמור בנתונים - בייחוד באודיו של קולות אנושיים שמדברים בשפות שונות, מבטאים ודיאלקטים שונים בסביבה רועשת שעלולות למנוע את תפקוד הקוד.
לפיכך פתחו אמזון, אפל, מיקרוסופט ובאידו הסינית במסע ציד בקנה מידה עולמי אחר טרה בייטים של דיבור אנושי. מיקרוסופט הקימה דירות דמה בערים ברחבי העולם כדי להקליט מתנדבים בסביבה ביתית. מדי שעה מעלה אמזון שאלות לאלכסה למאגר דיגיטלי אדיר. באידו שוקדת על איסוף כל דיאלקט שקיים בסין. כשהחברות האלה ייקחו את כל הנתונים האלה וישתמשו בהן ללמד את המחשבים שלהן כיצד לנתח, להבין ולהגיב להוראות ולשאלות.
האתגר הוא למצוא דרך ללכוד שיחות טבעיות בעולם האמיתי. אפילו רמת דיוק של 95% אינה מספקת, לדברי אדם קואוטס, המנהל את מעבדת הבינה המלאכותית של באידו בסאניוייל, קליפורניה. "המטרה שלנו היא לדחוף את שיעור הטעויות כלפי מטה לרמה של 1%", אומר קואוטס. "זוהי הנקודה שבה ניתן באמת לבטוח במכשיר שיבין מה אומרים לו, וזה יחולל שינוי ללא הכר".
ללכוד כמה שיותר קולות
לפני זמן לא רב היה תחום זיהוי הקול לא מפותח באופן מצחיק. אחת הגרסאות המוקדמות של הטכנולוגיה של מיקרוסופט שפעלה בחלונות תעתקה "אימא" כ"דודה" במצגת שנערכה ב-2006 בפני אולם שלם של אנליסטים ומשקיעים. כשאפל השיקה את סירי לפני חמש שנים, עוררו טעויותיה של העוזרת האישית לגלוג נרחב מכיוון שגם היא הפיקה דרך קבע תוצאות שגויות או לא הבינה את השאלות. בתשובה לשאלה האם ג'יליאן אנדרסון היא בריטית, סיפקה סירי רשימה של מסעדות אנגליות. כעת טוענת מיקרוסופט שמנוע הדיבור שלה מבצע את אותו מספר טעויות - ואף פחות - מאשר מתעתקים מקצועיים. סירי זוכה לכבוד גם מצד המסתייגים, ואלכסה מעניקה לנו הצצה מגרה אל העתיד.
מרבית ההתקדמות הזו נובעת מההוקוס פוקוס של הרשתות העצביות - סוג של בינה מלאכותית שמבוסס באופן רופף על הארכיטקטורה של המוח האנושי. רשתות עצביות לומדות מבלי שתוכנתו במפורש ללמוד, ובדרך כלל הן צוברות מאגר נתונים אדיר ומגוון. ככל שמנוע זיהוי הדיבור צורך כמויות גדולות יותר של דיבור, כך הוא משפר את יכולתו לזהות קולות שונים ומתקרב יותר ליעד הסופי של פיתוח יכולת לנהל שיחה טבעית בשפות רבות ובמצבים רבים.
זה מסביר את המאמצים הקדחתניים הנעשים כעת ברחבי העולם ללכוד כמה שיותר קולות. "ככל שנכניס יותר מידע למערכות שלנו, כך יהיו הביצועים טובים יותר", אומר אנדרו נג, המדען הראשי של באידו. "בגלל זה הדיבור הוא פעילות כל כך עתירת-הון. כמות כזאת של מידע אין להרבה ארגונים".
כשהתעשייה החלה לעבוד ברצינות על זיהוי קול בשנות התשעים, נשענו חברות כמו מיקרוסופט על נתונים זמינים ציבורית ממכוני מחקר כגון Linguistics Data Consortium, מאגר של נתוני קול וטקסטים שהוקם ב-1992 בתמיכת ממשלת ארה"ב ונמצא באוניברסיטת פנסילבניה. לאחר מכן החלו חברות טכנולוגיה לאסוף נתוני קול משלהן, וחלק מנתונים אלה נאספו ממתנדבים שהתייצבו כדי להקריא טקסטים לצורך הקלטה. כיום, כשהפופולריות של תוכנות מופעלות-דיבור צוברת תאוצה, אוספות חברות הטכנולוגיה את מרבית הנתונים מהמוצרים והשירותים שהן עצמן מספקות.
כשאתם אומרים למכשיר הטלפון שלכם לחפש לכם משהו, להשמיע לכם שיר או להנחות אתכם ליעד כלשהו, מרבית הסיכויים הם שהחברה מקליטה את זה. (אפל, גוגל, מיקרוסופט ואמזון מדגישות שהן מבצעות אנונימיזציה של נתוני המשתמש כדי להגן על פרטיות הלקוחות).
כשאתם שואלים את אלכסה על מזג האוויר או תוצאות הפוטבול האחרונות, משתמש הגאדג'ט בשאלותיכם כדי לשפר הבנתו את השפה הטבעית (למרות ש"היא" אינה מקשיבה לשיחותיכם אלא אם אתם מבטאים את שמה). "אלכסה עוצבה באופן שהיא הולכת ומחכימה במקביל לשימוש שאתם עושים בה", אומר ניקו סטרום, מדען בכיר בתוכנית.
אחד האתגרים החשובים הוא לפתח טכנולוגיה שמתמודדת עם מספר רב של שפות, מבטאים ודיאלקטים. בשום מדינה אין האתגר הזה קריטי כפי שהוא בסין. בניסיון לאסוף דיאלקטים מכל חלקי המדינה, השיקה באידו קמפיין שיווק בחג השנה החדשה הסינית בשנה הנוכחית. ענקית החיפושים המקוונים כינתה את הקמפיין הזה "יוזמת השיחה הדיאלקטית", והצהירה בפני הציבור כי אם ישתתפו בתוכנית, הם יתרמו ליצירת עתיד שבו יהיה ביכולתם לדבר לבאידו בדיאלקט שלהם. תוך שבועיים הקליטה החברה יותר מ-1,000 שעות דיבור שאותן הכניסה למחשביה. אנשים רבים עשו זאת בחינם פשוט מכיוון שהם גאים בדיאלקט של מקום הולדתם. מורה בית ספר תיכון בסצ'ואן התלהב כל כך מהתוכנית שהוא ביקש מכיתת תלמידים להקליט יותר מ-1,000 שירים עתיקים בדיאלקט הסיצ'ואני.
אתגר נוסף הוא ללמד את טכנולוגיית זיהוי הקול להבין הוראות למרות רעשי רקע, כגון הרעש של happy hour או ההמולה באצטדיון ספורט. מיקרוסופט השיקה יישום Xbox בשם Voice Studio כדי ללכוד שיחות על רקע הרעש של משתמשים שיורים ברשעים או צופים בסרטים. החברה הציעה תגמולים, כולל נקודות ולבוש דיגיטלי לאוואטרים, ופיתתה מאות אנשים לתרום לתוכנית זיהוי הדיבור של מיקרוסופט את פטפוטיהם בעת המשחק. התוכנית הצליחה מאוד בברזיל, שבה קידמה אחת החברות הבנות המקומיות את היישום במרץ באמצעות דף Xbox הראשי. הנתונים שימשו ליצירת הגרסה הפורטוגזית הברזילאית של Cortana, ששוחררה במועד מוקדם יותר השנה.
חברות טכנולוגיה גם מפתחות מערכות זיהוי קול למצבים ספציפיים. מיקרוסופט בודקת טכנולוגיה שמסוגלת לספק תשובות של שאלותיהם של נוסעים מבלי שתופרע מהזרם הבלתי פוסק של הודעות במערכת הכריזה של נמלי התעופה. הטכנולוגיה של החברה משמשת גם במערכת ההזמנות האוטומטית של מקדונלד'ס עבור צרכנים שאוספים את הזמנותיהם מבלי לצאת מהמכונית במסעדות או במתקני מק דרייב.
התוכנה, שאומנה להתעלם מאיכות הקול הגרועה, מקולותיהם של ילדים צורחים ומהמהומיהם של הדוברים, מסוגלת להפיק הזמנה מורכבת ואפילו לציין במדויק את התבלינים הנדרשים. אמזון עורכת ניסויים במכוניות, ומאתגרת את אלכסה לתפקד למרות רעש הרקע של הכביש.
במקביל למאמצי החברות ללכוד כמה שיותר נתונים ברחבי העולם, הן גם מפתחות דרכים לשיפור זיהוי הקול על בסיס כמות קטנה יותר של נתונים. הטכנולוגיה הנבדקת במקדונלד'ס מדויקת יותר מטכנולוגיות אחרות שמשתמשות בכמות נתונים גדולה בהרבה, לדברי שואדונג הואנג, מדען הדיבור הראשי של מיקרוסופט, שעובד על זיהוי קול בחברה כבר יותר מעשרים שנה. "תמיד אפשר לרשום פריצת דרך גם מבלי להשתמש בכמות הנתונים הגדולה ביותר שבה ניתן להשתמש".
גוגל דוגלת בדרך כלל בפילוסופיית "פחות זה יותר", ומשתמשת בגישת צעד אחד צעד שמנצלת יחידות לא-מובנות של קול לבניית מילים וצירופי מילים. באמצעות מערכת זיהוי הדיבור שלה, מבקשת החברה לפתוח מספר רב של בעיות באמצעות שינוי אחד בלבד. כדי ליצור את ערכות הנתונים שלה, מחברת גוגל עשרות אלפי קטעי אודיו קצרצרים שאורכם אינו עולה בדרך כלל על שתיים עד חמש שניות. התהליך מצריך עוצמת מחשוב פחותה, וניתן לבדוק אותו ולשנותו בקלות רבה יותר, לדברי פרנסואז בופיי, חוקרת בגוגל. באידו, מצדה, שוקדת על פיתוח אלגוריתמים יעילים יותר שלמידת שפה אחת מקלה עליהם ללמוד את 12 השפות הבאות. זה חשוב במיוחד כשמדובר בשפות שאותן דוברים עשרות אלפי אנשים ולא מיליוני אנשים, ושלגביהן לא קיימות כמויות אדירות של נתונים למרות המאמצים לאסוף כמויות נתונים גדולות, לדברי נג, המדען הראשי של החברה.
כששואלים חוקרים כמו נג מתי נוכל לדבר באופן טבעי עם העוזרת הדיגיטלית שלנו, הוא מגיב במלנכוליות. אף אחד לא באמת יודע. הרשתות העצביות ממשיכת להיות מסתוריות אפילו בקרב האנשים שמבינים אותן הכי טוב. ומרבית העבודה מבוססת על ניסוי וטעייה. אתה מבצע שינוי קטן כאן, ואתה אף פעם לא בטוח מה יקרה שם. על בסיס הטכנולוגיה והשיטות הנוכחיות, קרוב לוודאי שהתהליך יימשך שנים. אבל נג, הואנג, בופיי ומדענים אחרים מציינים כי אף פעם לא ניתן לדעת מתי תתרחש פריצת דרך שתזניק את המחקר קדימה ותהפוך את אלכסה וסירי לנשות שיחה אמיתיות.
לתשומת לבכם: מערכת גלובס חותרת לשיח מגוון, ענייני ומכבד בהתאם ל
קוד האתי
המופיע
בדו"ח האמון
לפיו אנו פועלים. ביטויי אלימות, גזענות, הסתה או כל שיח בלתי הולם אחר מסוננים בצורה
אוטומטית ולא יפורסמו באתר.