חברת ג'ויטיונס נכללה ברשימת הסטארט-אפים המבטיחים של "גלובס" של 2019, עם מאות אלפי מנויים ברחבי העולם, שלומדים לנגן בעזרתה ומשלמים דמי שימוש נאים. החברה פיתחה כמה אפליקציות לתרגול נגינה: אחת משמשת ללימוד עצמי של נגינה על פסנתר, השנייה משמשת מורי נגינה בתרגול לתלמידיהם, והשלישית, ללימודי גיטרה. "אנחנו פונים בעיקר לאנשים שלא הולכים ללמוד אצל מורה לנגינה, אלא רק רוצים לג'מג'ם עם גיטרה בלילה", הגדיר זאת המייסד-משותף והמנכ"ל יובל קמינקא בשיחה עם "גלובס".
האפליקציה עושה דבר פשוט - המערכת מקשיבה לנגינה, ויודעת לתת לנגן את הפידבק המתאים. אלא שמאחורי הדבר המאוד פשוט כביכול שעושה האפליקציה, מסתתרים אתגרים טכנולוגיים לא פשוטים בכלל. "הטכנולוגיה שלנו מסוגלת לזהות על איזה כלי המשתמש מנגן ומה הוא מנגן, ואני חושב שהיא אחת מהטובות בעולם לזיהוי כלי נגינה בתנאי אמת. עם זאת, אני הראשון לומר שהטכנולוגיה הזו לא מושלמת אצלנו, ויש עוד הרבה מה לפתח בה. צריך לקחת בחשבון רעשי רקע, את המיקום של הסמארטפון ביחס לכלי הנגינה - אלו המון תנאים שצריך להתמודד איתם בשטח", הסביר אז קמינקא.
אלא שקמינקא היה צנוע. הטכנולוגיה הזו אינה "לא מושלמת" רק אצלם, אצל ג'ויטיונס. בכל העולם מתמודדים החוקרים ומנסים לשכלל את מה שכל כך פשוט וטריוויאלי למוח האנושי - היכולת הטכנולוגית להפריד קולות שונים הנקלטים במערכת זה מזה, ולהיות מסוגלים להתרכז באופן כזה שניתן יהיה, במחי החלטה מודעת, לשמוע וגם להבין כל אחד מהצלילים בנפרד.
אחד האתגרים הידועים הוותיקים בתחום ניתוח והפרדת הקולות, אף זכה לכינוי משלו. וכמו בעיות במתמטיקה, גם הוא מכונה "בעיה" - "בעיית מסיבת הקוקטייל". הבעיה מכונה כך בשל בליל הקולות האנושיים המתערבבים זה בזה במסיבת קוקטייל, מכיוונים ומרחקים שונים ולא ידועים. בעיית מסיבת הקוקטייל מעסיקה את האקדמיה כבר עשרות שנים וטרם נפתרה.
התעשייה ניסתה להסתדר גם בלי פתרון. אחת הסיבות שאפשרו זאת, היא משום שבעיית מסיבת הקוקטייל היא מאוד ספציפית, שקיימת, כך נטען, יותר בתיאוריה מאשר במציאות. בפועל, בחיים האמיתיים, כך טענו מומחים עימם שוחחנו, אין הרבה מקרים שבהם קולות רבים נשמעים בעת ובעונה ועולים זה על זה וקיים בכלל צורך לפענחם. בנוסף, זו בעיה שניתן לעקוף באמצעי פשוט. היא קיימת במקום שבו יש מיקרופון יחיד ולכן גם ניתן לעקוף אותה באמצעות ריבוי מיקרופונים.
כך למשל, הבעיה לא קיימת בחדרי ישיבות, שבהם ההתקנים לשיחות ועידה כוללים כמה מיקרופונים. יחד עם מערכת חכמה שיודעת לשקלל את המידע על עוצמת הקול והכיוון ממנו הוא מגיע, אפשר להגיע להפרדת קול טובה, כך שרעש לעיסת הבייגלה שמשמיע משתתף בקצה אחד של החדר, לא ידרוס את קולו של דובר מהקצה השני.
בין כבדי השמיעה ללד זפלין
העובדה שמדובר בבעיה לא פתורה כבר עשרות שנים, לא הרתיעה את שני החוקרים ד"ר יוסי עדי ואליה נחמני ממרכז המחקר והפיתוח של פייסבוק בישראל, שהחליטו להתמודד איתה באמצעות כלים של למידה עמוקה - דיפ לרנינג - הענף המשמעותי בלמידת המכונה, שעומד בבסיסי רבים מהפיתוחים הטכנולוגיים המשמעותיים ביותר בשנים האחרונות, כמו למשל בבסיס מנגנון האתראה של מובילאיי.
מחקר חדש שפרסמו השניים הצליח להשיג התקדמות משמעותית בקנה מידה עולמי בהתמודדות עם בעיית מסיבת הקוקטייל. אלה הצליחו לא רק להפריד בהצלחה קולות של עד חמישה דוברים זה מזה, אלא הצליחו לגרום למערכת להבין בעצמה כמה דוברים היא "שומעת" ללא על התערבות או עזרה מיד אדם.
"כבר עשרות שנים שיש באקדמיה מחקר על מסיבת הקוקטייל אבל רק היום, עם כלי הבינה המלאכותית, הבעיה הולכת להיפתר", סיפר אליה בשיחת זום משותפת עם יוסי עדי, שבה הציגו בפני "גלובס" את המחקר החדש. "אני מאמין שבשנה שנתיים הקרובות הולכים לסגור את הבעיה", הוא אומר, "ובכלל, הטכנולוגיה הזו של בינה מלאכותית מתחילה לסגור בעיות שהיו פתוחות עשרות שנים. ראיתי שזה הולך להסגר ורציתי להיות חלק מהמחקר הזה. נושא מכשירי השמיעה קרוב אליי ואני יודע עד כמה קשה לכבדי שמיעה עם המכשירים הקיימים היום".
הוא סיפר כי לסבתו יש מכשיר שמיעה "ונורא קשה לה איתו. בכל אירוע משפחתי היא מורידה את המכשיר, או סובלת איתו וזאת למרות שמדובר באחד המכשירים היקרים ביותר בשוק. בעבר התנדבתי בבית ספר של כבדי שמיעה ובמשך שנה שלמה ראיתי כמה קשיים יש להם עם השתל של האוזן המלאכותית. ברגע שהסביבה מעט רועשת, בין אם זה רעש מונוטוני או מכה חזקה, הם ישר מורידים את זה. זה נורא קשה להם ולפעמים זה גורם להם להתנתק מהעולם. לכן הנושא הזה כל כך עניין אותי".
המוטיבציה של עדי הגיעה ממקום אחר. "התחלנו לעבוד על המחקר ביחד, קצת אחרי שהצטרפתי ל-"FAIR" (גוף המחקר של פייסבוק בתחום הבינה המלאכותית)", הוא סיפר, שהמחקר בפייסבוק היה עבורו המשך למחקר בדוקטורט שעסק בתמלול הקלטות. "רציתי לחפש משהו חדש בתחום במוזיקה. החלום שלי היה לקחת שיר של לד זפלין ולהפריד את התופים, הבס השירה והגיטרה, לדגום אותם לעצמי ולשחק עם התופים של המתופף ג'ון בונהם. חשבתי שאולי אוכל לעשות את זה יותר טוב מאחרים".
עדי ונחמני הם חלק מצוות של שמונה אנשים שהוקם על ידי פרופ‘ ליאור וולף, והמחקר שלהם נערך בהנחייתו. "יש לנו חופש אקדמי מלא והצוות מתנהל כמו מעבדת מחקר באוניברסיטה, ופחות כמו חברה. אנחנו מחליטים ומובילים מה שמעניין לדעתנו וחשוב בתחום הבינה המלאכותית ושמים עליו את הדגש במחקר", הם מסבירים.
הסיבה שהם בחרו לדבריהם לעבוד דווקא בפייסבוק, היא בשל הנגישות למשאבי המחשוב של החברה. כדי לאמן מודלים מורכבים של בינה מלאכותית, בפרקי זמן קצרים יחסית, קיים צורך לעשות שימוש בכמות גדולה של מעבדים יקרים המתמחים במשימות מסוג זה. ברוב מוחלט של המקרים נעשה שימוש במעבדים של חברת אנבידיה. "במחקר שלנו השתמשנו במאות מעבדים גרפיים (GPU) כדי לאמן את המודל, וזה עדיין לקח לנו שבוע".
עדי סיפר כי מבחינתו הסיבה להפוך לחוקר בפייסבוק היתה כי ידע ששם "המחקרים שלי, והדוקטורט שלי לא ייזרקו ואוכל לנצל פלטפורמה גבוהה כדי להפיץ את המידע". לדבריו, מעבר לכוח המחשוב האדיר שפייסבוק מעמידה לרשותם, בפייסבוק שמים פוקוס על המחקרים שאנחנו עושים ועל התרומה שלנו ורוצה לשחרר כמה שיותר מידע".
זו אחת הסיבות שלדבריו, המודלים עליהם אומנה המערכת שלהם היו מודלים סינתטיים. הכוונה במודלים סינתטיים היא שהמערכת של עדי ונחמני לא אומנה על הקלטות אמיתיות של "מסיבות קוקטייל" או סיטואציות אמיתיות אחרות, אלא הם אומנו על בסיסי שיחות מרובות משתתפים או מוזיקה מרובת כלים שיוצרו באופן מלאכותי, תוך שימוש בקולות בודדים ששולבו יחדיו באינספור קומבינציות משתנות - בין אם במספר הדוברים, המרחק שלהם מהמיקרופון, עוצמתם ועוד.
בין יתר הסיבות לכך, הסביר עדי, היא הרצון שלהם לאפשר לחוקרים לשחזר את הניסוי שערכו. הוא הסביר כי אם היו משתמשים למשל בדאטה של פייסבוק, חוקרים חיצוניים לא היו יכולים לחזור עליו בעצמם וכך ולשכלל אותו. המחקר, יש לציין, פורסם ברשת, ובהמשך אף יפורסם הקוד שלו באופן פתוח.
זו לא הסיבה היחידה מבחינתם. עדי מסביר כי יש יתרונות מובנים בעבודה בחברה בהיבטים של שיתוף הפעולה עם העמיתים. "במעבדת מחקר אקדמית, אתה בעצם לבד. גם אם אתה גדול ומוצלח, יש לך אולי כמה סטודנטים שעובדים איתך. שיתופי פעולה עם הקולגות הם יחסית נדירים. כאן אנו עובדים עם הטופ של עולם הבינה המלאכותית. אתה יכול להרים צ'אט - ולהגיד 'היי, זה המחקר שאני עושה. מה אתה אומר? זה ממש 'גיים ציינג'ר', כי כשהאגו הולך הצידה, נשארים חבר'ה סופר חזקים, מאוד חכמים, אבל גם מאוד ביקורתיים, שרוצים אשכרה לעשות משהו טוב ומוצאים את הדרך לעשות את זה". עדי לא מפספס את ההזדמנות להכניס את המסר הקבוע של פייסבוק, שלא לומר מנטרה, על שאיפתה לחבר בין אנשים ולעשות טוב לעולם.
עדי ונחמני בהחלט מודעים למגבלות של המחקר שלהם ולביקורת עליו. את הביקורת אפשר לסכם בכך שמדובר בבעיה שלא באמת מפריעה לתעשייה, מאחר שהיא מתמקדת בקלט של קולות באמצעות מיקרופון אחד, בעיה אותה ניתן לעקוף באמצעות שימוש בכמה מיקרופונים. עניין נוסף הוא העובדה שהמודל לא מתגבר לחלוטין על בעיית ההדהוד - הקושי המיוחד שיש למערכות ממוחשבות להתמודד עם תהודה קשה.
"זה לא פרס נובל", מודה עדי, "אבל עד המאמר שלנו, המחקר התבסס על מערכת שלומדת אילו אזורים במקטע הדיבור היא צריכה להסתיר על מנת לשמוע יותר טוב. זהו תהליך שנקרא 'מאסקינג', יצירת מסכה שמסתירה את החלקים הלא רצויים במידע. אז המחקר שלנו בא ואמר, 'זה לא נכון. אנחנו לא רוצים להסתיר חלק מהמידע, אלא לסנן את המידע יותר טוב'.
"לגבי ההדהוד, למרות שעקרונית זו בעיה קשה, רמות ההדהוד שבפועל עובדים עליהן בחללים סגורים, לא גבוהות כפי שסבורים. בהפרדת שני דוברים, עם או בלי רעש והדהוד, שיפרנו את התוצאות לעומת כל מה שהיה ידוע עד היום. זו לא פריצת דרך, אבל בתחום שלנו לשפר בכמה עשרות אחוזים את המודל הכי טוב שנמצא, זה לא מעט.
"הקושי המרכזי היה בשאלה איך ממדלים את הבעיה. עד היום המידול שם את הפוקוס על עיבוד אותות הקול (עיבוד מתמטי המתבצע על המספרים שמייצגים קול, תמונה וכו'), ופחות על מודל הלמידה - האלגוריתם של הבינה המלאכותית. אנחנו ניסינו לשלב בין שני העולמות ולשים את הפוקוס גם על עיבוד האותות וגם על מודל הלמידה, ולצאת עם מודל שלדעתנו הוא יותר מתאים.
"בעצם זה שעברנו לחמישה דוברים ויצרנו את היכולת להבנה אוטומטית של מספר הדוברים, אנו בעצם מכתיבים את הכיוון אליו הולך המחקר - פיתוח מודל חדש של למידה עמוקה, ששואב השראה מעולמות עיבוד האותות, ומוביל אותנו להפרדה של יותר דוברים באופן אוטומטי. יש לו עוד מרחק לעשות עד שהוא יגיע לסבתא עם מכשיר שמיעה, אבל עכשיו הדרך נראית לעין".
הדרך להשתיק קהל בהופעה
מבחינת הטמעה בפייסבוק, נחמני בטוח שהטכנולוגיה תוכל לתת ערך ולהשתלב בשירותים עתידיים, במיוחד מציאות מדומה ומציאות רבודה (AR/VR), כשאפשר יהיה להשתיק עוד מישהו שמדבר בבית או רעשי רקע של מכוניות בחוץ.
אבל מלבדם (ומלבד שיפור מכשירי שמיעה), יש לנחמני עוד כמה פנטזיות לגבי שימושים עתידיים בטכנולוגיה. "למשל, אם אתה נמצא באירוע חברתי ורוצה להקשיב למישהו ספציפי, או נמצא בסצנה כלשהי שבה מעניין אותך לשמוע רק אלמנטים ממנה, כמו למשל להשתיק את הקהל בהופעה. או במגרש ספורט, למי שרוצה להיות מרוכז רק במה שקורה במגרש".
"בעולם התמונה זה נקרא סופר-רזולוציה, כשלוקחים תמונה ברזולוציה נמוכה ומשפרים אותה. בעולם האודיו תוכל לקחת סיגנל חלש, רועש ורחוק ותוכל להגביר אותו ולשפר אותו. כל הטכנולוגיה הזו תוכל להביא אותך ליכולות על-אנושיות, שהיום אין לנו אותן".
"לבצע 'הפרדה עיוורת' של חמישה דוברים, זה הישג מדעי מרשים"
כדי להבין טוב יותר את המחקר ואת האופן שבו הוא נתפס בקהילה, שוחחנו עם שני מומחים מחברת ג'ויטיונס. רני קליגר, ראש צוות recognition satisfaction ומנהל מוצר; ועודד צבי, איש DSP (עיבוד אותות דיגיטליים) באותו צוות. "עדי ונחמני בנו ארכיטקטורת רשת לא טריוויאלית, שונה ממה שהיה נהוג. אחד הדברים המיוחדים בה הוא שהם עשו עיבוד ישירות על האודיו, ולא עיבדו את המידע לפני שהכניסו אותו לרשת הנוירונים", הם אומרים.
השניים הסבירו עוד ש"מאחר שדוברים אנושיים לא כל כך שונים במאפייני האותות שלהם, הדיבור הוא בערך סביב אותם תדרים, משימת ההפרדה הרבה יותר קשה בהשוואה להפרדה של חצוצרה ותוף, שמאוד שונים זה מזה. לבצע 'הפרדה עיוורת' של חמישה דוברים, ועוד על ערוץ יחיד, נשמע הישג מדעי מרשים".
השניים הסבירו גם כי בעוד שמכשירי סמארטפון מהקצה העליון מכילים יותר ממיקרופון אחד, מכשירים אחרים מכילים לדבריהם רק מיקרופון אחד, כך שטכנולוגיה חדשה שתשפר את הביצועים שניתן להפיק ממיקרופון בודד, תוכל לשפר את הביצועים של אותם מכשירים.
השניים הדגימו קושי שמערכת כמו של ג'ויטיונס עשויה להתמודד איתו ואשר ייתכן שמחקר כפי שעשו יוסי ואליה יוכל לסייע בו. "באפליקציה שלנו מנגנים מוזיקת רקע שמלווה את המשתמש שמנגן בפסנתר, ולהקה שלמה מלווה אותו תוך כדי. הבעיה היא שמשמעים את הסאונד מאותו מכשיר שמקליט את הסאונד כדי להבין מה קורה, והרבה פעמים הרמקול 'צועק' למיקרופון הרבה יותר חזק מאשר הפסנתר. זו בעיה קשה שאפשר למתן בכל מיני אפשרויות כמו ווליום חלש, או להיעזר בעובדה שאנחנו יודעים מה מנגנים כדי שההפרדה תהיה פחות עיוורת, אבל אם היה לנו כלי שהיה עוזר לנו להפריד את האותות זה מזה באופן אוטומטי, זה יכול היה להיות כלי מצוין".
יוסי עדי
בן 32 מראשון לציון • את התואר שני והדוקטורט שלו במדעי המחשב, קיבל מאוניברסיטת בר אילן ● כמוזיקאי מקצועי, שגם שירת בתזמורת צה"ל, עדי התרגש מהאפשרויות שהפרדת קולות יעילה יכולה להעניק לעולם המוזיקה ● לאחר שהצטרף לפייסבוק, התיישב יחד עם אליה נחמני לפתור בעיה שנקראת "מסיבת הקוקטייל", והם הצליחו לעשות צעד משמעותי בדרך לפתרונה
אליה נחמני
בן 33 מירושלים, הגיע ל-FAIR, גוף המחקר של פייסבוק בתחום הבינה המלאכותית לפני שלוש וחצי שנים ● עובד על דוקטורט במדעי המחשב באוניברסיטת תל אביב, שם גם סיים את התואר השני בהנדסת חשמל ● בצבא שירת ב-8200, והחל להתעניין בתחום הפרדת הקולות כשראה במשך תקופה ארוכה כיצד כבדי שמיעה מתקשים להתמודד עם העזרים הקיימים