ענקיות הטכנולוגיה הגדולות, כולל פייסבוק אמזון, גוגל, אפל, מיקרוסופט וסמסונג, נתפסו לאחרונה בשערוריית פרטיות נוספת: כולן שכרו עובדים במיקור חוץ שהאזינו לשיחות של משתמשים עם העוזרות הקוליות שלהן ותייגו אותן, לצורך בקרת איכות ושיפור הטכנולוגיה. השערורייה סביב ההאזנות נוצרה כאשר שיחות אישיות החלו לדלוף יחד עם פרטים מזהים של משתמשים. למרות שהענקיות הסירו את המידע האישי של המשתמשים מקטעי הקול ששלחו להאזנה, ניתן היה לזהות את חלקם באמצעות התכנים בשיחות.
הדינמיקה הזו בין ענקיות הטכנולוגיה והמידע של המשתמשים מדגימה היטב את האופן בו עובדים תהליכי למידה עמוקה בכל חברת טכנולוגיה. התהליכים הללו מתבססים על כתיבת אלגוריתמים ועל אימונם באמצעות עשרות ואף מאות מיליוני נתונים מתויגים. כדי להגיע לרמות הדיוק הגבוהות הנדרשות כדי למנוע הונאות פיננסיות למשל, או לעלות לכביש עם רכב אוטונומי, חברות צריכות לרכוש דאטה מתויג, או להפיק ולאסוף דאטה ואז לתייג אותו - בעלות שיכולה להגיע גם לעשרות מיליוני דולרים.
כך מאמנים אלגוריתמים של למידה עמוקה:
"יש המון דעות קדומות וזה בעייתי"
ענקיות הטכנולוגיה משתמשות לרוב בדאטה בבעלותן אשר מיוצר על ידי אינטראקציות של משתמשים עם הפלטפורמות שלהן, כמו האינטראקציה עם העוזרות הקוליות. לעומתן, חברות טכנולוגיה אחרות נאלצות להפיק מידע במיוחד לצורך אימון של אלגוריתם כזה או אחר, או לרכוש מידע ממקורות חיצוניים - שתיהן אפשרויות יקרות. לחלופין, הן יכולות לאסוף מידע חינמי מהאינטרנט - אפשרות שמשיגה לרוב תוצאות מוגבלות. גם תיוג הנתונים הוא חלק בלתי נפרד מתהליך הפיתוח. למרות שמדובר בתהליך העומד בבסיס המוצרים הטכנולוגיים המתקדמים ביותר, הוא עדיין נעשה באופן ידני, על פי רוב על ידי עובדים במיקור חוץ ובשכר נמוך ממדינות דרום מזרח אסיה.
התהליך המסורבל והעלויות הגבוהות הכרוכות בו הצמיחו חברות לא מעטות שמבקשות לסייע לחברות הטכנולוגיה בתהליכי איסוף ותיוג הדאטה. אחת החברות הישראליות הפועלות בשוק הזה היא דאטה-ג'ן (DataGen), המפתחת טכנולוגיה לייצור אוטומטי של דאטה סינטטי ופוטו-ריאליסטי לצורך אימון אלגוריתמים של ראייה ממוחשבת. בניגוד לחברות רבות אחרות העוסקות בתחומי הדאטה הסינטטי, החברה מתמקדת בייצור של דאטה אנושי - כלומר סימולציות של בני אדם.
"איפשהו במהלך המרוץ ל-AI שכחו שהדבר הכי משמעותי שמזין את המערכות הללו זה דאטה - דאטה איכותי ומתויג בקנה מידה של עשרות ואפילו מאות מיליוני תמונות", אומר אופיר צ'קון, מייסד משותף ומנכ"ל דאטה-ג'ן. הוא בוגר תואר שני ברובוטיקה ומשמש כמנטור ב-Israel Tech Challenge בתחום מדעי הנתונים. את החברה הקים ב-2017 יחד עם שותפו גיל אלבז, בוגר תואר שני בראייה ממוחשבת מהטכניון ובעל ניסיון בפיתוח אלגוריתמים לניתוח מידע תלת ממדי בענן. החברה גייסה עד היום מימון סיד של 3.5 מיליון דולר, בהובלת קרן ההון סיכון TLV פרטנרס, והיא מעסיקה 12 עובדים.
"סטארט-אפ שירצה לזהות התנהגויות של נוסעים בתוך הרכב, יסתפק במה שיש, או שהם ינסו לצלם בעצמם סימולציות של כל מיני סיטואציות. הם יפנו לחברת ייצור רכבים וירכיבו את המצלמה המדוברת שאיתה עובד האלגוריתם שלהם על אותו הרכב. ואז צריך להביא מאה אנשים שונים, להכניס אותם לתוך הרכב ולביים אותם ואת ההתנהגויות שרוצים ללמד את האלגוריתמים לזהות אחר כך. זו ממש הפקה", אומר צ'קון. לדבריו, "התהליך הזה הוא מאוד ידני ומורכב מהמון חלקים ואנחנו רואים כאן את הבעייתיות: מלבד הקושי לאסוף את כל הדאטה הזה ולדייק יש גם המון דעות קדומות. כך לדוגמה, לאחרונה פורסם שאפליקציית FaceApp שמזקינה אנשים הזקינה את אובמה להיות גבר לבן, כי לא אימנו את האלגוריתם על מספיק אנשים שחורים.
"אנחנו מייצרים מנוע לייצור דאטה. המנוע הוא סוג של קופסה שחורה, שבצד אחד מקבל דרישות ובצד השני מייצר דאטה שאנחנו נותנים ללקוח. אנחנו רוצים שהרשת שלנו תדע להתאים לכל מצב: לתנאי תאורה שונים, לאנשים שונים ולסביבות שונות".
"מייצרים סימולציות של כ-60% מהאוכלוסייה"
המידע שדאטה ג'ן מסוגלת לעשות לו סימולציה כולל מפות עומק של כל האובייקטים בתמונה המיוצרת, התאמה בין מיקום אובייקטים בתמונות שונות, וכן סימולציה של מפות אינפרה אדום המתבססת על חום - מה שמאפשר לזהות יצורים חיים - בניגוד למצלמת RGB רגילה, המתבססת על אור. "הרבה יותר קשה לעשות סימולציה כזו והצלחנו להגיע לפיתוח משמעותי בתחום. יש לתמונות הללו ביקוש מאוד גבוה אצל לקוחות בתחום הרכב", מוסיף צ'קון.
צ'קון לא חושף את הכנסות החברה או את לקוחותיה, אך לדבריו, בין עשרות הלקוחות שלה כבר נמצאות "החברות הגדולות בעולם מבחינת שווי שוק של עשרות ומאות מיליארדים ואפילו החברות הבודדות שהגיעו לטריליון". הוא מוסיף כי הלקוחות הגדולים של החברה הם מתחומי ה-AR ו-VR, האבטחה והחנויות החכמות, וכי החברה עובדת גם עם לקוחות קטנים יותר בתחומי הרכב האוטונומי והרחפנים.
איך הטכנולוגיה שלכם עובדת?
"המנוע שלנו מחולק לשלושה חלקים עיקריים: וריאציה, תנועה, ויצירה. החלק הראשון בונה וריאציות נראות שונות של הסביבה ושל הדמויות שאנחנו שמים בתוך הסביבה. אנחנו בונים מרחבים מתמטיים שממדלים את הנראות החיצונית של אנשים ויודעים לדגום אחרי זה מתוך האזורים הללו בן אדם בן 38 ממוצא אסייתי בגובה מסוים ואחוזי שומן מסוימים. אנחנו יכולים לדגום כך אנשים מסגמנטים מסוימים, אם במונחי גיל, מין, מסת גוף, אתניות וכל דבר שמגדיר בן אדם. היום אנחנו יכולים ליצור סימולציות של כ-60% מהאוכלוסייה ואנחנו מרחיבים את זה כל הזמן, מהאדם הממוצע למקרי קצה, כמו אנשים מאוד רזים או שמנים, אנשים מאוד זקנים או תינוקות וכו'. המרחב הזה לא נוגע רק לאנשים אלא גם לסביבה עצמה.
"בחלק התנועה, אנחנו ממדלים את האופן בו שלד האדם עובד כשאנחנו עושים כל מיני פעולות ואיך העור והשומן שלנו זזים בהתאם. מחר כשנרצה להגיד לבן אדם 'תגיע מנקודה A לנקודה B ותעשה X, Y, Z', הוא ידע לייצר את המסלול הזה ב-1,000 דרכים שונות. אם למשל אני נמצא בחנות ללא קופה של אמזון ואני רוצה לקחת בקבוק קולה, לשים בכיס שלי ולצאת מהחנות. אז אנחנו מתבססים על פיזיקה ושיטות למידה ראינפורסמנט שונות כדי לייצר אינסוף סימולציות שונות של הפעולה הזו.
"העולם האחרון הוא עולם הייצור. ברגע שיש לנו את הסביבה והסיטואציה התלת ממדית אנחנו רוצים לייצר ממנה תמונות דו מימדיות עם כל התיוגים שלה. התהליך הזה נקרא רינדור וזו פעולה מאוד יקרה. אנחנו עושים הרבה אופטימיזציות שונות שיכולות להפוך את התהליך הזה לפי עשר עד מאה יותר מהיר מאשר שהוא נעשה היום".
איך אתם מלמדים את האלגוריתמים שלכם לייצר דאטה אנושי באופן מדויק?
"תהליכי ייצור הדאטה שלנו לא מתבסס רק על נתונים סינטטיים, אלא גם על העברה של נתונים מהעולם האמיתי לתוכם. כדי ללמוד את האופן בו אדם הולך למשל, ניקח המון סרטוני יוטיוב של אדם הולך ונלמד מהם. אז אנחנו משתמשים בהמון דאטה חינמי שקיים בשפע מהעולם האמיתי בתוך תהליכי ייצור הדאטה שלנו. על ידי הערכה אוטומטית של הפעולה שבסרטון, ניתן ללמוד מהדאטה הזה כדי לשפר את הסימולטורים שלנו".
התהליך שצ'קון מתאר פותח על ידי חוקרים באקדמיה בתחום הדאטה הסינטטי ונקרא GAN (ראשי תיבות של Generative Adversarial Training), ובעזרתו מחשב יכול ליצור תמונות מזויפות. בשיטה זו יש שתי רשתות נוירונים: האחת מוזנת במאגר תמונות אמיתיות רבות של אובייקט מסוים, למשל פרח, לומדת את פרטיו ולאחר מכן מייצרת תמונה של פרח חדש ואמין לחלוטין. הרשת השנייה בוחנת ומעריכה האם התמונות שנוצרו נראות אמיתיות. לאחרונה הוצג שכלול של השיטה בשם BigGan, לפיו כאשר מאמנים את האלגוריתם על מאגר תמונות גדול במיוחד מקבלים תוצאות מדויקות יותר.
"תוצאות טובות בהרבה מכל דאטה שנבדק"
יצירה של אלגוריתם שמייצר דאטה עבור אימון של אלגוריתמים אחרים יכולה להיראות כמעין פרדוקס: הרי כדי לאמן את האלגוריתם שלהם, דאטה-ג'ן צריכים להשתמש בעצמם בדאטה שקיים מראש. עם זאת, צ'קון מסביר שכמות הדאטה שהאלגוריתם שלהם צריך לקבל כדי לייצר דאטה סינטטי היא קטנה בהרבה מהכמות הנדרשת עבור כל שימוש בנפרד. כך למשל, אם האלגוריתם למד כיצד מתנהגים אנשים כשהם חוצים את הכביש, הוא יוכל לייצר אין ספור סיטואציות כאלה - בסביבות שונות, בתנאי תאורה ומזג אוויר שונים ועם אנשים שונים.
כשנשאל אם גם דאטה-ג'ן מתכוונת לספק שירותי תיוג, צ'קון אומר שאין בכוונת החברה לעשות זאת. "שאתה מייצר את הדאטה בצורה סינטטית המידע נמצא כבר בתוך הסביבה. התיוג מבחינתנו הוא טריוויאלי, ומעבר לזה - אנחנו בעצם מסוגלים לספק גם את המידע הוויזואלי וגם את כל המטא-דאטה, כלומר תיוגים שמי שמתייג ידנית לא יכול לעשות אותם.
"אם יש תמונה של אדם שנמצא בחנות אמזון גו ואתה רוצה לדעת לאן הוא מסתכל, למי שמתייג ידנית אין ממש דרך לתייג את וקטורי ההסתכלות של העיניים. אבל אנחנו - בתור מי שיוצרים את הדאטה - יכולים לספק את המידע הזה ב-100% דיוק. זה מייצר פתרון שלא רק מאפשר לרשתות דיפ לרנינג להאיץ את הפיתוח שלהן בקנה מידה גדול, אלא גם לפתוח מניפת אפשרויות למידה שלא הייתה קיימת לרשתות הללו עד היום".
הרבה סטארט-אפים אחרים שפועלים בעולם הדאטה הסינטטי מייצרים מידע טקסטואלי או עצמים ויזואלים. למה בחרתם להתמקד בבני אדם?
"הסיבה הראשונה היא שסימולציה של אנשים זה מאוד מורכב טכנולוגית, כי צריך ממש למדל אנשים - איך הם נראים, את האנטומיה שלהם, הפיזיקה שלהם, איך הם זזים, מבנה העצמות שלהם וכולי. הסיבה השנייה היא שרוב בעיות הראייה הממוחשבת היום סובבות סביב אנשים כי בפועל אנחנו רוצים להבין אנשים ואנשים הם מרכז העולם. מצד שני, האלטרנטיבה לאיסוף דאטה של אנשים היא יקרה מאוד ואפילו בלתי אפשרית - לביים סיטואציות כאלה ואחרות זה מאוד מורכב ויקר וזה מייצר מקרים מאוד נקודתיים. אין דרך טובה לעשות את זה בקנה מידה רחב".
דיברת על כך שאחת הבעיות בתיוג דאטה באופן ידני היא הדעות הקדומות של בני האדם שבעצם "מועברות" לאלגוריתמים. הרבה מהבעייתיות הזו נוצרת מכך שכדי ללמד מכונה, אנשים נדרשים לחלק את העולם לקטגוריות. האם מה שאתם עושים לא מחמיר את הבעיה?
"הפרמטרים בהם אנחנו משתמשים הם לאו דווקא כאלה שאנחנו יודעים להגדיר בוודאות שזה אתניות, זה מיניות וזה גיל. מדובר בהגדרות מתמטיות של קשרים שונים בין דברים שיש בגוף האדם, כמו המרחק בין העיניים או הפרופורציות בין האוזניים והאף. אנחנו יכולים לספק ללקוח סגמנט אוכלוסייה שמאופיין ב-XYZ".
ההדמיות שלכם הן מגוונות באופן מרשים, אך הסימולציות לא נראות אמיתיות. למשל, הריסים של בני האדם צומחים בקבוצות של שלוש-שלוש, העור נראה מלאכותי וחסר טקסטורה.
"הפוטו-ריאליזם חשוב, אבל אנחנו רואים שהגיוון של הדאטה הרבה יותר משמעותי מהפוטו-ריאליזם. אנחנו יודעים את זה באמצעות בדיקות פנימיות שאנחנו מבצעים אצלנו ומשווים לספרות המחקר. עד עכשיו הגענו לתוצאות טובות בהרבה מכל דאטה סינטטי שנבדק בספרות בעבר".
בעוד שייצור דאטה לצרכים של אימון אלגוריתמים לא מצריך דיוק ויזואלי מושלם, פיתוחים אחרונים הצליחו לייצר הדמיה של גוף אנושי שלם. הסטארט-אפ היפני DataGrid, הפועל בתחום המדיה הסינטטית או הדיפ פייק, מסוגל לייצר סימולציות של בני אדם סינטטיים לחלוטין. החברה פונה לתחום האופנה, ומספקת תמונות מזויפות אך אמינות לגמרי של דוגמנים ודוגמניות לאתרי מסחר מקוון של רשתות אופנה. באופן דומה לזה של דאטה-ג'ן, הטכנולוגיה של החברה מתבססת על מחקר ופיתוח של ייצור גוף שלם ותנועה.
"אנחנו מאוד נזהרים מעולמות הדיפ פייק, והשוני המהותי הוא שמדיה סינטטית מייצרת תמונות של דמויות לשימושים בסיסיים כאלו ואחרים בתמונות כתמונות", מסביר צ'קון. "אנחנו בונים סימולטור תלת מימדי של העולם האמיתי, שמאפשר לנו לייצר כל סוג של דאטה שמעניין את הלקוח לאימון מודלים של עיבוד תמונה - החל מדאטה דו מימדי (תמונות), לכיוון דאטה תלת מימדי ומטא-דאטה ברמת ההתרחשויות וההתנהגויות בתוך העולם התלת ממדי".
ת"ז: דאטה-ג'ן
תחום פעילות: דאטה אנושי סינטטי
הקמה: 2017
מייסדים: אופיר צ׳קון וגיל אלבז
עובדים: 12
משרדים: תל אביב
גיוסי הון: 3.5 מיליון דולר
משקיעה בולטת: קרן TLV פרטנרס
לתשומת לבכם: מערכת גלובס חותרת לשיח מגוון, ענייני ומכבד בהתאם ל
קוד האתי
המופיע
בדו"ח האמון
לפיו אנו פועלים. ביטויי אלימות, גזענות, הסתה או כל שיח בלתי הולם אחר מסוננים בצורה
אוטומטית ולא יפורסמו באתר.