הכותב הוא מנכ"ל Anyverse, מרצה ומומחה בינלאומי לחדשנות וטכנולוגיה
בשבוע שעבר הודיעה יוטיוב שהיא מרחיבה משמעותית יכולות שקשורות לסרטונים רב־שפתיים, כלומר סרטון וידאו אחד יתמוך בשפות דיבוב שונות.
מדובר בפרויקט שעד כה היה ביוטיוב במסגרת בטא מצומצמת לכמה יוטיוברים מובילים - ביניהם MrBeast (ג'ימי דונלדסון), היוטיובר המצליח בעולם, עם יותר מ־130 מיליון עוקבים רשומים - וכעת מתרחב להרבה יותר יוצרי תוכן.
● לשבת על הספה ולהטביע סל ב־NBA: היישום החדש שמשנה את כללי המשחק
● שאלתי עובדי יוניקורן צעירים מי התנסה בכלי בינה מלאכותית. הופתעתי מהתשובה
● זה כבר קורה: אלה המקצועות שנפגעים מבינה מלאכותית
לכאורה, מדובר בפיצ'ר טכני קטן, אבל כשמסתכלים על הנושא במבט רחב יותר, מתקבל מעין צוהר לשינוי הרבה יותר משמעותי בכל הנוגע לצריכת תוכן בשנים הקרובות. בואו נצלול פנימה.
לצרוך אחרת תכנים בידוריים ולימודיים
היכולת החדשה פשוטה מאוד להבנה: יוצרי תוכן ביוטיוב יוכלו להעלות פסי קול (קבצי אודיו) לסרטונים שלהם בשפות שונות, כך שצופים לא רק יוכלו לצפות בכתוביות בשפות שונות כמו שקורה היום, אלא גם בדיבוב מלא לשפה שבה הם מעוניינים לשמוע את הסרטון.
לשם ההמחשה, אם סרטון הוא באנגלית, אבל יש לו גם קבצי אודיו לצרפתית ולספרדית, המשתמש יוכל לבחור באיזו מבין השפות הוא רוצה לשמוע את הסרטון.
יוצרי תוכן ביוטיוב שישתמשו בפיצ'ר החדש יצטרכו להעלות קבצי אודיו בשפות שבהן הם רוצים שהווידאו ינוגן, וכך המשתמשים יוכלו לבחור מבין האופציות השונות שצורפו.
היכולת הזו משפרת את הנוחות של הגולשים/הצופים ומספקת חוויה טובה יותר לצריכה של תוכן ביוטיוב, בין אם הוא בידורי, לימודי או מכל סוג אחר. זאת בפרט כאשר רוב תושבי העולם אינם דוברי אנגלית מבטן ומלידה, ואנגלית היא עדיין השפה הדומיננטית ביותר ביוטיוב.
אבל זו לא הסיבה שהמהלך הזה מעניין. הסיבה היא שמדובר, לתפיסתי, ביכולת שמובילה אותנו לעידן חדש בכל הנוגע לצריכת תכני וידאו. ראשית, קחו את היכולות ההולכות ומשתפרות של מודלי השפה השונים, כגון GPT-3 של OpenAI, LaMDA של גוגל, Jurassic של AI21Labs ואחרים, לתמלל אודיו לכל שפה שתרצו בצורה כמעט מושלמת.
שנית, הוסיפו לזה את ההתקדמות המטורפת בטכנולוגיה של חיקוי קולות, המתבצעת באמצעות טכנולוגיות כמו VALL-E של מיקרוסופט, ElevenLabs, Descript ואחרות. ביחד, זה רק עניין של זמן קצר עד שהיוצרים לא יצטרכו בכלל לייצר בעצמם את הקבצים בשפות האחרות.
זה יעבוד כך: מיד כשקובץ הווידאו יעלה בשפת המקור, יוטיוב תייצר חיקוי מדויק של הקול של אותו יוצר ושל אחרים שמשתתפים איתו בסרטונים.
לאחר מכן, היוצר יצטרך לבחור לאילו שפות הוא רוצה לדובב את הסרטון שלו בנוסף לשפת המקור, וקבצי האודיו בשפות החדשות ייווצרו בצורה אוטומטית באמצעות אותם מודלי Generative AI.
זה יקרה גם מבחינת הטקסט עם התרגום והקונטקסט, וגם מבחינת הדמיון של הקול - מבלי שיהיה צורך להשתמש בשירותי דיבוב או שחקנים, כנהוג כיום.
האם אתם יודעים של מי הקול הזה
כל זה אומר שבעוד תקופה לא ארוכה (להערכתי שנה ולכל היותר שנתיים), נראה את MrBeast לדוגמה בסרטון בספרדית אבל לא עם דיבוב קול חיצוני, אלא כך שממש נוכל לשמוע את MrBeast בכבודו ובעצמו מדבר ספרדית שוטפת, בקולו ובסגנון הדיבור שמאפיין אותו.
תוסיפו לזה טכנולוגיות הולכות ומתקדמות כמו אלה של Flawlessai ,D-ID ואחרות, שיודעות לסנכרן שפתיים לאודיו והזזה של שפתיים באמצעות שימוש בבינה מלאכותית - ותקבלו מצב שבו לא רק ש- MrBeast ושאר היוצרים ביוטיוב (ובהמשך במקומות אחרים) ידברו בשפת המקור שלכם - הם גם יעשו את זה בקול מושלם, במבטא מושלם ובסנכרון מושלם לווידאו.
כן, כן, בזכות Generative AI והיכולת לייצר מודלי שפה גם לשפות עם מספר דוברים קטן יותר, זה בהחלט יכול להיות לא רק בשפה שלכם - אלא אפילו בניב או במבטא הרלוונטי, שכן במדינות רבות יש ניבים ומבטאים רבים.
בשלב הבא, בעוד כמה שנים, אלה בכלל לא יהיו הם, אלא אווטאר שנראה ונשמע בדיוק כמוהם. וזה כמובן כבר מהפך שיכול לשנות לגמרי את עולם יוצרי התוכן ברשתות החברתיות, ולשנות משמעותית את הצורך או אי־הצורך של ילדים וצעירים ללמוד שפות זרות בכלל ואנגלית בפרט.
זה גם יגדיל מאוד את היקף התוכן שייווצר ברשת, כי כבר לא יהיה צורך בכלל בווידאו מקורי. מלכתחילה הבינה המלאכותית תיקח את הדמות של אותו יוטיובר, את הקול שלו ואת התסריט, ותייצר בעצמה את הסרטון.
כמובן שאז נשאלת השאלה: למה בכלל צריך שיהיה יוטיובר אמיתי מאחורי זה? אבל עוד חזון למועד.
הקו של גוגל: אקסטרה זהירות
שאלה מעניינת נוספת היא האם סביר להניח שיוטיוב וגוגל הן אלה שיובילו את המהלכים שהצגתי כאן. התשובה היא שלא בטוח בכלל. כמו שכתבתי בעבר, בעיניי גוגל עדיין חברה בתרדמת, וזה בא לידי ביטוי בהרבה מאוד חזיתות שבהן היא פועלת.
גם הפיצ'ר שהוזכר בתחילת הטור, שלכאורה מהווה התקדמות, הוא מעט מדי ומאוחר מדי למקום שבו אנחנו נמצאים ב־2023. אם תחשבו על זה, מדובר "בסך־הכול" באופציה להוסיף קבצי אודיו שונים לאותו סרטון.
ביוטיוב היו צריכים לנצל את ההזדמנות כדי להביא בשורה הרבה יותר מתקדמת, ולזוז יותר לכיוון המצב שתיארתי. אולי כבר עם הוספה של כלי Voice Cloning, של תרגום אוטומטי של התסריטים וכו'.
אבל גוגל (חברת־האם של יוטיוב), כמו גוגל, ממשיכה להיות יותר מדי זהירה ולזוז לאט, עקב בצד אגודל. אני מקווה מאוד בשבילם שזה ישתנה, אך אם לא, אני בטוח שתבוא חברה אחרת שתציע את הסוויטה הזו, שבה אתה מעלה סרטון וידאו ומקבל אותו בחזרה מדובב בקול שלך למגוון שפות שונות, תוך סנכרון מושלם לווידאו ולשפתיים וכו'.
במצב כזה, ליוטיוב יישאר רק לאפשר את האופציה להעלות קבצי וידאו שונים לאותו סרטון.
אגב, בעוד לא הרבה זמן הנושא הזה יבוא לידי ביטוי גם בשיחות וידאו, ואולי בעתיד עם משקפי AR גם בשיחות פנים אל פנים - מה שמעלה את התהייה האם עדיין יהיה צורך ללמוד שפות. אבל זה כבר עניין לדיון אחר.
לתשומת לבכם: מערכת גלובס חותרת לשיח מגוון, ענייני ומכבד בהתאם ל
קוד האתי
המופיע
בדו"ח האמון
לפיו אנו פועלים. ביטויי אלימות, גזענות, הסתה או כל שיח בלתי הולם אחר מסוננים בצורה
אוטומטית ולא יפורסמו באתר.