מה משותף לטלפונים ניידים, מכשירים רפואיים, מצלמות, טוויטר, פייסבוק, רשתות חברתיות מבוססות מיקום וטוקבקים? כולם מייצרים מידע בהיקפים עצומים. המספרים כמעט מפחידים - ב-IDC העריכו לאחרונה כי היקף המידע בעולם יכפיל את עצמו פי 15 לערך ל-35 זטה-בייט (zettabytes) עד לשנת 2020 לעומת 1.8 zettabytes ב-2011. לשם הפרופרציות, ה-zettabytes הוא יחידת מידע ששקולה למיליארד טרה-בייט.
בעולם מערכות המידע לא היו מתפעלים יותר מדי מההיקפים האלו - שלא לחינם מוגדרים כנתונים גדולים, Big Data - אלא שיש דבר נוסף לגבי המידע הזה: עולם הטכנולוגיה לא חשב לטפל בו לפני עשור, או לפחות לא היה יכול לעשות זאת בעלויות סבירות. מבחינה טכנית מדובר בנתונים שלא זמינים למערכות התפעוליות של הארגון, שבהן מבוצעות פעולות של ניתוח והסקת המסקנות.
לעיבוד של נתונים כה רבים יש משמעות עסקית דרמטית. שימוש נכון בנתונים, באמצעים של כלי תוכנה ארגוניים לניתוח והצגה, יכול להשפיע באופן דרמטי על מגוון תחומים, לרבות יכולות שיווק, טיפול רפואי, ניהול תקלות, לוגיסטיקה ארגונית ועוד. העידן החדש צפוי לייצר גם מקומות עבודה חדשים בארגונים גדולים, כגון מדעני מידע, Data Scientists, שאמורים לייצר את הפלטפורמה האנליטית של הנתונים.
"העידן של ה-Big Data הגיע", אמר אתמול ג'ו טוצ'י, מנכ"ל ענקית האחסון EMC, שנאם בכנס אורקל בסן פרנסיסקו. טוצ'י הוסיף כי "שוק מערכות המידע הארגוניות (IT) יהיה מקום נהדר להיות בו בעשור הקרוב". בנק ההשקעות מריל לינץ' פרסם הערכה שמסבירה עד כמה עידן ה- Big Data צפוי להיות נהדר. במריל העריכו בסוף 2010 שהשוק הזה יעיר את שוק בסיסי הנתונים הרדום וישלש את שוויו ל-64 מיליארד דולר בשנה.
מבחינה פרקטית, הנרטיב של "הנתונים הגדולים", הוא להפוך את הנתונים האלו לזמינים עבור הארגון בזמן אמת ולא להסתפק בשמירתם על מערכות האחסון. הגישה הזו דורשת חשיבה טכנית מחודשת ביחס לגישה ועיבוד של נתונים. התוכנה והחומרה שטיפלו בעיבוד המידע הארגוני עד לאחרונה לא נבנו כדי להתמודד עם ההיקפים, מהירות הגידול וסוגי הנתונים החדשים.
"אף אחד לא ממש בטוח מה זה"
סדרי הגודל העצומים שבהם מדובר לא מחפים על כך שהתחום שרוי בערפל סמיך של חוסר ודאות. "כולם מדברים על זה אבל אף אחד לא ממש בטוח מה זה", אמר אתמול אנדי מנדלסון, סגן נשיא בכיר באורקל, בפתח המצגת שלו בנושא ה-Big Data בכנס.
לא מעט סיסמאות כאלו בעבר - בהן Web 2.0, כלכלה חדשה ומחשוב ענן - עוררו התרגשות גדולה, הייפ, בתחום המחשוב והתקשורת. לפחות בחלק מהמקרים ההתלהבות התפוגגה, לא לפני ששרפה סכומים גדולים.
אורקל הצטרפה אמש רשמית לעידן ה-Big Data לאחר תקופה ארוכה של ספקולציות בנושא. החברה השיקה מערכת שמשלבת חומרה ותוכנה ומיועדת לטיפול בנתונים גדולים.
אורקל לא נכנסת לוואקום. השינוי ביחסי הכוחות בין בסיסי הנתונים הארגוניים ומערכות האחסון משך את תשומת הלב של ענקיות האחסון מצד אחד, וחברות התוכנה הארגוניות מצד שני. EMC לדוגמא רכשה השנה את Isilon ואת Greenpulm לצורך כך, IBM קנתה את Netezza, SAP ומיקרוסופט הכינו פתרונות משלהן.
ההיסטוריה של הטיפול בנתונים גדולים היא אומנם רק בת עשור, אך בתקופה הזו חלו שינויים רבים. באופן לא מפתיע, הגישה של ענקיות המחשוב לטיפול באתגר כוללת הנגשת כלים שכבר שנים ארוכות משמשים את ענקיות האינטרנט לצרכים פנימיים.
רוב השימוש שנעשה בטכנולוגיות בתחום - ובעיקר בסביבת פיתוח וניהול קבצים בשם Hadoop שמבוססת על קוד פתוח ומייעלת את הגישה לנתונים האלו - נעשה למשל בגוגל, יאהו אמזון, או פייסבוק. חברות האינטרנט מתמודדות כבר תקופה ארוכה עם היקפי נתונים שכאלו - לדוגמא במנועי החיפוש - הרבה לפני ש-IBM, מיקרוסופט ואורקל נכנסו לתחום.
דוגמא ישראלית מעניינת היא חברת קונדואיט, שנעזרת ב-Hadoop לצורך סריקת ההיפקים העצומים של תוצאות החיפוש עבור הפרסום בסרגלי הכלים שהיא מספקת. בניגוד ל-SQL, שמשמשת כשפה הרשמית בבסיסי הנתונים הסטנדרטיים ומנתחת טבלאות ופרמטרים במבנה קבוע, הטיפול בנתונים הגדולים קיבל את ההגדרה של NoSQL. מדובר בניתוח של נתונים שגדלים במהירות, במבנה לא קבוע, על-ידי שפת תוכנה בסיסית.
"זה אתגר גדול"
ההכרזה של אורקל משתלבת במגמה של החברות הגדולות - לקרב את ה-Hadoop לשימוש המוני במסגרות הארגוניות. "זה אתגר גדול", אמר מנדלסון, "אבל בשנים הקרובות נראה המון אנשים שמנסים להפוך את הטכנולוגיה לשימושית יותר". עמידה באתגר תהפוך את ה-Hadoop מטכנולוגיית נישה, שדורשת התמחות ספציפית ורלוונטית למקצוענים שנמצאים עמוק במרתפי המו"פ של גוגל ופייסבוק, ליישום שמתאים למיינסטרים של מערכות המידע.
הכותב הוא אורח אורקל בוועידה
לתשומת לבכם: מערכת גלובס חותרת לשיח מגוון, ענייני ומכבד בהתאם ל
קוד האתי
המופיע
בדו"ח האמון
לפיו אנו פועלים. ביטויי אלימות, גזענות, הסתה או כל שיח בלתי הולם אחר מסוננים בצורה
אוטומטית ולא יפורסמו באתר.