Big Data - 05.03.12, Avenue Convention Center, Airport City, Israel

אבנר פרנק | 11/12/2011

ד"ר איה סופר, מעבדות יבמ ישראל: "האתגר הבא - ניהול של מידע בלתי בטוח"

"האתגר הבא של אנשי הפיתוח, כמו גם של המשתמשים במערכות המיחשוב האנליטי ובמיחשוב בכלל, נוגע ל-'ניהול של מידע בלתי בטוח", כך אמרה ד"ר איה סופר, מנהלת תחום הניתוח האנליטי בניהול נתונים בחטיבת המחקר של יבמ (IBM) העולמית.

הבעיה בעידן התפוצצות הנתונים נוגעת לאיכות הנתונים האלה: רוב המידע הנאסף עלול להיות לא נכון או חסר ערך. כאן נכנסות למשוואה שאלת זהות המקור האנושי של המידע, מספר החזרות עליו וזהות החוזרים. הדור הבא של הכלים האנליטיים, שעל פיתוחו שוקדים אנשי המחלקה של ד"ר סופר, מיועד לתת תשובות לבעיות האלה.

ד"ר סופר הציגה במהלך הכנס של קבוצת התוכנה שלה, שנערך בלאס ווגאס, את ההתפתחויות החדשות בחזית הטכנולוגיה בזירת המיחשוב האנליטי. היא החלה את עבודתה בתחום במעבדות המחקר של יבמ בחיפה, והינה המנהלת הראשונה שאינה אמריקאית הזוכה למינוי גלובלי שכזה. במסגרתו היא אחראית על פעילותם של מאות חוקרים מכל העולם, בין היתר מארצות הברית, סין, יפן והודו. ד"ר סופר משמשת בנוסף כמנהלת מחלקת המידע והאינטראקציה במעבדת יבמ שבחיפה. שם היא אחראית על כ-100 חוקרים שעובדים על מודל התממשקות המידע במסגרת ה-Big Data.

בשיחה שנערכה איתה במהלך הכנס הזכירה ד"ר סופר שמודל ה-Big Data החל למעשה בחברות האינטרנט הגדולות, למשלגוגל (Google). "אותן חברות מייצרות ומנהלות כמויות אדירות של נתונים, ועל מנת להפיק תובנות מהמידע הזה - מודל החישוב הקיים אינו מספק", אמרה. "בחלק מהמקרים מדובר בנתונים שהחברה לא רוצה בכלל לשמור במחסן נתונים. כמו כן, בחלקו, המידע אינו טבלאי במהותו, וגם כשהוא כן טבלאי - לא ניתן לבצע ניתוח רציני ומועיל שלו".

מודל שפותח תחילה בגוגל מציג מערכות של מחשבים ודיסקים ומערכת קבצים שמפזרת את הנתונים על גבי המכונות ותפיסת מיחשוב שמאפשרת ניתוח מקבילי של המידע הזה. הרעיון הוא לקחת אלגוריתם ולבזר אותו בעזרת שבירת הבעיה בין המכשירים השונים, ולאחר מכן לאחד את התוצאות. אין צורך להתעסק עם מפתוח בהיקף משמעותי. כמו כן, אין צורך באינדקס, מאחר שמדובר בהפעלת חישוב על הנתונים כמו שהם ולאחר מכן מעבר למקבץ הנתונים הבא, מבלי לשמור את אלה שכבר השתמשו בהם. בדרך כלל, מדובר בנתונים שאינם בפורמט מובנה - ובראש ובראשונה בטקסטים מסוגים שונים, בין אם כתובים, מדוברים או כחלק מווידיאו.

"מה שטוב ל-ווב מתאים גם לארגונים גדולים"

ככל שיותר ויותר חברות צוברות תוכן בלתי מובנה וככל שגדלות כמויות המידע בווב החשוב לארגונים, אימצו לקוחות של יבמ, כמו גם אנשי הפיתוח שלה עצמה, את הטכנולוגיות הללו. "מה שטוב ל-ווב מתאים גם לארגונים גדולים", אמרה ד"ר סופר. "ארגונים בתחומים דוגמת תעשיית שירותי הבריאות, מוקדי שירות לקוחות וארכיונים יושבים על כמויות עצומות של מידע, אבל לא משתמשים בו בפועל".

לצד יבמ, ובמענה לביקוש הגואה בשוק, הודיעו באחרונה אורקל (Oracle) ומיקרוסופט (Microsoft) על כניסה לתחום ה-Big Data. ההכרזה של מיקרוסופט משמעותית במיוחד, בשל החלטתה לזנוח לגמרי את הפיתוח העצמאי שלה לטובת שימוש בשרתי Hadoop. כאן המקום לציין שיבמ החליטה לממש את הגישה הזאת כבר לפני שלוש שנים. כמו כן, יצוין שגם התפיסה של יבמ ליישום פתרונות ה-Big Data שלה מבוססת על שרת Hadoop. בנוסף, היא משתמשת בקוד פתוח של תפיסת הביזור והאיחוד של בעיות ניתוח מידע, כפי שיושמה בראשונה בגוגל. השימוש בתשתיות קוד פתוח בתחום זה משחזר את המהלכים שאותם ביצעה יבמ בעבר, כאשר אימצה טכנולוגיות קוד פתוח כתשתית לשרתי היישומים WebSphere, כמו גם לסביבת הפיתוח של רשיונל עם כלי Eclipse. בכל המקרים מוסיפה יבמ שכבות משלה שמבטיחות את התאמת הכלים הפתוחים האלה לסביבה הארגונית. במקרה של העיבוד האנליטי, בונים המפתחים ביבמ מעל Hadoop שכבות אנליזה חכמה בעזרת כלי ג'אווה (Java).

יבמ משתמשת בפיתוח עצמי שלה לניהול ספריות כלי הפיתוח לניתוח טקסט, באופן שמאפשר לזהות שמות וישויות ולהפעיל מערכות למידת מכונה, בניית תצורת אשכול ופתרונות המשלבים את מכלול הכלים הללו. חלק ניכר ממאמץ הפיתוח הזה מתבצע במעבדות המחקר של יבמ בחיפה, אצל ד"ר סופר. במעבדות הללו מתמקדים בעיקר בפיתוח פתרונות לניתוח אנליטי של לקוחות, על פי מאפיינים שונים של מידע המתקבל בחלקו מתוך מדיה חברתית. מערכת בניית הפרופילים שפותחה במעבדות בחיפה מאפשרת שימושים שונים, החל משימור לקוחות דרך גיוס לקוחות חדשים וכלה בהרחבת מכירות.

"העולם עובר מפילוח על פי קבוצות להתייחסות לפרט הבודד", ציינה ד"ר סופר. "כמות המידע שניתן לשלוף אודות אנשים רק מתוך מה שהם עצמם כותבים בפייסבוק (Facebook) היא עצומה. בדומה לכך, ניתן להפיק מידע נרחב מניתוח עיתונות מקוונת. הטכנולוגיה אף מאפשרת להבין מאמרים או ציוצים בטוויטר (Twitter) ולנתב את המידע למי שמתעניין בו".

יצוין, כי הטכנולוגיה שפותחה במעבדות יבמ בחיפה מוצאת את דרכה למגוון רחב של מוצרים המוצעים ללקוחות הענק הכחול. כך, למשל, CognosConsuner Insight, שלפיתוחו תרמו המעבדות בארץ, מנתחת קמפיינים שיווקיים ומנהלת אותם על בסיס התבטאויות של קהל היעד והחברים הקשורים אליו במדיה החברתית.

ד"ר סופר אף דיברה על Big Fast Data - ניתוח מידע במהירות הזרימה שלו, קרוב ככל האפשר לזמן אמת וללא שמירה של הנתונים הגולמיים. כך, למשל, המידע שמתקבל מחיישנים ביחידות טיפול נמרץ מחייב ניתוח בזמן אמת. ניתוח שכזה מאפשר לבנות מודל של התנהלות תקינה וסטייה מהנורמה ברגע שבו היא נרשמת בראשונה. בדומה לכך, ניתן לבצע ניתוח בזמן אמת בתחום הטלקום, שבו בוחנים שיטות לאפיון תחומי העניין של המשתמש על בסיס האתרים שבהם הוא גולש.

במסגרת ההיערכות לעידן האנליטי פוצלה קבוצת התוכנה של יבמ בין תחום התשתיות ובין תחום הפתרונות. מצד אחד, נערכים ביבמ להציע מוצרים ושירותים לחברות הזקוקות לתשתיות שעליהן הן יפתחו בעצמן את היישומים שלהן. מצד שני, יש המעוניינים בפתרון יישומי מקיף - וכאן מתמקדת יבמ בעולם השיווק בעזרת כלי ניתוח אנליטי. אחת הרכישות המרכזיות של יבמ בזירה הזאת הייתה של חברת קורמריטקס ומוצריה, שמספקים לבעלי אתרים מידע מקיף אודות דפוסי ההתנהלות של המבקרים באתר. הטכנולוגיה של קורמטריקס כבר משולבת בסל הפתרונות של יבמ לתחום המסחר החכם, שהוצגו בכנס.

רוצים לדעת עוד? הרשמו לכנס ה-BIG Date הראשון בישראל שייערך ב-6 למרץ 2012. האירוע מיועד למנהלי פיתוח של חברות ISV המייצאות לחו"ל ולמנהלי מחשוב של ארגונים גדולים בישראל.

שני, 5 במרץ 2012

Avenue Convention Center, Airport City, Israel

ד"ר איה סופר, מעבדות יבמ ישראל: "האתגר הבא - ניהול של מידע בלתי בטוח"

שתפו ברשת