Information Week | 11/01/2012

התקן חדש של EMC מנסה לאחד את הניתוח של Big Data

התקן EMC Greenplum Modular Data Computing Appliance מציע את טכנולוגיות SQL ו-Hadoop במארז בודד - אך האם מדובר בפלטפורמה משולבת אמיתית?

בתחום הניתוח של הנתונים בהיקף נרחב (Big Data) התפתחו שני עולמות נפרדים - עד שלפני מספר חודשים הכריזה חברת EMC על התקני Greenplum, אשר מנסים לאחד בין שני העולמות.

מצד אחד, קיים העולם של הנתונים המובנים שמשובצים בעמודות ובשורות של מסדי הנתונים היחסיים. כשהנפח של מסדי הנתונים היחסיים תופח ועולה על כעשרה טרה-בתים, מגיעה השעה לעיבוד מקבילי מאסיבי, דוגמת זה שמציעים התקני Greenplum של EMC.

מהעבר האחר שוכן העולם של מערכי הנתונים המובנים למחצה, או הבלתי מובנים - נתונים לא אחידים דוגמת רישומי יומן של שרתים, נתונים שמתקבלים מחיישנים, תגובות ברשתות חברתיות ושאר סוגי מידע שמבוססים בעיקר על טקסטים. פרויקט Hadoop, בעל קוד מקור פתוח, הוליד את הפלטפורמה המובילה לחישוב מידע בלתי מובנה (בטכנולוגיית Hadoop אפשר אמנם לעבד גם נתונים מובנים, אך הטכנולוגיה משמשת בעיקר כמחסן לנתונים בנפח גבוה ובעלות נמוכה).

כשהשיקה EMC לפני מספר חודשים את התקן Greenplum Modular Data Computing Appliance (DCA) היא הבטיחה לאחד בין שני העולמות הנפרדים לכאורה. בהשקת ההתקן קיימה EMC את ההבטחה מחודש מאי האחרון, כשהשיקה את הפצות Greenplum HD Community ו- Enterprise של טכנולוגיית Hadoop, להציע גם התקן Hadoop.

מהדורת Community של Greenplum כוללת את Hadoop MapReduce, מערכת קבצים מבוזרת HDFS, כלי שאילתות Apache Hive, מחסן נתונים מבוסס עמודות HBase, וכלי ZooKeeper להגדרת אשכולות. מהדורת Enterprise כוללת גם מאפיינים קניינים לביצוע תצלומי מצב (snapshotting) ושעתוק של אשכולות Hadoop וכן יכולות של ניהול מערכת.

התקן DCA הוא למעשה מארז אחד שתומך ביישומי מסד (quarter-rack) מרובים שניתן לשלב ביניהם, להתאים ולהרחיב. אפשר להתחיל עם רכיב סטנדרטי של Greenplum Database Module לצורך ניתוח SQL ולאחר מכן להוסיף רכיב של Greenplum HD כדי להפעיל את גרסת  Hadoop של EMC. רכיבים נוספים כוללים את Greenplum Database High Capacity Module שמציע נפח אחסון גבוה יותר, או רכיב Greenplum Data Integration Accelerator לאירוח של יישומים מתוצרת חברות שמשתפות פעולה עם EMC, דוגמת יישומי חיזוי של SAS או תוכנת Informatica לשילוב נתונים.

הגישה המודולארית של EMC מסייעת להרחיב את המודולים השונים ולהגיע עד לשישה מסדים מלאים. על פי EMC חוסכת גישה כזו הוצאות משום שהיא מייתרת את הצורך בפלטפורמות חומרה נפרדות, היא מסייעת להפיק תובנות בקצב מהיר יותר ומצמצמת את דרישות האחסון. בגישה זו אין צורך ליצור נתונים ולאחסן אותם בסביבה אחת, ואחר כך להעתיק ולהעביר אותם לסביבה אחרת.

למרות שב- EMC משתמשים במונחים כמו "עיבוד משותף" או "נישואין" בין המודולים השונים של SQL ו- Hadoop בהתקן מודולארי אחד, הרי שנראה כי ההרמוניה עדיין אינה מושלמת. לפי שעה, חולקים המודולים השונים של SQL ו-Hadoop בניטור המערכת, בניהול ובהקצאה. אפשר להשתמש באותה תוכנה כדי להקצות נפח לכל אחת מהסביבות, לעקוב אחר הניצולת של משאבי החומרה ותקלות דיסק, ולהפיק התראות במקרה של תקלות בניהול החומרה.

אולם, עדיין לא אוחדו בהתקן הניהול בפועל של הנתונים ושטף העבודה. מרבית הלקוחות הפוטנציאליים מעסיקים מומחי SQL שיכולים להשתמש במודולים של מסדי הנתונים וביישומי ניתוח שמבוססים על SQL. התקנה של Hadoop מחייבת להסתייע במומחים שמכירים כלי Hadoop לניהול נתונים.

החזון של EMC לטווח הארוך מדבר על איחוד נוסף של ניהול הנתונים ושילוב של שטפי העבודה בין הסביבות של SQL ו-Hadoop. אולם, לא ברור מתי זה יקרה ועד כמה חוויית העבודה אכן תהיה אחידה. פלטפורמות רבות של מחסני נתונים שמבוססות על SQL מציעות כיום שילוב של Hadoop ברמה כזו או אחרת. במקרים רבים מועברות גם משימות מ- Hadoopל-SQL לצורך המשך הניתוח בכלים שמוכרים למומחים רבים שעוסקים בניהול נתונים.

קשה להימנע מהחשש שהשילוב של SQL ו-Hadoop במארז אחד יהיה בבחינת ניצחון פירוס, אלא אם תצליח EMC לטשטש את הגבולות בין עיבוד הנתונים וניתוחם בשתי הסביבות. יצוין שחברת Aster Data, שנרכשה לפני שנתיים על ידי Teradata, הצליחה במשימה דומה ומציעה יכולות של SQL-MapReduce. אולם, את התחרות האמיתית מציבות סביבות עצמאיות של Hadoop.

"השותפים שלנו שמבצעים עבודות מתקדמות בנתונים - חברות כמו comScore, Equifax, Acxiom ועוד - הביעו עניין רב בפלטפורמה החדשה על מנת להמחיש את מוצרי הנתונים שלהן ביישומים חדשים" אמר לוק לונרגן, ממייסדי Greenplum ומנהל הטכנולוגיה הראשי בחטיבה של EMC למיחשוב נתונים.

רוצים לדעת עוד? הרשמו לכנס ה-BIG Date הראשון בישראל שייערך ב-6 למרץ 2012. האירוע מיועד למנהלי פיתוח של חברות ISV המייצאות לחו"ל ולמנהלי מחשוב של ארגונים גדולים בישראל.

חסותPlatinum Sponsors

חסותGold Sponsors

חסותSilver Sponsors

Accessibility