Information Week | 11/01/2012

Big Data: על מה המהומה?

לא חייבים להיות ארגון גדול כדי לכרות תובנות מועילות מנתונים בהיקף נרחב (Big Data) - עם מחשבים והתקני אחסון לא יקרים וטכנולוגיות ענן חדשות יכולים גם ארגונים פחות גדולים ליישם את הטכנולוגיה שעזרה ל- Amazon.com לחולל מהפכה בעולם הקמעונאות

התופעה של נתונים בהיקף נרחב (Big Data) רחוקה מלהיות חדשה. בארגונים גדולים מתמודדים כבר שנים רבות עם מערכי נתונים גדולים - למעשה, כמעט מהיום הראשון בו הומצא המחשב. השינויים היחידים חלו באופן שבו מנסים להתמודד עם נתונים אלה.

עם הירידה במחירים של המחשבים והתקני האחסון החלו בחברות רבות לאחסן כמויות ענק של נתונים ולפצל את עומסי העבודה בין המחשבים כך שכל מחשב יוכל להשלים משימות מסוימות בפרק זמן קצר. ההתפתחויות הטכנולוגיות מאפשרות לאחסן כיום יותר נתונים מאי פעם - והמשימה שנותרה היא להפיק מהם תובנות מועילות.

ענני המיחשוב מייצגים את השלב הבא בהתפתחות של הנתונים בהיקף נרחב. כיום אפשר להפעיל בפקודה בודדת מאות או אלפי מחשבים וירטואליים, לעבד עומסי עבודה גדולים ובתום העבודה להחזיר את המחשבים האלה למאגר המשאבים.

מה מייצג, אם כן, המונח Big Data ומדוע הוא זוכה כיום לפופולאריות כה רבה? ההגדרה החביבה עלי היא שהמונח Big Data מתייחס לכלים ולתהליכים המשמשים לניהול של מערכי נתונים גדולים ולשימוש בהם. ההגדרה כוללת, בין השאר, שימוש בווירטואליזציה, אך לא חייבים להשתמש בטכנולוגיות וירטואליזציה כדי לעבוד עם נתונים בהיקף נרחב. כיום אפשר לאחסן ולעבד במחיר סביר גם נתונים בהיקף של פטה-בתים, והיכולת לעבוד עם Big Data אינה שמורה עוד אך ורק לארגונים גדולים.

חברת גוגל (Google) נחשבת לאשפית של Big Data. מנהל המחקר של גוגל, פיטר נורביג, נוהג לומר שאלגוריתם פשוט שמיושם על מערך גדול של נתונים יעיל הרבה יותר מאלגוריתם מורכב שמיושם על מערך נתונים קטן. אחת הדוגמאות לכך היא הכלי שבעזרתו חוזים בגוגל התפרצות של שפעת עוד לפני שעושים זאת במרכזים לבקרת מגיפות.

על סמך ניתוח של מילות המפתח שמשמשות לחיפוש תרופות לשפעת, או מילות מפתח שמשמשות לציון תסמינים של שפעת, יודעים בגוגל באיזה ערים סובלים תושבים רבים משפעת, ומציינים את התפשטות המגיפה כמעט בזמן אמת. אולם, לא חייבים להיות חברה בקנה מידה של גוגל כדי לעשות שימוש בנתונים בהיקף נרחב.

האם אוספים בחברה שלכם מידע על הלקוחות? האם ניתן לאסוף מידע רב יותר, במיוחד נוכח השימוש הנרחב שנעשה כיום בטלפונים חכמים? המחירים הנמוכים יחסית של התקני האחסון והמחשבים מאפשרים כיום גם לחברה שלכם לאסוף נתונים בסגנון שאיפשר לחברת Amazon.com לחולל מהפכה בעולם הקמעונאות.

כשדנים על Big Data, אי אפשר להימנע מלהזכיר גם את המונח NoSQL. הכוונה, בעיקרון, היא לאחסון נתונים באופן שאינו יחסי, שיטה שמאפשרת לעשות שימוש במקורות רבים של נתונים, ומייתרת את הדרישה שכל הנתונים יתאימו לתקן מסוים.

מי שעובדים עם מערכי נתונים גדולים (או אפילו קטנים), מכירים בדרך כלל מערכים של נתונים מובנים שניגשים אליהם בעזרת גרסה כלשהי של SQL. מסדי נתונים כאלה מאפשרים למצוא בקלות תשובה לשאלות כמו "כמה אנו משלמים לכל האנשים בחברה שקוראים להם ג'ייסון ושלרעייתם קוראים לורה?".
כדי לתת תשובה לשאלה כזו צריך טבלאות שבעמודה אחת מופיעים שמות העובדים בחברה, בעמודה שנייה מצוינת המשכורת של כל עובד ובעמודה השלישית שמן של רעיות העובדים. את הטבלה צריך להגדיר מראש, עוד לפני שמזינים בה נתונים. להגדרה כזאת קוראים סכמה, ובשיטת NoSQL אין צורך בסכמות.

כשאין סכמות, הגמישות רבה יותר, אך יש להשקיע עבודה רבה יותר כדי לתת תשובות לאותן שאלות. צריך לעבור על הנתונים פעמיים - פעם אחת כדי למצוא את כל האנשים שקוראים להם ג'ייסון, ופעם שנייה כדי למצוא את אלה מביניהם שלרעייתם קוראים לורה. אפשר לפצל את העבודה בין כמה מחשבים כדי להאיץ את קצב הביצוע שלה, ובכך מסייעת טכנולוגייית MapReduce. אפשר גם להחליט במועד מאוחר יותר לבדוק את שמות הרעיות, ואין צורך לשנות את הטבלאות לשם כך.

נוכח הפופולאריות הגוברת של המיחשוב הווירטואלי, ובמיוחד של ענני המיחשוב הציבוריים, צצות טכנולוגיות רבות כמו MapReduce, Hadoop ו-Hive. טכנולוגייית MapReduce שמאפשרת לפצל את עומסי העבודה בין שרתים מרובים זכתה לפופולאריות רבה בגוגל ויושמה בתוכנת Hadoop בעלת קוד המקור הפתוח. טכנולוגיית Hive מבוססת על Hadoop ומביאה עמה כמה תפקודי SQL מוכרים.

בשורה התחתונה, בתחום של Big Data מיושמות טכנולוגיות רבות, אך השאלה באיזה טכנולוגיה בוחרים פחות חשובה: מה שחשוב זה מה עושים עם הנתונים.

רוצים לדעת עוד? הרשמו לכנס ה-BIG Date הראשון בישראל שייערך ב-6 למרץ 2012. האירוע מיועד למנהלי פיתוח של חברות ISV המייצאות לחו"ל ולמנהלי מחשוב של ארגונים גדולים בישראל.

Platinum Sponsors

Gold Sponsors

Silver Sponsors

Open Accessibilty Menu