Connect with us

VMWare

Big Data and VMware

Published

on

Big Data and VMware

يعتبر هذا المقال من المقالات التى كنت احب ان اكتبة منذعدة شهور وتحديدا بعد الاعلان عن الاصدار الجديد VMware 5.5

والاعلان عن اسماء وتكنولوجيات غريبة كاضافات لل vSphere 5.5 وكان من ضمنها تطبيق يطلق علية Big Data

فى البداية لم اهتم بالتطبيق الجديد لانى لم اجد له مصادر كافية للتعرف علية حتى عند الشركة المنتجة له وانشغلت باشياء اهم منة خلال هذة الفترة

لكن الذى اعادنى للتفكير فى هذا التطبيق ليس VMware  وانما تكنولوجيا ال Big Data  فى حد ذاتها لانها تعتبر ثورة فى التكنولوجيا

وتكنولوجيا غائبة عنا ومجهولة للغالبية العظمى منا كمهندسين وحتى لمسئولى قواعد بيانات فى شركات كبيرة لم يسمعوا عن هذة التكنولوجيا

ومن اهمية هذة التكنولوجيا وقلة المعلومات عنها باللغة العربية احببت ان اعرفكم بها بنبذة بسيطة وسطحية لانى لست متخصص فيها ولكن على أمل ان يؤثر هذا الموضوع فى مهندسينا ويكون دفعة ولو بسيطة لهم بالبحث وتعلم هذة التكنولوجيا

لذلك فى مقالنا هذا سوف نعرف اولا بتكنولوجيا ال Big Data  وبعد ذلك نرى ما هى علاقتها ب VMware

 h1

اولا : ما هى تكنولوجيا ال Big Data  ؟

للاجابة عن هذا السؤال البسيط سوف نسال بعضنا البعض الاسئلة ونستعرض بعض القواعد المعروفة فى قواعد البيانات لكى نستطيع استيعاب معنى ال Big Data

كلنا لدينا Data  خاصة بشركتنا باختلاف مجالها وحجمها هذة الداتا عبارة عن بيانات ولكى نستطيع ان نفهم هذة Data تحتاج اللى تنظيم لكى نستطيع ان نستخلص منها information  ومن هذة المعلومات يصبح لدينا Knowledge

 data_stack

وهذا صورة لمراحل الداتا لدينا

كل الداتا فى العالم تمر على هذة المراحل للاستفادة منها والا تصبح داتا ليس لها اى قيمة ومهملة

لو تصورنا هذة الفكرة فى شركات ضحمة مثل Google , Yahoo and Facebook  لديهم كمية داتا خرافية ويضاف اليها كميات ضخمة كل دقيقة

ويحب ان تقوم هذة الشركات بتصنيف هذة الداتا وتنسيقها لعرضها بشكل صحيح وبسيط للمستخدمين

على سبيل المثال جوجل لديه مليارات الصفحات يقوم بتجميعها وتحليل محتواها وتنسيقة وربطة بكلمات معينة لكى يكون جاهز لاى عملية بحث

تصوروا هذا العمل الضخم لان هذة الداتا حجمها خرافى كل يوم – فمثلا الانترنت ينموا كل يوم باحجام ضخمة تصل الى الف تيرا يوميا والارقام تتزايد كل يوم

وحتى بعيدا عن الانترنت فى الشركات والمراكز البحثية والفلك كلها لديها حجم داتا رهيب وتتزايد كل يوم هذة الداتا ولا يستطيعون ان يستفادوا منها الا بعد التحليل

لذلك وجد اننا فى حاجة الى تطبيق قوى يقوم بعملية تحليل لهذة الكمية الخرافية من الداتا خلال وقت معقول واتاحتها لنا بشكل بسيط وسهل للاستفادة منها

ويعرفون مصطلح ال Big Data  انة عبارة عن تحليل وتنسيق داتا لا تستطيع ان تقوم بتنظيمها باستخدام تطبيقات قواعد البيانات المتعارف عليها فى وقت معقول

هنا يوجد تعريفات كثيرة فى العديد من المقالات وقياسات لاعتبار هذة الداتا تصنف على انها Big Data  مثل مقياس ال  Three VS

لكنى لا اريد ان نتعمق جدا فى المفاهيم الفنية لهذة الموضوع لان هدف المقال هو تعريف للتكنولوجيا فقط وبشكل بسيط

تكنولوجيا ال  Big Data تعتبر حديثة ولم يتم البدء فى عملها الى فى عام 2005 من خلال اتنين من المهندسين العاملين فى شركة ياهو فى ذلك الوقت

وسموا هذا المشروع باسم Hadoop  ومازال اسمة حتى الان بهذا الاسم ( جاء هذا الاسم من لعبة على شكل فيل كان يلعب بها احد ابناء احد المطورين لهذا التطبيق – وحتى الان شعارة على شكل فيل )

هذا المشروع مكتوب بلغة جافا بشكل اساسى وهو مفتوح المصدر ومتاح لكل الشركات وتتم رعايتة من قبل منظمة Apache  المعروفة للمصادر المفتوحة

لذلك نجد كل شركات تكنولوجيا المعلومات الكبيرة قامت باخذ نسخ منة وقامت بالعمل عليها لحسابها ولدينا الان العديد من التوزيعات لهذة التطبيق تحت عدة مسميات مثل ال MapReduce –  Hive – Pig

وايضا مشروع VMware Serengeti

حاليا جوجل وياهو ولينكدان وتوتير وفيس بوك وغيرها حتى الشركات الغير متخصصة فى ال IT  تستخدم هذة التكنولوجيات مثل شركات طيران وشركات بيع تجزئة كبيرة

وحتى حكومات مثل نظام الرعاية الصحية فى امريكا ومشروع سيون الاوربى لابحات نشاة الكون ومشروع تحليل ال DNA  البشرى وغيرها الكثير

حتى الان الموضوع جميل اننا امام تكنولوجيا تقوم بعمل تحليل وتنظيم كمية داتا ضحمة للاستفادة منها لكن ما الذى يميز هذة التكنولوجيا عن غيرها او بمعنى ادق كيف تعمل

هكون صريح معكم لانى لست متخصص فى عمليات قواعد البيانات واعتبر نفسى مستخدم بسيط لها فسوف يكون توضيح طريقة عملها بشكل بسيط على قدر فهمى لها

يكمن سر نجاح هذة التكنولوجيا فى اسلوب عملها

لان اسلوب علمها انك تقوم بتوزيع كميه الداتا الضخمة هذة على العديد من السيرفرات التى تعمل بنفس تطبيق تحليل المعلومات Hadoop  وهو يقوم بعمل Node على كل سيرفر لدية ويقوم بتوزيع كمية معينة من الداتا على كل سيرفر وكل سيرفر يقوم بتحليل الداتا الموكلة الية ويقوم بارسالها الى التطبيق مرة اخرى فى شكل معلومات منظمة ومفهرسة ويقوم التطبيق بتجميعها من كل ال Nodes  وتجميعها فى مكان واحد للمعلومات

هذا الاسلوب الرائع لا يمكن عملة من خلال قواعد البيات العادية لدينا مثل SAP or Oracle or SQL  لانها لو قمنا بتوزيع الداتا على عدة سيرفرات كل سيرفر سوف يظهر نتائج الداتا الخاصة به منفصلة عن السيرفر الاخر ولا نستفيد من كل الداتا مرة واحدة

لذلك هذا الاسلوب قد نجح جدا مع الشركات الكبيرة بشكل رائع وكل العالم يتجة له الان ويوجد شركات اصبحت متخصصة فى تقديم هذة الحلول للشركات المتوسطة الغير متخصصة لتحليل الداتا الخاصة بها والاستفادة منها

ويوجد طلب كبير على المتخصصين فى هذة التكنولوجيا فى الخارج وقريبا سوف نرى لها مستخدمين فى عالمنا العربى ففرصة للمهتمين ان يقوموا بتعلم هذة التكنولوجيا من الان

وتقدم هذة التكنولوجيا الان باسلوب ال Cloud Computing  عند شركة مثل Amazon AWS  تقوم باعطائك العديد من السيرفرات التى يعمل عليها ال Hadoop  بتوزيعها تختارها مناسبة لك لفترة زمنية معينه تقوم خلالها بتحليل كمية الداتا الضخمة لديك واخذ النتائج وتوقيف الخدمة

لكن اطيل اكثر من هذا فى هذا الموضوع لكى اتيح للمتخصصين ان يقوموا بالكتابة عنة اكثر وتعريف الناس به . لان هدفى هنا هو تعريف هذة التكنولوجيا للجميع لبدء الخطوة الاولى فى البحث لانى فى النهاية لست متخصص فى هذة التكنولوجيا ولن اكون متخصص فيها لانها بعيد عن مجالى الحالى – لذلك لو كان يوجد اى اخطا فى تعريف هذا التكنولوجيا فاعذرونى فقد حاولت بقدر الاستطاعة فهمها من خلال العديد من المقالات _ واتمنى ان ارى مقالات عربية وكورسات تشرح هذة التكنولوجيا قريبا

ثانيا : ما علاقة شركة VMware بتكنولوجيا ال Big Data ؟

من المعروف ان شركة VMware  ليست من الشركات المتخصصة فى الداتا وليس لها تطبيقات تقوم بذلك

هوضح فى السطور التالية علاقتهم ببعض

كما قلت فى الاعلى ان كل الشركات دخلت سوق ال Big Data  لكى تاخذ حصة فية وطبعا منهم شركة VMware  ولية لا

لكن طبعا شركة VMware  عملت شئ لتقديم هذا التكنولوجيا من خلال شئ هى ناجحة فية وهو ال VM

فقامت بعمل مشروع يسمى Serengeti هذا المشروع هو عبارة ان Virtual Machine  تحتوى على عدة توزيعها من تطبيقات ال Hadoop , Hive  وغيرها وتقوم بتقديم لك هذة ال Virtual Machine  بشكل جاهز وبداخلها نظام تشغيل ومعدة للعمل بشكل مسبق

h5

لن تحتاج الا ان تقوم باختيار التوزيعة وعدد ال VM  وحجم الرامات والبروسيسور فى كل VM  وسوف يقوم البرنامج بعمل لك عدة نسخ من هذة ال VM  طبقا للعدد المطلوب وبنفس الحجم من الرامات والبرسيسور وبذلك يكون لديك خلال دقائق تطبيق ال Hadoop  جاهز بدون ما يكون عندك دراية بكيفة اعدادة وايضا قام بعمل لك العديد من ال Node  لتوزيع الداتا المراد تحليلها على العديد من السيرفرات لديك لتحليلها والوصول للنتائج خلال اقل فترة زمنية ممكنة

طبعا هتستفاد هنا من الكلاستر وال DRS وغيرها من خدمات VMware

vmw-dgrm-vsphere-bde-deployment-lg

هذا التطبيق متاح حاليا من الاصدار vSphere 5.5  ويعمل فقط من خلال ال Web Client  ويمكن تجربتة لمدة 60 يوم بشكل مجانى

لكن بالطبع سوف تحتاج الى بعض المعرفة بكيفية تشتغيل تطبيق ال Hadoop  لان VMware  تقوم بتقديمة فقط

واليكم بعض اللينكات له وبعض الكتب المجانية له والفيديو ايضا

http://www.vmware.com/products/vsphere/features-big-data

http://www.vmware.com/products/big-data-extensions

https://www.youtube.com/watch?v=FL_PXZJZUYg

https://www.youtube.com/watch?v=KMG1QlS6yag

فى النهاية ارجو الا اكون قد اطلت عليكم لكن احببت ان اعرفكم بهذة التكنولوجيا الغائبة عن الكثيرين والتى سوف يكون لها مستقبل قوى للغاية

وبالتوفيق للجميع

Continue Reading
4 تعليقات

4 Comments

  1. كمال

    1 يونيو، 2014 at 7:22 م

    شكرا لك يا أستاذنا

  2. Shady Khattab

    2 يونيو، 2014 at 1:12 م

    Welcome to the future,
    It is very nice article , i would like to add to hadoop Cloudera & Mongo DB, Riak , No SQL..& they are also supported by one of the biggest cloud provider that IBM bought is called Soft Layer

  3. Mohamed Magdy

    29 يوليو، 2014 at 5:58 م

    فيه كورس مجانى للـ Big Data على موقع Rackspace و بالأخص فى الـ CloudU للتعريف بتكنولوجيا الـ Big Data وكيفية استخدامها

Leave a Reply

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *