ما هي البيانات الضخمة big data وما هو استخدامها؟

 ما هي البيانات الضخمة وما هو استخدامها؟

ما هي البيانات الضخمة big data وما هو استخدامها؟


يمكن أن تساعد تقنية البيانات الضخمة في العصر الرقمي اليوم في تحليل البيانات الشاملة والاستفادة منها.  في هذه المقالة، سنرى ماهية البيانات الضخمة، وما هي خصائصها، وكيف يتم تقسيمها إلى عدة فئات، وما هي التقنيات المرتبطة بها، وما هي التطبيقات التي تمتلكها.

ما هي البيانات الضخمة؟

في مجتمع اليوم، يتم إنشاء حجم كبير من البيانات يوميًا ويزداد حجم بيانات الإنتاج لحظة بلحظة. من المؤكد أنه مع الزيادة الهائلة في عدد الأنظمة والأجهزة الرقمية والتوسع في استخدام التقنيات مثل إنترنت الأشياء والذكاء الاصطناعي، سنواجه تسوناميًا هائلاً من البيانات في جميع المجالات الرقمية في المستقبل.


على الرغم من الاستفادة من البيانات المختلفة، فمن الممكن المساعدة في اتخاذ قرارات أفضل، واعتماد الأساليب والحلول المناسبة، وكذلك تحسين أداء الأعمال والصناعات المختلفة، ولكن من أجل تحقيق هذا الهدف، يجب معالجة البيانات بشكل صحيح و تحليلها. بالتأكيد، في المستقبل، لن تكون الطرق القديمة أو حتى الأساليب الشائعة الحالية كافية لمعالجة وتحليل كميات كبيرة من البيانات. هذا هو المكان الذي تأتي فيه البيانات الضخمة لمساعدتنا.


تُستخدم كلمة البيانات الضخمة لتحديد البيانات غير المعالجة الشاملة والمعقدة. تعتبر معالجة البيانات الضخمة باستخدام الأدوات الشائعة اليوم أمرًا صعبًا وتستغرق وقتًا طويلاً بالطبع؛ ولكن قبل أن نشرح المزيد عن هذا المفهوم، دعونا نرى البيانات التي تسمى البيانات الضخمة أو BIG DATA.


خصائص البيانات الضخمة


البيانات الضخمة لها ست خصائص، بما في ذلك ما يلي:


  1. الحجم Volume: وهي التي تتعلق بالحجم الكبير من البيج داتا التي ننتجها في كل لحظة.
  2. مجموعة متنوعة (Variety): تجعل هذه الميزة عملية تحليل البيانات الضخمة صعبة
  3. سرعة عالية في الإنتاج (Velocity): يتم إنتاج البيانات الضخمة بسرعة عالية، وبطبيعة الحال، يجب تحليلها ومعالجتها بسرعة عالية.
  4. التقلبات: بعض البيانات ليست ثابتة على الإطلاق وتتغير باستمرار. بالطبع، معالجة هذه البيانات وإدارتها أمر صعب ويتطلب حلولاً فعالة.
  5. قابلية الاستخدام في مختلف المجالات (Veracity): يمكن استخدام البيانات الضخمة في مجموعة واسعة من المجالات المختلفة؛ لذلك، فهي دقيقة للغاية.
  6. التعقيد: في بعض الحالات، تكون البيانات الضخمة معقدة للغاية وتعتبر معالجتها عملية معقدة للغاية؛ خاصة إذا تم جمعها من عدة مصادر مختلفة.

تصنيف البيانات الضخمة


الآن بعد أن عرفنا ما هي البيانات الضخمة، دعنا نتعرف على فئاتها. البيانات الضخمة مقسمة إلى ثلاث فئات. الفئة الأولى هي البيانات المنظمة (البيانات الضخمة المنظمة) التي يمكن تخزينها في شكل مجموعات بيانات (مجموعات بيانات) بطريقة منظمة (على سبيل المثال، في أعمدة وصفوف محددة) في قواعد البيانات وجداول البيانات. قراءة هذه المعلومات ومعالجتها مهمة بسيطة للأدوات التقليدية المصممة لهذا الغرض.


تعد المعلومات مثل الأسماء والبيانات والعناوين وأرقام البطاقات المصرفية ومعلومات المخزون والموقع الجغرافي أمثلة على البيانات الضخمة المنظمة.


الفئة الثانية من البيانات الضخمة هي البيانات الضخمة غير المنظمة . لا يتم تخزين هذه البيانات في تنسيق قاعدة بيانات وليست منظمة؛ بالطبع، البيانات غير المهيكلة لها هيكلها الداخلي الخاص؛ لكن مثل هذا الهيكل لا يمكن التنبؤ به في نماذج البيانات. قد يتم إنشاء هذه الفئة من البيانات الضخمة بواسطة البشر أو الآلات بتنسيق نصي أو غير نصي. من الممكن تحويل البيانات غير المهيكلة إلى بيانات منظمة؛ لكن العملية تستغرق وقتا.


تعد المعلومات مثل المعلومات المتعلقة بالترفيه والوسائط، وإنترنت الأشياء، وبيانات الاستشعار، ومعلومات المستندات، والفواتير، والمعلومات المسجلة، والمعلومات المتعلقة بالذكاء الاصطناعي والتعلم الآلي أمثلة على البيانات الضخمة غير المنظمة.

هناك أيضًا فئة ثالثة من البيانات الضخمة، والتي تسمى البيانات الضخمة شبه المنظمة، ويمكن تصنيفها على أنها بيانات ضخمة منظمة. نظرًا لأن هذه البيانات لا تحتوي على بنية منسقة، فلا يمكن وضعها وتقديمها في جداول ونماذج بيانات، ولكنها ليست غير منظمة أيضًا؛ تحتوي هذه البيانات على علامات ورموز ومؤشرات يمكن استخدامها لتصنيف البيانات وإنشاء الحقول.


البيانات المرتبطة برسائل البريد الإلكتروني و XML ولغات الترميز الأخرى والملفات المضغوطة والبيانات المدمجة والمستخرجة من مصادر مختلفة والبيانات المرتبطة بصفحات الويب هي أمثلة على البيانات شبه المنظمة.


أهم التقنيات المستخدمة في البيانات الضخمة


كما قلنا، فإن معالجة البيانات الضخمة وتحليلها أمر صعب. للقيام بذلك، يجب استخدام تقنيات وتقنيات مختلفة. تنقسم أهم التقنيات والتقنيات المستخدمة في هذا المجال إلى ثلاث فئات:


تحليل البيانات

  • اختبار أ / ب : تستخدم هذه التقنية لتحديد الخيار الأنسب من بين خيارين (خيار أ / ب). يستخدم اختبار A / B في الواقع لمقارنة نتائج التجربة في وضعين واختيار الوضع والطريقة المناسبة.
  • التعلم الآلي : هذه التكنولوجيا التي تعتبر إحدى الفئات الفرعية للذكاء الاصطناعي، لديها القدرة على تقليد الذكاء البشري. يستخدم التعلم الآلي لتدريب أنظمة الكمبيوتر على أداء مهام معقدة للغاية. يعد تحليل البيانات الضخمة إحدى هذه المهام.
  • معالجة اللغة الطبيعية : هذه التقنية هي أيضًا إحدى تقنيات الذكاء الاصطناعي. من خلال دمج تقنية المعالجة الطبيعية في أنظمة الكمبيوتر، يمكن لهذه الأنظمة فهم النص والكلام تمامًا كما يفهمها البشر.

تقنيات البيانات الضخمة

  • ذكاء الأعمال : باستخدام هذه التكنولوجيا، يمكن الجمع بين العمليات المتعلقة بتحليلات الأعمال، واستخراج البيانات، وتصور البيانات، بالإضافة إلى البنية التحتية والأدوات المتعلقة بالبيانات وأفضل الممارسات لمساعدة المؤسسات على زيادة مقدار اتخاذ القرار المستند إلى البيانات.
  • الحوسبة السحابية : تعني تقنية الحوسبة السحابية توفير خدمات الحوسبة في السحابة. تشمل هذه الخدمات إنشاء الخوادم وقواعد البيانات والشبكات والبرامج وأدوات التحليلات وأدوات الذكاء الاصطناعي والتخزين السحابي.
  • قاعدة البيانات : قاعدة البيانات هي ببساطة مجموعة منظمة من المعلومات أو البيانات المهيكلة، وعادة ما يتم تخزينها إلكترونيًا في أنظمة الكمبيوتر.
  • أدوات عرض البيانات المرئية مثل المخططات وأدوات عرض البيانات الأخرى


 استخدامات البيانات الضخمة في مختلف المجالات


الآن بعد أن عرفنا ما هي البيانات الضخمة، دعنا نرى ما هي استخداماتها. البيانات الضخمة لها استخدامات عديدة في مجالات مختلفة؛ طبعا التطبيق الرئيسي لهذه التقنية هو تحليل البيانات الذي يتم في مجالات مختلفة بأهداف مختلفة: أهم حالات تطبيق البيانات الضخمة في المجالات المختلفة هي كما يلي:


الحكومة والانتخابات

لا شك أن الكثير من البيانات يتم إنتاجها بشكل مستمر في القطاع العام، ومن المهم للغاية تحليلها بدقة وبشكل صحيح وسريع. من الممكن اعتماد أفضل السياسات والمبادئ التوجيهية والقرارات والإجراءات الحكومية بمساعدة التقنيات المتعلقة بالبيانات الضخمة .

يمكن للسياسيين تحقيق نصر حاسم في الانتخابات من خلال الاستفادة من التقنيات المذكورة. تمكن حزب بهاراتيا جاناتا الهندي وحلفاؤه، وكذلك حملة أوباما في عام 2012، من الفوز في الانتخابات بهذه الطريقة.

الشبكات الاجتماعية

في عصر التكنولوجيا اليوم، تعد الشبكات الاجتماعية أحد المصادر الرئيسية لتوليد طوفان من البيانات. تم تطوير العديد من الحلول الجديدة لتحليل بيانات الشبكات الاجتماعية على منصات البيانات الضخمة. تم إنشاء أداة برامج المستهلك Cognos المقدمة من شركة IBM والتي تم تنفيذها على منصة البيانات الضخمة لهذه الشركة والتي تسمى BigInsights لهذا الغرض.

من خلال تحليل بيانات الشبكة الاجتماعية، يمكن الحصول على مواقف مختلفة وقيمة. من الممكن أيضًا تغيير المواقف والمقاربات وفقًا للظروف والمواقف وتحديثها بهذه الطريقة.

يمكن لمالكي الشركات والصناعات المختلفة والأشخاص النشطين في مجال الإعلان اتخاذ أفضل القرارات والأساليب في مجالات مثل التسعير وتحديد نوع السلع والخدمات وطريقة التوريد الخاصة بهم بمساعدة التحليل التفصيلي لبيانات الشبكة الاجتماعية. يمكن أيضًا استخدام تقنيات البيانات الضخمة للمراجعة التفصيلية للبحوث والدراسات الاستقصائية التي أجريت على الشبكات الاجتماعية.

تزويد المستخدمين بالمعلومات التي يحتاجون إليها عند البحث عن منصات تفاعلية عبر الإنترنت

يعد استخدام تقنيات البيانات الضخمة ضروريًا جدًا لتوفير المعلومات في مجال التكنولوجيا. لا يمكن تقديم نتائج البحث في أقسام مختلفة، بما في ذلك محركات البحث، لتقديم الاقتراحات والمعلومات اللازمة للمستخدمين، دون استخدام هذه الأساليب.

يستخدم متجر eBay عبر الإنترنت البيانات في مستودع بيانات 7.5 بيتابايت ومجموعة Hadoop بسعة 40 بيتابايت (بيئة موزعة لتخزين البيانات المنظمة) لتوفير هذه المعلومات.

تُستخدم تقنيات البيانات الضخمة أيضًا على نطاق واسع جدًا في البنية التحتية لمتجر أمازون عبر الإنترنت، حيث يتم تنفيذ ملايين العمليات الخلفية (معالجة بيانات إدخال الموقع) يوميًا ويتم فحص أكثر من نصف مليون طلب من البائعين الخارجيين. تعتمد تقنية البيانات الضخمة الرئيسية المستخدمة في متجر Amazon على Linux.

ثلاثة من أكبر قواعد بيانات Linux بسعة 7.8 و 18.5 و 24.7 تيرابايت تنتمي إلى هذا المتجر. يدير Facebook أيضًا مجموعة ضخمة من الصور التي تم تحميلها بواسطة المستخدمين (مع 50 مليار صورة).

الكشف عن الغش

دائمًا ما يواجه أصحاب بعض الشركات، بما في ذلك شركات التأمين، مطالبات مختلفة، وعادة ما يكون قدر كبير من هذه المطالبات احتيالية ويتم إجراؤها بقصد الاحتيال. باستخدام تقنيات البيانات الضخمة، من الممكن تحليل المطالبات المقدمة في مختلف المجالات لحظة بلحظة لتحديد الادعاءات الاحتيالية والمضللة. من الممكن أيضًا تحديد السلوك غير المعتاد من قبل المستخدمين بهذه الطريقة.

مراجعة بيانات مركز الاتصال

تعد بيانات مركز الاتصال أيضًا مصدرًا جيدًا للحصول على المواقف والمناهج المناسبة والبناءة في مجال التسويق والإعلان. قد تكون القوة البشرية قادرة على تحليل هذه البيانات، ولكن المعلومات ذات القيمة الطبيعية المخفية بين هذه البيانات قد يتم التغاضي عنها أو عدم التعرف عليها في الوقت المناسب.

من الممكن أيضًا أن يقوم المتصلون بالإبلاغ عن مشكلات مماثلة، ولا تستطيع الموارد البشرية اكتشاف المشكلة بسرعة. بمساعدة تقنيات البيانات الضخمة والتحليل السريع للبيانات، يمكن حل كلتا المشكلتين بطريقة مواتية.

أيضًا، إذا تم استخدام هذه التقنيات، يمكن تحديد الأنماط السلوكية للعملاء والمستجيبين في فترة زمنية قصيرة. في بعض الحالات، يمكن أن تكون عملية تحليل بيانات مركز الاتصال مؤتمتة بالكامل. سيؤدي ذلك إلى تقليل تكلفة مركز الاتصال في مجال توظيف وتدريب الموارد البشرية والمساعدة في تحسين استجابة هذه المراكز.

الوصول إلى المعلومات الهامة في الزراعة

يحتاج المزارعون إلى الوصول إلى الكثير من البيانات من أجل حصاد محصول جيد وتجنب مواجهة خسائر مالية فادحة. يمكن لتقنيات البيانات الضخمة أن تساعد المزارعين على الوصول إلى هذه البيانات في الوقت المناسب واتخاذ قرارات مهمة بناءً عليها. تتضمن هذه البيانات المعلومات الضرورية لتحسين جودة المنتجات والمعلومات الضرورية حول الأحوال الجوية ودرجة الحرارة والرطوبة وتكوين التربة وظروفها ومستوى المياه الجوفية وما إلى ذلك.

الحالات المهمة الأخرى لاستخدام البيانات الضخمة في مختلف المجالات هي كما يلي:

  • معلومات حول ظروف السوق المالية
  • تحليل مخاطر الاستثمار
  • إنشاء محتويات مختلفة للجمهور المستهدف
  • الحصول على المعلومات اللازمة لوصف الدواء المناسب لكل مريض حسب ظروفه
  • الحصول على المعلومات اللازمة لاختيار أفضل طريقة تعليمية في كل مجال من المجالات التعليمية
  • الحصول على المعلومات اللازمة لاتخاذ القرارات بشأن اختيار أفضل طرق الإنتاج، وكذلك الحصول على الأساليب الفعالة للتعامل مع التحديات والمشكلات المتعلقة بإنتاج المنتج.
  • الحصول على المعلومات اللازمة للاحتفاظ بالعملاء في مختلف الأعمال الخدمية (مثل التأمين) وتحسين جودة الخدمة فيها
  • معلومات في الوقت الحقيقي عن مخزون سلسلة التوريد
  • الحصول على المعلومات اللازمة لتقديم الخدمات اللوجستية بسرعة عالية وأمان وبدون أخطاء
  • تحكم أفضل وإدارة أفضل لحركة المرور ، واقتراح الطرق المناسبة للسائقين، وتحسين أداء أنظمة النقل الذكية، وكذلك تحديد العدد اللازم من مراكز المبيعات وتقديم الخدمات في كل مسار وقسم لتوفير استهلاك وقود مركبات الأشخاص وأيضًا توفير وقتهم.
  • إدارة أفضل للقوى العاملة والموارد والأصول
  • الحصول على المعلومات اللازمة لتحسين نقل وتوزيع الطاقة


تعليقات



حجم الخط
+
16
-
تباعد السطور
+
2
-