تحسين ETL عن طريق التحول إلى دفق البيانات في الوقت الفعلي.

لا جدال في دور البيانات في مؤسسات اليوم. لا تقوم البيانات فقط بإبلاغ القرارات في جميع مجالات العمل ، بل يتم استخدامها أيضًا بشكل متزايد لأتمتة العمليات ، حيث `` تصبح الشركات برمجيات ''. ومع ذلك ، فإن تعقيد إدارة البيانات المجزأة آخذ في الازدياد أيضًا. وجد استطلاع حديث لـ IDC أن 79٪ من المؤسسات تستخدم أكثر من 100 مصدر بيانات ، و 30٪ تستخدم أكثر من 1000 مصدر. يعترف العديد من CDO بقضاء أكثر من ثلث وقتهم في معالجة الإدارة اليومية للبيانات ، بدلاً من استخدام البيانات لدفع الإستراتيجية والابتكار. نظرًا لأن الشركات التي تتمتع بمستوى عالٍ من نضج البيانات تولد قيمة تجارية أكبر بنسبة 250٪ ، لم يكن تنفيذ تنقية البيانات وإثرائها ومعالجتها عبر جميع أنواع البيانات أكثر أهمية من أي وقت مضى ؛ المعاملات والتشغيل والتحليل.
تتطلب زيادة نضج البيانات مستوى من الريادة في البيانات ، والتي تتماشى جنبًا إلى جنب مع القيادة الرقمية. أصبحت خطوط أنابيب البيانات في الوقت الفعلي معيارًا ضروريًا مع الشركات المتوقع أن تدفع نضج البيانات كشرط أساسي لاستخدامها AI و ML. بمعنى آخر ، يعد تحويل البيانات أمرًا بالغ الأهمية للتحول الرقمي. هذا هو السبب في أن قيادة البيانات أمر بالغ الأهمية ، لأنها ستمكّن الفرق الداخلية من مواجهة التحدي الأساسي المتمثل في التجزئة والتعقيد ، وفي النهاية توليد مستويات أعلى من قيمة الأعمال.



ومع ذلك ، فإن التحدي الذي يواجه أولئك الذين يرغبون في تحديث خدماتهم وتقييمها هو ربط جميع البيانات معًا وإتاحتها في الوقت الفعلي. Traditionally a lengthy three-step process has been used to consolidate data from multiple sources – Extract, Transform and Load (ETL). لكن هذا يميل إلى العمل دفعة واحدة ولم يحقق دائمًا النتائج المطلوبة. حولت بعض الحلول العملية إلى ELT - استخراج البيانات وتحميلها وتحويلها. حتى أننا نشهد عكس ETL. الآن ، مع ظهور بيانات الإعداد قيد الحركة ، نرى تحول الصناعة نحو دفق ETL مع معالجة الدفق في الوقت الفعلي.
ضبط البيانات في الحركة
ETL (الاستخراج والتحويل والتحميل) هي عملية من ثلاث خطوات تُستخدم لدمج البيانات من مصادر متعددة. في جوهرها ، ETL هي عملية قياسية يتم فيها جمع البيانات من مصادر مختلفة (مستخرجة) ، وتحويلها إلى تنسيق مرغوب (محوّل) ، ثم تخزينها في وجهتها الجديدة (محملة).
ETL ليس مفهومًا جديدًا. في الواقع ، لقد تطورت منذ السبعينيات والثمانينيات ، حيث كانت العملية متسلسلة ، وكانت البيانات أكثر ثباتًا ، وكانت الأنظمة متجانسة ، وكان الإبلاغ مطلوبًا على أساس أسبوعي أو شهري.
نظرًا لأن توقعات العملاء والعمليات الخلفية قد تحركت نحو عالم أكثر واقعية ، مع العديد من العمليات التجارية المحددة في البرامج ، رأينا نقل ETL المُعالج على دفعات إلى دفق ETL. مع تدفق البيانات ETL
يتم استخراجها وتحويلها تلقائيًا ، أو التصرف بناءً عليها ، ثم تحميلها إلى أي وجهة ، بمجرد إنشائها تقريبًا ، مما يمكّن الشركات من أتمتة العمليات - إزالة الأشخاص من المسار الحرج - والعمل بقابلية التوسع والأمان على بنية تحتية مثالية ، والتي على الأرجح يتضمن سحابة.
دفق ETL في الممارسة
تعد البيانات في الوقت الفعلي عنصرًا أساسيًا لكل من العلامات التجارية القديمة الجديدة والعالية الأداء التي تعتمد على التدفق المستمر وتدفق البيانات من أجل الاستجابة لتوقعات عملائها المتطورة باستمرار.
Rather than letting data sit in a static database, the data itself can trigger an action or analysis in real-time. في كثير من الحالات ، يمكن أن يفتح "إعداد البيانات أثناء الحركة" فرصًا جديدة للقيمة لم تكن ممكنة مع البيانات الثابتة في قواعد البيانات الأكثر تقليدية ، باستخدام بنية نوع الطلب والاستجابة. تبنى رواد التكنولوجيا مثل Uber و Ebay و Netflix و Yelp بالفعل نهج تدفق البيانات في الوقت الفعلي وصمموا أنفسهم حول منصات تدفق البيانات.
تم أيضًا تنفيذ معالجة التدفق في الوقت الفعلي بنجاح عبر مجموعة من الصناعات التقليدية. على سبيل المثال في الخدمات المالية ، تبحث البنوك باستمرار عن طرق لتصبح أكثر صلة بعملاء اليوم. لم يعد بإمكان المستهلكين تخيل الخدمات المصرفية بدون إشعارات فورية يتم تقديمها في البداية إلى السوق من قبل البنوك المنافسة. من المتوقع أيضًا أن تقدم البنوك التقليدية معلومات استخباراتية إضافية ، يتم تمكينها بواسطة البيانات ، مثل تتبع الموارد المالية والدعم في تخطيط الميزانية ، بناءً على أنماط الشراء السابقة وأهداف الحياة.
أو خذ البيع بالتجزئة. ترغب الشركات في دمج البيانات من تفاعلات مواقع الويب وتطبيقات الأجهزة المحمولة والتجارب داخل المتجر ، حتى تتمكن من تقديم عروض في الوقت الفعلي ، وسياقية ومستهدفة للغاية. Moreover, with real-time data they can capture post-sale feedback and returns, or further upsell and cross- sell products and services.
في النهاية ، يصعب على العميل العادي تخيل الشكل الذي ستبدو عليه هذه الخدمات إذا لم يستفيدوا من قوة معالجة البث في الوقت الفعلي ، ولكن هناك العديد من الشركات التي يمكنها الاستفادة من البيانات لتصبح رقمية أولاً.
نهج البيانات للتحول الرقمي
في حين أن تطوير استراتيجية التحول الرقمي التي تستفيد بشكل كامل من قيمة البيانات ليس بالأمر السهل ، فإن العديد من الشركات تدرك هذه الضرورة. الحصول على هذا الحق يعني أنه يمكن للشركات استخدام قوة تأثير الشبكة لدفع المزيد من تآزر البيانات ؛ نظرًا لأن المزيد من أجزاء العمل تستهلك مصادر بيانات مختلفة ، فإنها ستنتج أيضًا المزيد من البيانات ، مما يؤدي بدوره إلى زيادة استهلاك البيانات. وهلم جرا.
تقليديا ، تم استخدام البيانات لخدمة منتج أو حل. على سبيل المثال ، مع نظام أساسي لإدارة علاقات العملاء ، كان الغرض الرئيسي للبيانات هو خدمة هذا النظام الأساسي. ومع ذلك ، مع القدرة على الوصول إلى البيانات في الوقت الفعلي ، نشهد تحولًا في هذه العلاقة. تعمل المنتجات أو حلول الأعمال الآن على إنشاء البيانات ، والتي يمكن أن تصبح منتجًا في حد ذاته. لذلك ، بدلاً من البيانات التي تخدم الحل فقط ، يخدم الحل البيانات أيضًا.
تعمل معالجة الدفق في الوقت الفعلي على تحديث هذه الطريقة القديمة في التعامل مع البيانات. إنه يمنح الأشخاص إمكانية الوصول في الوقت الفعلي إلى المعلومات ، عند حدوث الأحداث ، مع مستويات متزايدة من الذكاء السياقي. يمكن لمنصة دفق البيانات أيضًا أن تتفاعل مع الأحداث وتنفذ المهمة مباشرة ، متجاوزة الإنسان.
في الوقت الحاضر ، تعد البيانات في قلب كل عمل تجاري حديث. تعمل المنظمات التقليدية على زيادة بنياتها القديمة لتلبية متطلبات الوقت الفعلي وتبسيط العمليات على نطاق واسع. من أجل رفع مستوى كيفية استخدام البيانات ، تحتاج الشركات إلى إنشاء أوجه تآزر جديدة من أجل إطلاق العنان لإمكانات البيانات بالكامل. سيؤدي الانتقال من ELT إلى تدفق ETL إلى تمكين المؤسسات من زيادة نضج بياناتها والمضي قدمًا في الحزمة.