هل التعلم التعزيزي (الآلي) مبالغ فيه؟

تخيل أنك على وشك الجلوس للعب مع صديق. لكن هذا ليس مجرد صديق - إنه برنامج كمبيوتر لا يعرف قواعد اللعبة. ومع ذلك ، فهي تدرك أن لها هدفًا ، وهذا الهدف هو الفوز.
لأن هذا الصديق لا يعرف القواعد ، يبدأ بإجراء حركات عشوائية. بعضها لا معنى له على الإطلاق ، والفوز سهل بالنسبة لك. لكن دعنا نقول فقط أنك تستمتع باللعب مع هذا الصديق لدرجة أنك قررت تكريس بقية حياتك (والحياة المستقبلية إذا كنت تؤمن بهذه الفكرة) للعب هذه اللعبة حصريًا.
سيفوز الصديق الرقمي في النهاية لأنه يتعلم تدريجياً الحركات الفائزة المطلوبة للتغلب عليك. قد يبدو هذا السيناريو بعيد المنال ، لكن يجب أن يمنحك فكرة أساسية عن كيفية عمل التعلم المعزز (RL) - مجال التعلم الآلي (ML) - تقريبًا.
ما مدى ذكاء التعلم المعزز؟
يشتمل الذكاء البشري على العديد من الخصائص ، بما في ذلك اكتساب المعرفة ، والرغبة في توسيع القدرات الفكرية ، والتفكير الحدسي. ومع ذلك ، كانت قدرتنا على الذكاء موضع تساؤل إلى حد كبير عندما خسر جاري كاسباروف ، بطل الشطرنج ، أمام كمبيوتر من شركة IBM يُدعى Deep Blue. إلى جانب جذب انتباه الجمهور ، فإن سيناريوهات يوم القيامة التي تصور عالمًا تحكم فيه الروبوتات البشر سيطرت على الوعي السائد.



ومع ذلك ، لم يكن ديب بلو خصمًا عاديًا. اللعب بهذا البرنامج يشبه مباراة مع إنسان عمره ألف عام كرّس حياته كلها للعب الشطرنج بشكل مستمر. وفقًا لذلك ، كان ديب بلو ماهرًا في لعب لعبة معينة - وليس في الأنشطة الفكرية الأخرى مثل العزف على آلة موسيقية أو كتابة كتاب أو إجراء تجربة علمية أو تربية طفل أو إصلاح سيارة.
لا أحاول بأي حال من الأحوال التقليل من شأن إنجاز إنشاء Deep Blue. بدلاً من ذلك ، أقترح ببساطة أن فكرة أن أجهزة الكمبيوتر يمكن أن تتفوق علينا في القدرات الفكرية تتطلب فحصًا دقيقًا ، بدءًا من انهيار ميكانيكا RL.
كيف يعمل التعلم المعزز
كما ذكرنا سابقًا ، RL هي مجموعة فرعية من ML تهتم بكيفية تصرف الوكلاء الأذكياء
بيئة لتعظيم فكرة المكافأة التراكمية.
بعبارات واضحة ، يتم تدريب عملاء الروبوت RL على آلية المكافأة والعقاب حيث يتم مكافأتهم على الحركات الصحيحة ومعاقبتهم على الحركات الخاطئة. RL Robots لا "تفكر" في أفضل الإجراءات التي يجب القيام بها - فهي تجعل كل الحركات ممكنة من أجل زيادة فرص النجاح إلى أقصى حد.
عيوب التعلم المعزز
العيب الرئيسي في التعلم المعزز هو الكم الهائل من الموارد التي تتطلبها لتحقيق هدفها. يتضح هذا من خلال نجاح RL في لعبة أخرى تسمى GO - وهي لعبة شائعة للاعبين حيث يكون الهدف هو استخدام قطع اللعب (تسمى الحجارة) لزيادة المساحة على اللوحة مع تجنب فقدان الأحجار.
يتطلب برنامج AlphaGo Master ، وهو برنامج كمبيوتر هزم اللاعبين البشريين في Go ، استثمارًا ضخمًا شمل العديد من المهندسين ، وتجربة لعب الألعاب لآلاف السنين ، و 256 وحدة معالجة رسومات مذهلة و 128,000 وحدة معالجة مركزية. هذا الكثير من الطاقة لاستخدامها في تعلم الفوز باللعبة. هذا ثم يطرح السؤال عما إذا كان التصميم منطقيًا AI لا يمكن أن يفكر بشكل حدسي. ألا يجب أن تحاول أبحاث الذكاء الاصطناعي تقليد الذكاء البشري؟ إحدى الحجج التي تؤيد RL هي أنه لا ينبغي أن نتوقع أن يتصرف وكلاء الذكاء الاصطناعي مثل البشر ، واستخدامه لحل المشكلات المعقدة يتطلب مزيدًا من التطوير. من ناحية أخرى ، فإن الحجة ضد RL هي أن أبحاث الذكاء الاصطناعي يجب أن تركز على تمكين الآلات من القيام بأشياء لا يستطيع فعلها سوى البشر والحيوانات في الوقت الحاضر. عند النظر إليها في ضوء ذلك ، فإن مقارنة الذكاء الاصطناعي بالذكاء البشري مناسبة.
التعلم المعزز الكمي
هناك مجال ناشئ من التعلم المعزز الذي يُزعم أنه يحل بعضًا من
المشاكل المذكورة أعلاه. تمت دراسة التعلم المعزز الكمي (QRL) كطريقة لتسريع العمليات الحسابية.
في المقام الأول ، يجب على QRL تسريع التعلم من خلال تحسين مراحل الاستكشاف (إيجاد الاستراتيجيات) والاستغلال (اختيار أفضل استراتيجية). تعمل بعض التطبيقات الحالية والحسابات الكمومية المقترحة على تحسين البحث في قاعدة البيانات ، وتحويل الأعداد الكبيرة إلى أعداد أولية ، وغير ذلك الكثير. على الرغم من أن QRL لم تصل بعد بطريقة رائدة ، إلا أن هناك توقعًا بأنها قد تحل بعض التحديات الكبيرة لتعلم التعزيز المنتظم.
حالات الأعمال لـ RL
كما ذكرت من قبل ، لا أريد بأي حال من الأحوال تقويض أهمية البحث والتطوير في RL. في الواقع ، في Oxylabs ، كنا نعمل على نماذج RL التي من شأنها تحسين تخصيص موارد تجريف الويب.
مع ذلك ، إليك مجرد عينة من بعض الاستخدامات الواقعية لـ RL المستمدة من تقرير McKinsey الذي يسلط الضوء على حالات الاستخدام الحالية عبر مجموعة واسعة من الصناعات:
- تحسين تصميم السيليكون والرقائق ، وتحسين عمليات التصنيع ، وتحسين الإنتاجية لصناعة أشباه الموصلات
- زيادة الغلة وتحسين الخدمات اللوجستية لتقليل الفاقد والتكاليف وتحسين الهوامش في الزراعة
- تقليل الوقت اللازم لتسويق الأنظمة الجديدة في صناعات الطيران والدفاع
- تحسين عمليات التصميم وزيادة عائدات التصنيع لصناعات السيارات
- زيادة الإيرادات من خلال استراتيجيات التداول والتسعير في الوقت الفعلي ، وتحسين تجربة العملاء ، وتقديم التخصيص المتقدم للعملاء في الخدمات المالية
- تحسين تصميم المناجم وإدارة توليد الطاقة وتطبيق جدولة لوجستية شاملة لتحسين العمليات وتقليل التكاليف وزيادة العوائد في التعدين
- زيادة العوائد من خلال المراقبة في الوقت الفعلي والحفر الدقيق ، وتحسين توجيه الناقلات وتمكين الصيانة التنبؤية لمنع تعطل المعدات وانقطاعها في صناعة النفط والغاز
- تسهيل اكتشاف الأدوية ، وتحسين عمليات البحث ، وأتمتة الإنتاج وتحسين الأساليب البيولوجية لصناعة المستحضرات الصيدلانية
- تحسين سلاسل التوريد وتنفيذ نمذجة المخزون المتقدمة وتقديم تخصيصات متقدمة للعملاء في قطاع البيع بالتجزئة
- تحسين وإدارة الشبكات وتطبيق تخصيص العملاء في صناعة الاتصالات
- تحسين التوجيه وتخطيط الشبكة وعمليات المستودعات في النقل والخدمات اللوجستية
- استخراج البيانات من مواقع الويب باستخدام الجيل التالي من بروكسيات
إعادة التفكير في التعلم المعزز
قد يكون التعلم المعزز محدودًا ، لكنه لا يبالغ في تقديره. علاوة على ذلك ، مع زيادة البحث والتطوير في RL ، تزداد أيضًا حالات الاستخدام المحتملة في كل قطاع من قطاعات الاقتصاد تقريبًا. يعتمد التبني على نطاق واسع على عدة عوامل ، بما في ذلك تحسين تصميم الخوارزميات ، وتكوين بيئات التعلم ، وتوافر قوة الحوسبة.