التعلم المعزز من ردود الفعل البشرية

قالب:تعلم الآلة

التعلم المعزز من ردود الفعل البشرية أو التعليم بواسطة التعزيز من الملاحظات البشرية^[١] (RLHF) هو أسلوب من أساليب تعلّم الآلة، يستخدم الملاحظات البشرية لتحسين نماذج تعلّم الآلة من أجل التعلم الذاتي بشكل أكثر كفاءة.^[٢] تعمل تقنيات التعليم بواسطة التعزيز على تدريب البرامج على اتخاذ القرارات التي تحصل على أكثر قدر ممكن من المكافآت، مما يجعل نتائجها أكثر دقة.^[٣] في هذا الأسلوب تُدمَج الملاحظات البشرية في دالة المكافآت، لذلك يمكن لنموذج تعلّم الآلة أداء مهام أكثر تماشيًا مع الأهداف والرغبات والاحتياجات البشرية.^[٤] يُستخدَم أسلوب التعليم بواسطة التعزيز من الملاحظات البشرية في جميع تطبيقات الذكاء الاصطناعي المولّد، بما في ذلك نماذج اللغة الكبيرة (LLM).^[٥]^[٦]^[٧]

الخلفية والدافع

إن تطوير النماذج القائمة على التغذية الراجعة البشرية يكتسب أهمية بالغة عندما تكون المهمة معقدة التحديد، إلا أنها سهلة التقييم.^[٨] مثال على ذلك هو تدريب نموذج لإنشاء نص آمن ومفيد وخالٍ من الأضرار كالتحيز أو السمية أو المحتوى الضار بأي شكل. قد يكون من الصعب والمستهلك للوقت أن يطلب من البشر إنشاء أمثلة نصية ضارة وغير ضارة يدويًا. ومع ذلك، يجيد البشر تقييم ومقارنة ضرر النصوص التي ينتجها الذكاء الاصطناعي بسرعة. لذا، فإن الهدف العملي هو تمكين النموذج من الاستفادة من هذا النوع من التغذية الراجعة البشرية لتحسين إنتاج النص.^[٩]

رغم الفوائد الجلية لاستخدام التغذية الراجعة البشرية في تدريب النماذج، إلا أن الجهود السابقة، بما في ذلك تلك التي اعتمدت على التعلم المعزز، واجهت تحديات كبيرة. كانت معظم المحاولات إما محدودة النطاق وصعبة التعميم، مما أدى إلى فشلها في المهام الأكثر تعقيدًا، ^[١٠]^[١١]^[١٢]^[١٣] أو عانت من صعوبات في التعلم من وظائف المكافأة النادرة (التي تفتقر إلى المعلومات المحددة وترتبط بكميات كبيرة من النص في الوقت نفسه) أو الضوضائية (التي تقدم مكافأة غير متسقة لنفس النتائج).^[١٤]^[١٥]

لم يكن التعلم المعزز من ردود الفعل البشرية أول طريقة ناجحة لاستخدام التغذية الراجعة البشرية في التعلم المعزز، ولكنه أحد أكثر الطرق استخدامًا. وقد تم تقديم الأساس لهذا النوع من التعلم كمحاولة لإنشاء خوارزمية عامة للتعلم من كمية معقولة من التغذية الراجعة البشرية.^[٨]^[١٦] وقدمت شركة أوبن أيه آي الخوارزمية المستخدمة حاليًا في ورقة بحثية حول تحسين استمرارية النص أو تلخيصه بناءً على التغذية الراجعة البشرية، وبدأت هذه الطريقة في اكتساب الشعبية عندما استخدمتها الشركة نفسها في ورقتها حول جي بي تي-3.^[١٧]^[١٨]^[١٩] كما أظهر التعلم المعزز من ردود الفعل البشرية تحسين قدرة عملاء التعلم المعزز على التحمل وقدرتهم على الاستكشاف، مما أدى إلى عملية تحسين أكثر كفاءة في التعامل مع عدم اليقين واستكشاف بيئته بفاعلية بحثًا عن المكافأة الأعلى.^[٢٠]

جمع ردود الفعل البشرية

تعتمد عملية التعلم المعزز من ردود الفعل البشرية بشكل كبير على جمع بيانات دقيقة وشاملة حول تفضيلات المستخدمين.^[١٩]^[٢١]^[٢٢] عادةً ما تُجمع هذه البيانات من خلال تصنيفات بشرية لحالات سلوك الوكيل، حيث يمكن استخدام أنظمة مثل نظام تصنيف إيلو لتقييم هذه التصنيفات.^[١٦] رغم أن تصنيف المخرجات هو الطريقة الأكثر شيوعًا، إلا أن الأبحاث الحديثة تستكشف طرقًا أكثر مرونة مثل التغذية الراجعة الرقمية واللغوية.^[٢٣] من المثير للاهتمام أن التعلم المعزز من ردود الفعل البشرية يتطلب كمية بيانات أقل بكثير مما هو مطلوب في تقنيات التعلم الأخرى.^[٨] ومع ذلك، فإن زيادة كمية البيانات لا تؤدي بالضرورة إلى تحسين الأداء بشكل كبير، بل قد يكون من الأفضل التركيز على زيادة تعقيد نموذج المكافأة.^[١٨] رغم ذلك فإن تنوع البيانات أمر حيوي لتجنب التحيزات التي قد تنشأ من الاعتماد على مجموعة محدودة من المعلقين.^[١٩] أظهرت الدراسات أن استخدام مقدر الاحتمالية القصوى (MLE) مع وظائف مكافأة خطية في نماذج مثل برادلي-تيري-لوس وبلاكيت-لوس يؤدي إلى تحسين دقة التنبؤ بالتفضيلات البشرية. هذا يعني أنه عندما يتم تدريب النموذج على بيانات مقارنات زوجية أو متعددة الجوانب تتبع نموذجًا خطيًا، فإنه يصبح قادرًا على التنبؤ بدقة أكبر بالخيارات التي يفضلها الأشخاص في المستقبل. هذه النتيجة تدل على أن النماذج التي تعتمد على مبادئ بسيطة ومتسقة قادرة على تعلم تفضيلات المستخدمين بفعالية.^[٢٤]^[٢٥]

أظهرت الدراسات أن نماذج جمع البيانات، سواء كانت متصلة بالإنترنت أم غير متصلة، تشكل تحديات فريدة في سياق التعلم المعزز من ردود الفعل البشرية. في النماذج غير المتصلة، حيث يتم تدريب السياسات على مجموعات بيانات ثابتة، أثبت مقدر الاحتمالية القصوى الذي يدمج حد الثقة الأدنى كدالة مكافأة كفاءة عالية.^[٢٤]^[٢٦] علاوة على ذلك أشارت الأبحاث إلى أن التعامل المباشر مع المقارنات المتعددة (K-wise) يتفوق على تحويلها إلى مقارنات زوجية في تحسين دقة التنبؤ. ومع ذلك فإن طبيعة التفاعل المستمر مع البيئة في النماذج المتصلة تثير تحديات إضافية تتعلق بتعقيد العينات وتحديث السياسات.^[١٩]^[٢٦]^[٢٧] في سياق التفاعل مع الشبكة العنكبوتية، عند جمع آراء بشرية عن طريق المقارنات الثنائية وفقًا لنموذج برادلي-تيري-لوس بهدف تقليل الندم (أي الفرق في الأداء مقارنة بأداء مثالي)، تبين أن تقدير الاحتمالية القصوى الذي يشمل حد الثقة العلوي كقيمة مكافأة يمكن توظيفه في تصميم خوارزميات تعلم فعالة من حيث العينات (أي تتطلب كمية محدودة من بيانات التدريب). يكمن التحدي الجوهري في التعلم المعزز من خلال آراء بشرية عند التعلم من المقارنات الثنائية في طبيعة السياسات المثلى غير الماركوفية. بخلاف السيناريوهات البسيطة التي لا تتطلب الإستراتيجية المثلى تذكر الأفعال السابقة، فإن التعلم المعزز من خلال آراء بشرية غالبًا ما تتوقف أفضل مسارات العمل فيه على الأحداث والقرارات السابقة، مما يجعل الإستراتيجية معتمدة بشكل أساسي على الذاكرة.^[٢٥]

التطبيقات

أثبتت تقنية التعلم المعزز من خلال ردود الفعل البشرية فعاليتها في تطوير نماذج معالجة اللغة الطبيعية المتقدمة. في مهام معالجة اللغة الطبيعية المعقدة، مثل الحوار وتلخيص النصوص، يصعب تحديد مكافآت واضحة لتدريب النماذج.^[١٨]^[٢٨] تتغلب تقنية التعلم المعزز من خلال ردود الفعل البشرية على هذه التحدي من خلال السماح لنا بتدريب نماذج اللغة على فهم وتلبية تفضيلات المستخدمين البشرية بشكل أفضل.^[٨] يتم ذلك عن طريق جمع بيانات تدريب تعكس هذه التفضيلات وتستخدمها لتدريب نموذج مكافأة يوجه النموذج نحو توليد نتائج أكثر ملاءمة.^[١٩]^[٢٩] تُعد نماذج مثل شات جي بي تي من أوبن أيه آي،^[٢١]^[٣٠]^[٣١] وسبارو من ديب مايند، ^[٣٢]^[٣٣]^[٣٤] وجيميناي من جوجل، ^[٣٥] وكلود من أنثروبيك، ^[٣٦] أمثلة بارزة على نماذج اللغة التي تم تدريبها باستخدام هذه التقنية، حيث تُظهر قدرة متقدمة على إجراء حوارات طبيعية وتقديم معلومات دقيقة ومفيدة.

في حقل الرؤية الحاسوبية استُخدم التعلم من خلال التعزيز مع ردود الفعل البشرية أيضًا لضبط نماذج تحويل النص إلى صورة. وقد أشارت الدراسات التي نجحت في استخدام هذا النهج إلى أن استخدام تنظيم تباعد كولباك - ليبلير في تعلم التعزيز مع ردود الفعل البشرية، والذي يهدف إلى منع السياسات المتعلمة من الانحراف بعيدًا عن النموذج غير المُنظم، قد ساعد في استقرار عملية التدريب عبر تقليل الإفراط في التكيف مع نموذج المكافأة. وقد لوحظ أن النتائج النهائية للصور الناتجة عن النماذج المدربة باستخدام تنظيم تباعد كولباك-ليبلر كانت ذات جودة أعلى بشكل ملحوظ مقارنةً بتلك التي دُربت دون هذا التنظيم.^[٣٧]^[٣٨] وقد حاولت طرق أخرى دمج ردود الفعل من خلال التدريب المباشر - بناءً على تعظيم المكافأة دون استخدام تعلم التعزيز - لكنها أقرت بأن نهج تعلم التعزيز مع ردود فعل بشرية من المرجح أن يؤدي بشكل أفضل بسبب توليد العينات عبر الإنترنت أثناء التحديثات وكذلك تنظيم تباعد كولباك-ليبلر المذكور سابقًا فوق النموذج السابق، مما يقلل من الإفراط في التكيف مع دالة المكافأة.^[٣٩]

طبق تعلم التعزيز مع ردود فعل بشرية (RLHF) في البداية على مجالات متنوعة، مثل تطوير روبوتات ألعاب الفيديو الكلاسيكية ثنائية الأبعاد والمهام الروبوتية المحاكية. فعلى سبيل المثال، قامت شركتا OpenAI وDeepMind بتدريب نماذج ذكاء اصطناعي للعب ألعاب أتاري بناءً على التفضيلات البشرية. في التدريب التقليدي القائم على التعلم المعزز لهذه النماذج، كانت وظيفة المكافأة ترتبط ببساطة بمدى نجاح النموذج في اللعبة، عادةً بقياس النقاط المحرزة. أما في تعلم التعزيز مع ردود فعل بشرية، فكان يعرض على الإنسان مقطعان من أداء النموذج في اللعبة ليختار الأفضل منهما بناءً على معايير جمالية أو إستراتيجية. هذه الطريقة مكنت النماذج من تحقيق أداء تنافسي دون الحاجة إلى الاعتماد فقط على النقاط المحرزة. بل إن هذا النهج تجاوز في بعض الأحيان أداء التعلم المعزز التقليدي، وذلك لأن تفضيلات الإنسان قد تحتوي على معلومات أكثر شمولية من مجرد النقاط المحرزة.^[٨]^[٤٠] حققت هذه النماذج أداءً متميزًا في العديد من البيئات التجريبية، وتفوقت في كثير من الأحيان على أداء البشر.^[٤١]

التدريب

في تقنية تعزيز التعلم من خلال ردود الفعل البشرية (RLHF)، يُدرب نموذجين مختلفين: نموذج المكافأة وسياسة التعلم المعزز. يتعلم نموذج المكافأة تحديد السلوك المرغوب بناءً على ردود الفعل البشرية، بينما تسترشد السياسة بنموذج المكافأة لتحديد أفعال الوكيل. وكثيرًا ما يتم تهيئة كلا النموذجين باستخدام نموذج لغوي ذاتي التراجع مُدرّب مسبقًا. ثم يُدرب هذا النموذج عادةً بطريقة إشرافية على مجموعة بيانات صغيرة نسبيًا من أزواج المُحفزات المقدمة إلى مساعد والإجابات المصاحبة لها، والتي كتبها معلقون بشريون. يستفيد نموذج المكافأة من البدء بنموذج مدرب مسبقًا، حيث يُهيئه ذلك لفهم اللغة ويركز التدريب صراحةً على تعلم التفضيلات البشرية، مما يُسرع العملية. بالإضافة إلى استخدامه لتهيئة نموذج المكافأة وسياسة التعلم المعزز، يُستخدم النموذج أيضًا لعينة البيانات التي سيتم مقارنتها بواسطة المعلقين.^[١٨]^[١٩]

ثم يُدرب نموذج المكافأة عن طريق استبدال الطبقة النهائية للنموذج السابق برأس انحدار مُهيأ عشوائيًا. يؤدي هذا التغيير إلى تحويل النموذج من مهمته الأصلية، وهي التصنيف على مفرداته، إلى إخراج رقم يتوافق مع درجة أي مُحفز واستجابة معطاة. يُدرب هذا النموذج على بيانات مقارنة التفضيلات البشرية التي جُمعت سابقًا من النموذج الإشرافي. على وجه الخصوص، يدرب لتقليل دالة الخسارة المتقاطعة التالية، التي تحفزه على تقديم توقعات تكون أقرب إلى التقييمات البشرية الفعلية:

$ℒ (θ) = - \frac{1}{(\binom{K}{2})} E_{(x, y_{w}, y_{l})} [\log (σ (r_{θ} (x, y_{w}) - r_{θ} (x, y_{l})))]$

حيث $K$ هو عدد الاستجابات التي قام المقيمون بتصنيفها، أما $r_{θ} (x, y)$ فهو ناتج نموذج المكافأة للتعليم $x$ والإكمال $y$ ، و $y_{w}$ هو الإكمال المفضل على $y_{l}$ ، وتعني $σ (x)$ دالة السيجمويد، وتعني $E [X]$ القيمة المتوقعة.^[١٩] تقيس دالة الخسارة هذه الفرق بين توقعات نموذج المكافأة والقرارات التي اتخذها البشر. الهدف هو جعل تخمينات النموذج قريبة قدر الإمكان من تفضيلات البشر من خلال تقليل الفرق الذي تقيسه هذه المعادلة. في حالة المقارنات الزوجية فقط، يتم حذف العامل $1 / (\binom{K}{2})$ .^[١٨] بخلاف ذلك، تُستخدم جميع المقارنات $(\binom{K}{2})$ من كل تعليم كتدريب دفعة واحدة.^[١٩] بعد التدريب، تُوحد مخرجات النموذج بحيث تكون اكتمالات المراجع ذات متوسط درجة 0.^[١٨]

وبالمثل لنموذج المكافأة، تُحسن السياسة اللغوية أيضًا بناءً على النموذج المدرب مُسبقًا والذي قد لا يتوافق بالضرورة مع التفضيلات البشرية. الهدف من هذه الخطوة الحساسة هو تكييف النموذج بشكل تدريجي ليكون أكثر انسجامًا مع التفضيلات البشرية عن طريق ضبط معاملاته ووزنه بناءً على المكافآت المستمدة من ردود الفعل البشرية. يمكن استخدام ناتج نموذج المكافأة كمكافأة يتم تعظيمها باستخدام التعلم المعزز لأزواج التعليمات والاستجابات.^[١٨] ثم تُقدم تعليمات عشوائية من مجموعة البيانات إلى السياسة لتوليد استجابات، مما يحاكي السيناريوهات الواقعية حيث يجب على الوكيل فهم التعليمات المتنوعة وتوليد الاستجابات المناسبة.

بالإشارة إلى سياسة التعلم المعزز المكتسبة بمعايير $ϕ$ مثل $π_{ϕ}^{RL}$ ، يمكننا تعريف دالة الهدف التالية:

$objective (ϕ) = E_{(x, y) \sim D_{π_{ϕ}^{RL}}} [r_{θ} (x, y) - β \log (\frac{π_{ϕ}^{RL} (y | x)}{π^{SFT} (y | x)})]$

حيث $D_{π_{ϕ}^{RL}}$ هو توزيع التدريب الذي نستمد منه و $π^{SFT}$ هو النموذج غير المتناسق المدرب سابقًا. تُستخدم الثابتة $β$ لضبط شدة بند عقوبة كولباك - ليبلير. تُطبق هذه العقوبة على أساس كل مفردة بين السياسة ومخرجات النماذج غير المتناسقة. الهدف منها هو تجنب ضبط السياسة بشكل مفرط، مما يضمن أن عملية التدريب لا تُتَخصص بشكل مفرط على بيانات التدريب الجديدة.^[١٨]^[١٩] يعمل بند كولباك - ليبلير هذا عن طريق معاقبة تباعد كولباك - ليبلير (مقياس البُعد الإحصائي بين التوزيعات) بين النموذج الذي يتم ضبطه بدقة والنموذج الإشرافي الأصلي. من خلال اختيار $β$ المناسب، يمكن للتدريب أن يوازن بين التعلم من البيانات الجديدة مع الاحتفاظ بالمعلومات المفيدة من النموذج الأصلي، مما يزيد من التعميم عن طريق تجنب الملاءمة المفرطة للبيانات الجديدة. بالإضافة إلى منع النموذج الجديد من إنتاج مخرجات تختلف كثيرًا عن النموذج الأصلي، فإن الدافع الثاني لإدراج بند كولباك - ليبلير هو السماح للسياسة باستكشاف البيئة بشكل أكبر عن طريق تشجيع المزيد من الإنتروبيا، مما يمكن أن يمنع النموذج من الانهيار إلى وضعية واحدة.^[١٨]

ببساطة تقيس دالة الهدف مدى تطابق استجابات النموذج مع التغذية الراجعة البشرية. يولد النموذج استجابات لمختلف الطلبات، ثم يُقيم كل استجابة بناءً على مدى توافقها مع تفضيلات البشر (كما يقيسها نموذج المكافأة) ومدى قربها من الاستجابات النموذجية المتوقعة. الهدف هو تحقيق التوازن بين تحسين جودة الاستجابات لتلائم تفضيلات المستخدمين والحفاظ على تنوع الاستجابات وعدم الانحراف كثيرًا عن المعرفة الأساسية التي اكتسبها النموذج خلال تدريبه الأولي. يساعد هذا الأمر النموذج على تقديم إجابات مفيدة ومقبولة للمستخدمين، مع الحفاظ على فهم شامل للغة وتجنب تكرار الإجابات النمطية.

عادة ما يُضاف مصطلح ثان إلى دالة الهدف للسماح للنموذج بالحفاظ على المعرفة التي اكتسبها قبل التدريب. هذا المصطلح يمنع النموذج من نسيان قدرته الأساسية على فهم اللغة أثناء تعلم مهام جديدة بناءً على التغذية الراجعة البشرية. هذا يتم عن طريق دمج مهمة إكمال النص الأصلي مع المهام الجديدة. وبالتالي، فإن دالة الهدف النهائية تكون على النحو التالي:

$objective (ϕ) = E_{(x, y) \sim D_{π_{ϕ}^{RL}}} [r_{θ} (x, y) - β \log (\frac{π_{ϕ}^{RL} (y | x)}{π^{SFT} (y | x)})] + γ E_{x \sim D_{pretrain}} [\log (π_{ϕ}^{RL} (x))]$

حيث يتحكم $γ$ في قوة هذا الحد الإضافي و $D_{pretrain}$ هو توزيع نص التدريب المسبق الأصلي.^[١٩] يمكن بعد ذلك استخدام دالة الهدف هذه مباشرةً لتدريب السياسة باستخدام خوارزمية قالب:وإو.^[١٨]^[١٩]

في المجمل، تحدد دالة الهدف هذه طريقة تعديل سياسة التعلم المعزز، ممزوجةً بهدف التوافق مع ردود الفعل البشرية والحفاظ على فهم النموذج الأصلي للغة.

القيود

يعاني التعلم من خلال التعزيز مع ردود الفعل البشرية من تحديات في جمع ردود الفعل البشرية، وتعلم نموذج المكافأة، وتحسين السياسة.^[٤٢] قد تختلف جودته واتساقه اعتمادًا على المهمة، والواجهة، وتفضيلات وانحيازات الأفراد.^[١٩]^[٤٣]

إن فعالية تقنية التعزيز بردود الفعل البشرية في تدريب النماذج اللغوية تعتمد بشكل كبير على جودة ونوعية هذه التعليقات. فالتعليقات المنحازة أو غير المتسقة أو غير الدقيقة قد تؤدي إلى تحيز النموذج نحو مجموعات معينة على حساب أخرى.^[١٦]^[٤٤] كما أن هناك خطر من فرط الملاءمة حيث يحفظ النموذج الأمثلة المحددة للتعليقات بدلًا من استخلاص قواعد عامة. على سبيل المثال، قد يؤدي التركيز على تعليقات مجموعة ديموغرافية محددة إلى تعليم النموذج أنماطًا غير مرغوبة أو ضوضاء. علاوة على ذلك، فإن الاعتماد المفرط على تعليقات محددة قد يؤدي إلى تدهور أداء النموذج في سياقات جديدة أو مع مجموعات مستخدمين مختلفة.^[٤٥] ولا يمكن لآلية المكافأة الواحدة أن تمثل آراء جميع الفئات بشكل عادل، فحتى مع وجود عينة تمثيلية، قد تهيمن آراء الأغلبية على عملية التدريب، مما يؤثر سلبًا على المجموعات الأقل تمثيلًا.^[٤٢]

تواجه تقنية التعزيز بالتعليقات البشرية تحديًا يتمثل في احتمال استغلال النماذج اللغوية لهذه الآلية لتحقيق مكافآت دون تحسين الأداء الفعلي.^[٤٦] فعوضًا عن السعي لتحقيق الأهداف المرجوة، قد يتعلم النموذج استراتيجيات للتلاعب بالمتقيّمين البشريين للحصول على تقييمات إيجابية، حتى لو كانت استجاباته غير دقيقة أو مضللة. هذا السلوك، المعروف باسم "التحايل على النظام"، يمكن أن ينشأ بسبب التركيز على المكافأة اللحظية بدلًا من الجودة الحقيقية للإنتاج. على سبيل المثال، قد تكتشف النماذج أن التعبير عن الثقة الزائدة، حتى لو كان غير مبرر، يحقق نتائج أفضل. هذا الأمر يثير قلقًا بالغًا، خاصة وأن الدراسات تشير إلى صعوبة اكتشاف الأخطاء في مخرجات النماذج اللغوية الكبيرة من قبل البشر. وبالتالي، فإن انتشار النماذج القادرة على توليد نصوص واثقة ولكنها غير صحيحة يمثل تهديدًا كبيرًا للتطبيقات العملية لهذه التقنية.^[٤٢]

البدائل

التعلم المعزز من تغذية الذكاء الاصطناعي

على غرار التعلم المعزز البشري، يعتمد "التعلم المعزز من تغذية الذكاء الاصطناعي" على تدريب نموذج تفضيل، إلا أن التغذية الآراء تُولَّد آليًا.^[٤٧] يُستخدم هذا بشكل ملحوظ في نموذج كلود لشركة أنثروبيك.^[٤٨]

تحسين التفضيل المباشر

قُدّمَ بديل آخر لتعلم التعزيز البشري يُسمى تحسين التفضيل المباشر (DPO) لتعلم تفضيلات البشر، ومثل التعلم المعزز البشري، فقد تم تطبيقه لمواءمة نماذج اللغات الكبيرة المدربة مُسبقًا باستخدام بيانات تفضيلية مولَّدة بشريًا. ومع ذلك على عكس التعلم المعزز البشري، الذي يُدرب أولًا نموذجًا وسيطًا منفصلًا لفهم شكل النتائج الجيدة ثم يُعلّم النموذج الرئيسي كيفية تحقيق تلك النتائج، يُبسط تحسين التفضيل المباشر العملية من خلال تعديل النموذج الرئيسي مباشرةً وفقًا للتفضيلات البشرية. حيث يستخدم تغييرًا في المتغيرات لتحديد "خسارة التفضيل" مباشرةً كدالة للسياسة ويستخدم هذه الخسارة لضبط النموذج بدقة، مما يُساعده على فهم وتأهيل تفضيلات البشر دون الحاجة إلى خطوة منفصلة. في الأساس يُشكّل هذا النهج قرارات النموذج مباشرةً بناءً على التغذية الراجعة البشرية الإيجابية أو السلبية.

يُعد تحسين التفضيل المباشر أبسط تنفيذًا وتدريبًا من التعلم المعزز البشري وقد ثبت أنه يُنتج نتائج مماثلة وأحيانًا أفضل.^[٤٩] ومع ذلك، فقد ثبت أيضًا أن التعلم المعزز البشري يتفوق على تحسين التفضيل المباشر في بعض مجموعات البيانات، على سبيل المثال في المعايير التي تحاول قياس الصدق. لذلك قد يختلف اختيار الأسلوب اعتمادًا على خصائص بيانات التفضيل البشرية وطبيعة المهمة.^[٥٠]

مراجع

قالب:مراجع قالب:شريط سفلي ذكاء اصطناعي قالب:ذكاء اصطناعي توليدي قالب:شريط بوابات

قالب:شريط سفلي حوسبة تفاضلية

[1] قالب:استشهاد ويب

[2] قالب:استشهاد ويب

[3] قالب:استشهاد ويب

[4] قالب:استشهاد ويب قالب:استشهاد ويب| لغة = الإنجليزية| مسار أرشيف =http://archive.md/20241002204312/https://www.newscientist.com/article/2450360-ais-are-more-likely-to-mislead-people-if-trained-on-human-feedback/%7C تاريخ أرشيف = 02 أكتوبر 2024}}

[5] قالب:استشهاد ويب

[6] قالب:استشهاد ويب

[7] قالب:استشهاد ويب

[openai-8] ٨٫٠ ^٨٫١ ^٨٫٢ ^٨٫٣ ^٨٫٤ قالب:استشهاد ويب

[9] قالب:استشهاد بأرخايف

[10] قالب:استشهاد بكتاب

[11] قالب:استشهاد بكتاب

[12] قالب:استشهاد بدورية محكمة

[13] قالب:استشهاد بدورية محكمة

[14] قالب:استشهاد بدورية محكمة

[15] قالب:استشهاد بدورية محكمة

[huggingface-16] ١٦٫٠ ^١٦٫١ ^١٦٫٢ قالب:استشهاد ويب

[ziegler-17] قالب:استشهاد بأرخايف

[summarizationpaper-18] ١٨٫٠٠ ^١٨٫٠١ ^١٨٫٠٢ ^١٨٫٠٣ ^١٨٫٠٤ ^١٨٫٠٥ ^١٨٫٠٦ ^١٨٫٠٧ ^١٨٫٠٨ ^١٨٫٠٩ قالب:استشهاد بدورية محكمة

[instructgptpaper-19] ١٩٫٠٠ ^١٩٫٠١ ^١٩٫٠٢ ^١٩٫٠٣ ^١٩٫٠٤ ^١٩٫٠٥ ^١٩٫٠٦ ^١٩٫٠٧ ^١٩٫٠٨ ^١٩٫٠٩ ^١٩٫١٠ ^١٩٫١١ قالب:استشهاد بمنشورات مؤتمر

[20] قالب:استشهاد بأرخايف

[ars-21] ٢١٫٠ ^٢١٫١ قالب:استشهاد ويب

[22] قالب:استشهاد ويب

[23] قالب:استشهاد بأرخايف

[xiejiang-24] ٢٤٫٠ ^٢٤٫١ قالب:استشهاد بدورية محكمة

[pacchiano-25] ٢٥٫٠ ^٢٥٫١ قالب:استشهاد بدورية محكمة

[zhujordan-26] ٢٦٫٠ ^٢٦٫١ قالب:استشهاد بدورية محكمة

[27] قالب:استشهاد بدورية محكمة

[28] قالب:استشهاد بأرخايف

[29] قالب:استشهاد ويب

[30] قالب:استشهاد ويب

[31] قالب:استشهاد ويب

[32] قالب:استشهاد بأرخايف

[33] قالب:استشهاد ويب

[34] قالب:استشهاد ويب

[35] قالب:استشهاد ويب

[36] قالب:استشهاد بمجلة

[37] قالب:استشهاد بدورية محكمة

[38] قالب:استشهاد بدورية محكمة

[39] قالب:استشهاد بأرخايف

[40] قالب:استشهاد ويب

[41] قالب:استشهاد بدورية محكمة

[openproblems-42] ٤٢٫٠ ^٤٢٫١ ^٤٢٫٢ قالب:استشهاد بدورية محكمة

[43] قالب:استشهاد ويب

[44] قالب:استشهاد بدورية محكمة

[45] قالب:استشهاد ويب

[46] قالب:استشهاد ويب

[47] قالب:استشهاد ويب

[48] قالب:استشهاد ويب

[49] قالب:استشهاد بأرخايف

[50] قالب:استشهاد بأرخايف

[١]

[٢]

[٣]

[٤]

[٥]

[٦]

[٧]

[٨]

[٩]

[١٠]

[١١]

[١٢]

[١٣]

[١٤]

[١٥]

[١٦]

[١٧]

[١٨]

[١٩]

[٢٠]

[٢١]

[٢٢]

[٢٣]

[٢٤]

[٢٥]

[٢٦]

[٢٧]

[٢٨]

[٢٩]

[٣٠]

[٣١]

[٣٢]

[٣٣]

[٣٤]

[٣٥]

[٣٦]

[٣٧]

[٣٨]

[٣٩]

[٤٠]

[٤١]

[٤٢]

[٤٣]

[٤٤]

[٤٥]

[٤٦]

[٤٧]

[٤٨]

[٤٩]

[٥٠]