التقييم الشامل لموثوقية نموذج GPT: نتائج بحث DecodingTrust
أطلقت جامعة إلينوي في أوربانا شامبين بالتعاون مع جامعة ستانفورد وجامعة كاليفورنيا في بيرkeley ومركز أمان الذكاء الاصطناعي ومختبرات أبحاث مايكروسوفت منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج هذا البحث في ورقة بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
أجرى فريق البحث تقييمًا شاملاً لموثوقية نموذج GPT، واكتشفوا بعض الثغرات التي لم يتم الكشف عنها سابقًا. على سبيل المثال، يميل نموذج GPT إلى إنتاج نتائج ضارة ومتحيزة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وسجل المحادثات. على الرغم من أن GPT-4 غالبًا ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عند مواجهة مطالبات هروب مصممة بشكل خبيث، يصبح GPT-4 أكثر عرضة للهجمات، وقد يكون ذلك بسبب التزامه الأكثر صرامة بالتعليمات الخادعة.
قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية جوانب موثوقة، بما في ذلك قوة مقاومة الهجمات العدائية، والسمية والتحيز، وتسرب الخصوصية، وغيرها. تم استخدام مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات في التقييم.
في مجال الهجمات العدائية، أظهرت الأبحاث أن GPT-3.5 و GPT-4 تظهران بعض الضعف على معيار AdvGLUE القياسي. من خلال تصميم تعليمات مهام مختلفة ومحفزات نظام، يمكن اختبار قدرة النموذج على التعافي. كما قامت الدراسة ببناء مجموعة بيانات AdvGLUE++ الأكثر تحديًا، لاختبار أداء النموذج تحت هجمات عدائية قوية.
فيما يتعلق بالسمية والتحيز، فإن GPT-3.5 و GPT-4 في الظروف العادية لا يظهران تحيزًا كبيرًا تجاه معظم موضوعات القوالب النمطية. ولكن تحت التحفيزات النظامية المضللة، يمكن "خداع" كلا النموذجين للموافقة على محتوى متحيز، حيث أن GPT-4 أكثر عرضة للتأثر. كما أن مستوى تحيز النموذج يعتمد أيضًا على الفئات السكانية والموضوعات المحددة.
في مجال حماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن تؤدي الاستفادة من المعرفة الإضافية إلى تحسين كبير في دقة استخراج المعلومات. بشكل عام، يعد GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلا النموذجين يظهران أداءً جيداً عند مواجهة أنواع معينة من المعلومات الخاصة.
تقدم هذه الدراسة وجهة نظر شاملة لتقييم موثوقية نماذج GPT، كاشفة عن بعض المخاطر المحتملة. يأمل فريق البحث أن تعزز هذه العمل استكشاف الأكاديميين بشكل أكبر، لمنع سوء استخدام هذه الثغرات من قبل الجهات الضارة. وأكدوا أن هذه ليست سوى نقطة انطلاق، وأنه ستكون هناك حاجة إلى مزيد من التعاون في المستقبل لإنشاء نماذج أقوى وأكثر موثوقية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 13
أعجبني
13
4
إعادة النشر
مشاركة
تعليق
0/400
WalletDetective
· منذ 9 س
هذا ليس مجرد كشف عن حيل الذكاء الاصطناعي.
شاهد النسخة الأصليةرد0
BloodInStreets
· منذ 23 س
قطع الخسارة吃草 躺平等ai完蛋
شاهد النسخة الأصليةرد0
MemeEchoer
· منذ 23 س
GPT4 لا فائدة منه أيضًا
شاهد النسخة الأصليةرد0
DeFiAlchemist
· منذ 23 س
همم... كأنك تشاهد تجربة كيمياء رقمية تسير بشكل خاطئ بصراحة... ضعف gpt4 هو حجر الفلاسفة بشكل عكسي
DecodingTrust يكشف عن تحديات موثوقية نموذج GPT ويقوم بتقييم شامل لـ 8 مخاطر
التقييم الشامل لموثوقية نموذج GPT: نتائج بحث DecodingTrust
أطلقت جامعة إلينوي في أوربانا شامبين بالتعاون مع جامعة ستانفورد وجامعة كاليفورنيا في بيرkeley ومركز أمان الذكاء الاصطناعي ومختبرات أبحاث مايكروسوفت منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج هذا البحث في ورقة بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
أجرى فريق البحث تقييمًا شاملاً لموثوقية نموذج GPT، واكتشفوا بعض الثغرات التي لم يتم الكشف عنها سابقًا. على سبيل المثال، يميل نموذج GPT إلى إنتاج نتائج ضارة ومتحيزة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وسجل المحادثات. على الرغم من أن GPT-4 غالبًا ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عند مواجهة مطالبات هروب مصممة بشكل خبيث، يصبح GPT-4 أكثر عرضة للهجمات، وقد يكون ذلك بسبب التزامه الأكثر صرامة بالتعليمات الخادعة.
قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية جوانب موثوقة، بما في ذلك قوة مقاومة الهجمات العدائية، والسمية والتحيز، وتسرب الخصوصية، وغيرها. تم استخدام مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات في التقييم.
في مجال الهجمات العدائية، أظهرت الأبحاث أن GPT-3.5 و GPT-4 تظهران بعض الضعف على معيار AdvGLUE القياسي. من خلال تصميم تعليمات مهام مختلفة ومحفزات نظام، يمكن اختبار قدرة النموذج على التعافي. كما قامت الدراسة ببناء مجموعة بيانات AdvGLUE++ الأكثر تحديًا، لاختبار أداء النموذج تحت هجمات عدائية قوية.
فيما يتعلق بالسمية والتحيز، فإن GPT-3.5 و GPT-4 في الظروف العادية لا يظهران تحيزًا كبيرًا تجاه معظم موضوعات القوالب النمطية. ولكن تحت التحفيزات النظامية المضللة، يمكن "خداع" كلا النموذجين للموافقة على محتوى متحيز، حيث أن GPT-4 أكثر عرضة للتأثر. كما أن مستوى تحيز النموذج يعتمد أيضًا على الفئات السكانية والموضوعات المحددة.
في مجال حماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن تؤدي الاستفادة من المعرفة الإضافية إلى تحسين كبير في دقة استخراج المعلومات. بشكل عام، يعد GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلا النموذجين يظهران أداءً جيداً عند مواجهة أنواع معينة من المعلومات الخاصة.
تقدم هذه الدراسة وجهة نظر شاملة لتقييم موثوقية نماذج GPT، كاشفة عن بعض المخاطر المحتملة. يأمل فريق البحث أن تعزز هذه العمل استكشاف الأكاديميين بشكل أكبر، لمنع سوء استخدام هذه الثغرات من قبل الجهات الضارة. وأكدوا أن هذه ليست سوى نقطة انطلاق، وأنه ستكون هناك حاجة إلى مزيد من التعاون في المستقبل لإنشاء نماذج أقوى وأكثر موثوقية.