Evaluasi Menyeluruh Terhadap Keandalan Model GPT: Hasil Penelitian DecodingTrust
University of Illinois at Urbana-Champaign bekerja sama dengan Stanford University, University of California, Berkeley, Artificial Intelligence Safety Center, dan Microsoft Research meluncurkan platform penilaian keandalan terpadu untuk model bahasa besar (LLMs). Hasil penelitian platform ini diterbitkan dalam makalah berjudul "DecodingTrust: Penilaian Komprehensif Terhadap Keandalan Model GPT."
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dan menemukan beberapa kerentanan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih andal dibandingkan GPT-3.5, namun ketika menghadapi prompt jailbreak yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan oleh kepatuhannya yang lebih ketat terhadap instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang keandalan, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Penilaian dilakukan dengan menggunakan berbagai skenario, tugas, indikator, dan dataset.
Dalam hal serangan konfrontatif, penelitian menunjukkan bahwa GPT-3.5 dan GPT-4 menunjukkan kerentanan tertentu pada standar AdvGLUE. Dengan merancang berbagai instruksi tugas dan petunjuk sistem, kemampuan pemulihan model dapat diuji. Penelitian ini juga membangun dataset AdvGLUE++ yang lebih menantang untuk menguji kinerja model di bawah serangan konfrontatif yang kuat.
Dalam hal toksisitas dan bias, GPT-3.5 dan GPT-4 biasanya tidak memiliki bias yang signifikan terhadap sebagian besar tema stereotip. Namun, di bawah petunjuk sistem yang menyesatkan, kedua model dapat "dibuai" untuk setuju dengan konten yang bias, di mana GPT-4 lebih mudah terpengaruh. Tingkat bias model juga berkaitan dengan kelompok populasi dan tema tertentu.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin dapat membocorkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Secara keseluruhan, GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kinerja yang baik saat menghadapi jenis informasi privasi tertentu.
Penelitian ini memberikan perspektif yang komprehensif untuk menilai keandalan model GPT, mengungkapkan beberapa risiko potensial. Tim penelitian berharap bahwa karya ini dapat mendorong akademisi untuk mengeksplorasi lebih lanjut, mencegah pelaku buruk memanfaatkan celah-celah ini. Mereka menekankan bahwa ini hanyalah titik awal, dan di masa depan diperlukan lebih banyak kolaborasi untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
11 Suka
Hadiah
11
4
Posting ulang
Bagikan
Komentar
0/400
WalletDetective
· 4jam yang lalu
Kak, ini kan justru mengungkapkan rahasia kecil AI.
Lihat AsliBalas0
BloodInStreets
· 18jam yang lalu
play people for suckers makan rumput berbaring menunggu ai selesai
Lihat AsliBalas0
MemeEchoer
· 18jam yang lalu
GPT4 juga tidak ada gunanya.
Lihat AsliBalas0
DeFiAlchemist
· 18jam yang lalu
hmm... seperti menonton eksperimen alkimia digital yang berjalan salah sejujurnya... kerentanan gpt4 adalah batu filsuf yang terbalik
DecodingTrust mengungkap tantangan keandalan model GPT dengan evaluasi menyeluruh terhadap 8 risiko besar
Evaluasi Menyeluruh Terhadap Keandalan Model GPT: Hasil Penelitian DecodingTrust
University of Illinois at Urbana-Champaign bekerja sama dengan Stanford University, University of California, Berkeley, Artificial Intelligence Safety Center, dan Microsoft Research meluncurkan platform penilaian keandalan terpadu untuk model bahasa besar (LLMs). Hasil penelitian platform ini diterbitkan dalam makalah berjudul "DecodingTrust: Penilaian Komprehensif Terhadap Keandalan Model GPT."
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dan menemukan beberapa kerentanan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih andal dibandingkan GPT-3.5, namun ketika menghadapi prompt jailbreak yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan oleh kepatuhannya yang lebih ketat terhadap instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang keandalan, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Penilaian dilakukan dengan menggunakan berbagai skenario, tugas, indikator, dan dataset.
Dalam hal serangan konfrontatif, penelitian menunjukkan bahwa GPT-3.5 dan GPT-4 menunjukkan kerentanan tertentu pada standar AdvGLUE. Dengan merancang berbagai instruksi tugas dan petunjuk sistem, kemampuan pemulihan model dapat diuji. Penelitian ini juga membangun dataset AdvGLUE++ yang lebih menantang untuk menguji kinerja model di bawah serangan konfrontatif yang kuat.
Dalam hal toksisitas dan bias, GPT-3.5 dan GPT-4 biasanya tidak memiliki bias yang signifikan terhadap sebagian besar tema stereotip. Namun, di bawah petunjuk sistem yang menyesatkan, kedua model dapat "dibuai" untuk setuju dengan konten yang bias, di mana GPT-4 lebih mudah terpengaruh. Tingkat bias model juga berkaitan dengan kelompok populasi dan tema tertentu.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin dapat membocorkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Secara keseluruhan, GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kinerja yang baik saat menghadapi jenis informasi privasi tertentu.
Penelitian ini memberikan perspektif yang komprehensif untuk menilai keandalan model GPT, mengungkapkan beberapa risiko potensial. Tim penelitian berharap bahwa karya ini dapat mendorong akademisi untuk mengeksplorasi lebih lanjut, mencegah pelaku buruk memanfaatkan celah-celah ini. Mereka menekankan bahwa ini hanyalah titik awal, dan di masa depan diperlukan lebih banyak kolaborasi untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya.