Đánh giá toàn diện độ tin cậy của mô hình GPT: Kết quả nghiên cứu DecodingTrust
Đại học Illinois tại Urbana-Champaign đã hợp tác với Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft để ra mắt một nền tảng đánh giá độ tin cậy tổng hợp cho các mô hình ngôn ngữ lớn (LLMs). Kết quả nghiên cứu của nền tảng này đã được công bố trong bài báo có tiêu đề "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Nhóm nghiên cứu đã thực hiện đánh giá toàn diện về độ tin cậy của mô hình GPT và phát hiện ra một số lỗ hổng chưa được công khai trước đó. Ví dụ, mô hình GPT dễ dàng tạo ra đầu ra có hại và có thiên kiến, và cũng có khả năng rò rỉ thông tin riêng tư từ dữ liệu đào tạo và lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các nhắc nhở được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, điều này có thể do nó tuân theo các chỉ thị sai lệch một cách nghiêm ngặt hơn.
Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ tám góc độ độ tin cậy, bao gồm độ bền trước các cuộc tấn công đối kháng, độc tính và thiên kiến, rò rỉ thông tin cá nhân, và nhiều khía cạnh khác. Đánh giá được thực hiện qua nhiều tình huống, nhiệm vụ, chỉ số và tập dữ liệu.
Trong việc chống lại các cuộc tấn công đối kháng, nghiên cứu cho thấy GPT-3.5 và GPT-4 đều thể hiện một mức độ dễ bị tổn thương nhất định trên chuẩn AdvGLUE tiêu chuẩn. Bằng cách thiết kế các chỉ dẫn nhiệm vụ và gợi ý hệ thống khác nhau, có thể kiểm tra khả năng phục hồi của mô hình. Nghiên cứu cũng xây dựng bộ dữ liệu AdvGLUE++ thách thức hơn, nhằm kiểm tra thêm hiệu suất của mô hình dưới các cuộc tấn công đối kháng mạnh.
Về mặt độc hại và thiên kiến, GPT-3.5 và GPT-4 thường không có thiên kiến lớn đối với hầu hết các chủ đề định kiến. Tuy nhiên, dưới các thông điệp hệ thống gây hiểu lầm, cả hai mô hình đều có thể bị "dụ dỗ" đồng ý với nội dung có thiên kiến, trong đó GPT-4 dễ bị ảnh hưởng hơn. Mức độ thiên kiến của mô hình cũng liên quan đến các nhóm dân số và chủ đề cụ thể.
Trong lĩnh vực bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể làm lộ thông tin nhạy cảm từ dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Nhìn chung, GPT-4 chắc chắn hơn trong việc bảo vệ thông tin danh tính cá nhân so với GPT-3.5, nhưng cả hai mô hình đều hoạt động tốt khi đối mặt với các loại thông tin riêng tư cụ thể.
Nghiên cứu này cung cấp một góc nhìn toàn diện về việc đánh giá độ tin cậy của mô hình GPT, tiết lộ một số rủi ro tiềm ẩn. Nhóm nghiên cứu hy vọng công việc này sẽ thúc đẩy cộng đồng học thuật khám phá thêm, ngăn chặn những kẻ xấu lợi dụng những lỗ hổng này. Họ nhấn mạnh rằng đây chỉ là một khởi đầu, trong tương lai cần nhiều sự hợp tác hơn nữa để tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
10 thích
Phần thưởng
10
3
Chia sẻ
Bình luận
0/400
BloodInStreets
· 3giờ trước
Cắt lỗ ăn cỏ nằm phẳng đợi ai xong đời
Xem bản gốcTrả lời0
MemeEchoer
· 3giờ trước
GPT4 cũng chẳng có tác dụng gì cả
Xem bản gốcTrả lời0
DeFiAlchemist
· 3giờ trước
hmm... như đang xem một thí nghiệm giả kim thuật số đi sai thật sự... điểm yếu của gpt4 là viên đá triết gia theo chiều ngược lại
DecodingTrust tiết lộ thách thức độ tin cậy của mô hình GPT, đánh giá toàn diện 8 rủi ro.
Đánh giá toàn diện độ tin cậy của mô hình GPT: Kết quả nghiên cứu DecodingTrust
Đại học Illinois tại Urbana-Champaign đã hợp tác với Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft để ra mắt một nền tảng đánh giá độ tin cậy tổng hợp cho các mô hình ngôn ngữ lớn (LLMs). Kết quả nghiên cứu của nền tảng này đã được công bố trong bài báo có tiêu đề "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Nhóm nghiên cứu đã thực hiện đánh giá toàn diện về độ tin cậy của mô hình GPT và phát hiện ra một số lỗ hổng chưa được công khai trước đó. Ví dụ, mô hình GPT dễ dàng tạo ra đầu ra có hại và có thiên kiến, và cũng có khả năng rò rỉ thông tin riêng tư từ dữ liệu đào tạo và lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các nhắc nhở được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, điều này có thể do nó tuân theo các chỉ thị sai lệch một cách nghiêm ngặt hơn.
Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ tám góc độ độ tin cậy, bao gồm độ bền trước các cuộc tấn công đối kháng, độc tính và thiên kiến, rò rỉ thông tin cá nhân, và nhiều khía cạnh khác. Đánh giá được thực hiện qua nhiều tình huống, nhiệm vụ, chỉ số và tập dữ liệu.
Trong việc chống lại các cuộc tấn công đối kháng, nghiên cứu cho thấy GPT-3.5 và GPT-4 đều thể hiện một mức độ dễ bị tổn thương nhất định trên chuẩn AdvGLUE tiêu chuẩn. Bằng cách thiết kế các chỉ dẫn nhiệm vụ và gợi ý hệ thống khác nhau, có thể kiểm tra khả năng phục hồi của mô hình. Nghiên cứu cũng xây dựng bộ dữ liệu AdvGLUE++ thách thức hơn, nhằm kiểm tra thêm hiệu suất của mô hình dưới các cuộc tấn công đối kháng mạnh.
Về mặt độc hại và thiên kiến, GPT-3.5 và GPT-4 thường không có thiên kiến lớn đối với hầu hết các chủ đề định kiến. Tuy nhiên, dưới các thông điệp hệ thống gây hiểu lầm, cả hai mô hình đều có thể bị "dụ dỗ" đồng ý với nội dung có thiên kiến, trong đó GPT-4 dễ bị ảnh hưởng hơn. Mức độ thiên kiến của mô hình cũng liên quan đến các nhóm dân số và chủ đề cụ thể.
Trong lĩnh vực bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể làm lộ thông tin nhạy cảm từ dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Nhìn chung, GPT-4 chắc chắn hơn trong việc bảo vệ thông tin danh tính cá nhân so với GPT-3.5, nhưng cả hai mô hình đều hoạt động tốt khi đối mặt với các loại thông tin riêng tư cụ thể.
Nghiên cứu này cung cấp một góc nhìn toàn diện về việc đánh giá độ tin cậy của mô hình GPT, tiết lộ một số rủi ro tiềm ẩn. Nhóm nghiên cứu hy vọng công việc này sẽ thúc đẩy cộng đồng học thuật khám phá thêm, ngăn chặn những kẻ xấu lợi dụng những lỗ hổng này. Họ nhấn mạnh rằng đây chỉ là một khởi đầu, trong tương lai cần nhiều sự hợp tác hơn nữa để tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn.