💙 Gate廣場 #Gate品牌蓝创作挑战# 💙
用Gate品牌藍,描繪你的無限可能!
📅 活動時間
2025年8月11日 — 8月20日
🎯 活動玩法
1. 在 Gate廣場 發布原創內容(圖片 / 視頻 / 手繪 / 數字創作等),需包含 Gate品牌藍 或 Gate Logo 元素。
2. 帖子標題或正文必須包含標籤: #Gate品牌蓝创作挑战# 。
3. 內容中需附上一句對Gate的祝福或寄語(例如:“祝Gate交易所越辦越好,藍色永恆!”)。
4. 內容需爲原創且符合社區規範,禁止抄襲或搬運。
🎁 獎勵設置
一等獎(1名):Gate × Redbull 聯名賽車拼裝套裝
二等獎(3名):Gate品牌衛衣
三等獎(5名):Gate品牌足球
備注:若無法郵寄,將統一替換爲合約體驗券:一等獎 $200、二等獎 $100、三等獎 $50。
🏆 評選規則
官方將綜合以下維度評分:
創意表現(40%):主題契合度、創意獨特性
內容質量(30%):畫面精美度、敘述完整性
社區互動度(30%):點讚、評論及轉發等數據
DecodingTrust揭示GPT模型可信度挑戰 全面評估8大風險
全面評估GPT模型的可信度:DecodingTrust研究成果
伊利諾伊大學香檳分校與斯坦福大學、加州大學伯克利分校、人工智能安全中心和微軟研究院聯合推出了一個針對大型語言模型(LLMs)的綜合可信度評估平台。該平台的研究成果發表在題爲《DecodingTrust:全面評估GPT模型的可信度》的論文中。
研究團隊對GPT模型進行了全面的可信度評估,發現了一些此前未被公開的漏洞。例如,GPT模型容易產生有害和帶有偏見的輸出,還可能泄露訓練數據和對話歷史中的隱私信息。雖然在標準測試中GPT-4通常比GPT-3.5更可靠,但在面對惡意設計的越獄提示時,GPT-4反而更容易受到攻擊,這可能是因爲它更嚴格地遵循了誤導性指令。
研究團隊從八個可信度角度對GPT模型進行了全面評估,包括對抗性攻擊的魯棒性、有毒性和偏見、隱私泄露等方面。評估採用了多種場景、任務、指標和數據集。
在對抗性攻擊方面,研究發現GPT-3.5和GPT-4在標準AdvGLUE基準上都表現出一定脆弱性。通過設計不同的任務說明和系統提示,可以測試模型的恢復能力。研究還構建了更具挑戰性的AdvGLUE++數據集,進一步測試模型在強對抗攻擊下的表現。
在有毒性和偏見方面,GPT-3.5和GPT-4在正常情況下對大多數刻板印象主題的偏見不大。但在誤導性系統提示下,兩種模型都可能被"誘騙"同意有偏見的內容,其中GPT-4更容易受到影響。模型的偏見程度還與具體的人口羣體和主題有關。
在隱私保護方面,研究發現GPT模型可能會泄露訓練數據中的敏感信息,如電子郵件地址。在某些情況下,利用補充知識可以大幅提高信息提取的準確率。總體而言,GPT-4在保護個人身分信息方面比GPT-3.5更穩健,但兩種模型在面對特定類型隱私信息時都表現良好。
這項研究爲GPT模型的可信度評估提供了全面的視角,揭示了一些潛在的風險。研究團隊希望這項工作能促進學術界進一步探索,預防不良行爲者利用這些漏洞。他們強調,這只是一個起點,未來需要更多合作來創造更強大、更可信的模型。