原文來源:AIGC開放社區(qū)
圖片來源:由無界 AI生成
目前,多數(shù)大語言模型都是從網(wǎng)絡(luò)上收集的大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練、微調(diào)。使得這些模型面臨泄露用戶隱私、數(shù)據(jù)安全等多種問題。
盡管開發(fā)者提出了各種“遺忘”方法,能使大模型“忘記”訓(xùn)練數(shù)據(jù)中的某些隱私、敏感的數(shù)據(jù)。但很多方法非常有限,同時(shí)缺少有效的數(shù)據(jù)評(píng)估集。
因此,卡內(nèi)基梅隆大學(xué)的研究人員提出了TOFU框架,包含遺忘、數(shù)據(jù)集、評(píng)估等多個(gè)模塊,以幫助開發(fā)者提升大模型的安全性。
開源地址:https://github.com/locuslab/tofu
論文地址:https://arxiv.org/abs/2401.06121
TOFU數(shù)據(jù)集
TOFU數(shù)據(jù)集旨在幫助我們更深入地理解大模型的遺忘過程。通過TOFU數(shù)據(jù)集,開發(fā)人員可以精確控制模型對(duì)合成作者資料的接觸程度,以模擬一個(gè)在訓(xùn)練集中只出現(xiàn)一次的私人個(gè)體,幫助我們?cè)u(píng)估遺忘的效果。
該數(shù)據(jù)集由200個(gè)多樣化的合成作者資料組成,每個(gè)資料包含20個(gè)問題-答案對(duì)。其中的子集稱為"遺忘集",主要用于進(jìn)行遺忘的目標(biāo)數(shù)據(jù)。
為了評(píng)估遺忘方法的有效性,TOFU數(shù)據(jù)集提供了全新的評(píng)估方案,涵蓋了遺忘質(zhì)量和模型效用兩個(gè)方面的比較。對(duì)于模型效用,研究人員不僅計(jì)算了幾個(gè)性能指標(biāo),還創(chuàng)建了新的評(píng)估數(shù)據(jù)集,這些數(shù)據(jù)集構(gòu)成了一個(gè)相關(guān)性梯度,有助于衡量遺忘過程的影響,將這些數(shù)字綜合為一個(gè)模型效用指標(biāo)。
為了評(píng)估遺忘質(zhì)量,研究人員提出了一種新的度量方法,比較了生成的真實(shí)答案和錯(cuò)誤答案在遺忘集上的概率。然后使用統(tǒng)計(jì)測(cè)試方法將遺忘模型與從未在敏感數(shù)據(jù)上進(jìn)行訓(xùn)練的標(biāo)準(zhǔn)模型進(jìn)行比較。
此外,研究人員還評(píng)估了四種基線方法在不同遺忘嚴(yán)重程度上的表現(xiàn),比較了模型效用和遺忘質(zhì)量。
這些基線方法考慮了不同數(shù)量的任務(wù)信息和計(jì)算量,例如,使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行輸出匹配,需要更多的數(shù)據(jù)和前向傳遞。
TOFU遺忘模塊
遺忘模塊是TOFU的另外一個(gè)核心功能,可以幫助開發(fā)者從大語言模型中移除敏感數(shù)據(jù),使其在行為上表現(xiàn)得好像從未學(xué)習(xí)過這些遺忘數(shù)據(jù)一樣。
遺忘模塊需要根據(jù)遺忘集的數(shù)據(jù)對(duì)模型進(jìn)行調(diào)整,以實(shí)現(xiàn)遺忘效果。主要包含參數(shù)調(diào)整和樣本選擇兩種方法。
參數(shù)調(diào)整:該方法主要通過修改模型的參數(shù),來實(shí)現(xiàn)遺忘效果。遺忘模塊會(huì)根據(jù)遺忘數(shù)據(jù)集的樣本重新訓(xùn)練模型,但在訓(xùn)練過程中會(huì)有所改變。
常見的方法是,將遺忘集的樣本標(biāo)記為"遺忘"或"無效",并與原始訓(xùn)練數(shù)據(jù)一起使用。在訓(xùn)練過程中,模型會(huì)盡量調(diào)整參數(shù)以減少對(duì)遺忘集的依賴性,從而達(dá)到遺忘敏感信息的效果。
樣本選擇方法:該方法通過選擇性地使用遺忘數(shù)據(jù)集的樣本,來實(shí)現(xiàn)遺忘效果。遺忘模塊會(huì)根據(jù)一定的準(zhǔn)則從遺忘數(shù)據(jù)集中選擇一部分樣本,并僅使用這部分樣本進(jìn)行模型的訓(xùn)練。
這些樣本通常被認(rèn)為是與敏感信息最相關(guān)的樣本。通過僅使用這些樣本進(jìn)行訓(xùn)練,模型可以逐漸遺忘與這些樣本相關(guān)的敏感信息或相關(guān)性進(jìn)行篩選,以便更有針對(duì)性地移除敏感數(shù)據(jù)。