99ri日韩国产,日韩国产欧美另类,亚洲ⅴa在线va天堂va,青青青亚洲视频

    
    

    <th id="crsrf"><progress id="crsrf"><listing id="crsrf"></listing></progress></th>
    當(dāng)前位置:區(qū)塊鏈 >區(qū)塊鏈 > 讓大模型忘掉隱私數(shù)據(jù),卡內(nèi)基開源TOFU

    讓大模型忘掉隱私數(shù)據(jù),卡內(nèi)基開源TOFU

    更新時(shí)間:2024-01-19 12:20:00 | 作者:佚名
    原文來源:AIGC開放社區(qū) 圖片來源:由無界AI生成 目前,多數(shù)大語言模型都是從網(wǎng)絡(luò)上收集的大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練、微調(diào)。使得這些模型面臨泄露用戶隱私、數(shù)據(jù)安全等多種問題。 盡管開發(fā)者提出了各種“遺忘”方法,能使大模型“忘記”訓(xùn)練數(shù)據(jù)中的某些隱私、敏感的數(shù)據(jù)。但很多方法非常有限,同時(shí)缺少有效的數(shù)據(jù)評(píng)估集。 因此,卡內(nèi)基梅隆大學(xué)的研究人員提出了TOFU框架,包含...

    原文來源:AIGC開放社區(qū)

    圖片來源:由無界 AI生成

    目前,多數(shù)大語言模型都是從網(wǎng)絡(luò)上收集的大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練、微調(diào)。使得這些模型面臨泄露用戶隱私、數(shù)據(jù)安全等多種問題。

    盡管開發(fā)者提出了各種“遺忘”方法,能使大模型“忘記”訓(xùn)練數(shù)據(jù)中的某些隱私、敏感的數(shù)據(jù)。但很多方法非常有限,同時(shí)缺少有效的數(shù)據(jù)評(píng)估集。

    因此,卡內(nèi)基梅隆大學(xué)的研究人員提出了TOFU框架,包含遺忘、數(shù)據(jù)集、評(píng)估等多個(gè)模塊,以幫助開發(fā)者提升大模型的安全性。

    開源地址:https://github.com/locuslab/tofu

    論文地址:https://arxiv.org/abs/2401.06121


    TOFU數(shù)據(jù)集


    TOFU數(shù)據(jù)集旨在幫助我們更深入地理解大模型的遺忘過程。通過TOFU數(shù)據(jù)集,開發(fā)人員可以精確控制模型對(duì)合成作者資料的接觸程度,以模擬一個(gè)在訓(xùn)練集中只出現(xiàn)一次的私人個(gè)體,幫助我們?cè)u(píng)估遺忘的效果。

    該數(shù)據(jù)集由200個(gè)多樣化的合成作者資料組成,每個(gè)資料包含20個(gè)問題-答案對(duì)。其中的子集稱為"遺忘集",主要用于進(jìn)行遺忘的目標(biāo)數(shù)據(jù)。

    為了評(píng)估遺忘方法的有效性,TOFU數(shù)據(jù)集提供了全新的評(píng)估方案,涵蓋了遺忘質(zhì)量和模型效用兩個(gè)方面的比較。對(duì)于模型效用,研究人員不僅計(jì)算了幾個(gè)性能指標(biāo),還創(chuàng)建了新的評(píng)估數(shù)據(jù)集,這些數(shù)據(jù)集構(gòu)成了一個(gè)相關(guān)性梯度,有助于衡量遺忘過程的影響,將這些數(shù)字綜合為一個(gè)模型效用指標(biāo)。

    為了評(píng)估遺忘質(zhì)量,研究人員提出了一種新的度量方法,比較了生成的真實(shí)答案和錯(cuò)誤答案在遺忘集上的概率。然后使用統(tǒng)計(jì)測(cè)試方法將遺忘模型與從未在敏感數(shù)據(jù)上進(jìn)行訓(xùn)練的標(biāo)準(zhǔn)模型進(jìn)行比較。

    此外,研究人員還評(píng)估了四種基線方法在不同遺忘嚴(yán)重程度上的表現(xiàn),比較了模型效用和遺忘質(zhì)量。

    這些基線方法考慮了不同數(shù)量的任務(wù)信息和計(jì)算量,例如,使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行輸出匹配,需要更多的數(shù)據(jù)和前向傳遞。


    TOFU遺忘模塊


    遺忘模塊是TOFU的另外一個(gè)核心功能,可以幫助開發(fā)者從大語言模型中移除敏感數(shù)據(jù),使其在行為上表現(xiàn)得好像從未學(xué)習(xí)過這些遺忘數(shù)據(jù)一樣。

    遺忘模塊需要根據(jù)遺忘集的數(shù)據(jù)對(duì)模型進(jìn)行調(diào)整,以實(shí)現(xiàn)遺忘效果。主要包含參數(shù)調(diào)整和樣本選擇兩種方法。

    參數(shù)調(diào)整:該方法主要通過修改模型的參數(shù),來實(shí)現(xiàn)遺忘效果。遺忘模塊會(huì)根據(jù)遺忘數(shù)據(jù)集的樣本重新訓(xùn)練模型,但在訓(xùn)練過程中會(huì)有所改變。

    常見的方法是,將遺忘集的樣本標(biāo)記為"遺忘"或"無效",并與原始訓(xùn)練數(shù)據(jù)一起使用。在訓(xùn)練過程中,模型會(huì)盡量調(diào)整參數(shù)以減少對(duì)遺忘集的依賴性,從而達(dá)到遺忘敏感信息的效果。

    樣本選擇方法:該方法通過選擇性地使用遺忘數(shù)據(jù)集的樣本,來實(shí)現(xiàn)遺忘效果。遺忘模塊會(huì)根據(jù)一定的準(zhǔn)則從遺忘數(shù)據(jù)集中選擇一部分樣本,并僅使用這部分樣本進(jìn)行模型的訓(xùn)練。

    這些樣本通常被認(rèn)為是與敏感信息最相關(guān)的樣本。通過僅使用這些樣本進(jìn)行訓(xùn)練,模型可以逐漸遺忘與這些樣本相關(guān)的敏感信息或相關(guān)性進(jìn)行篩選,以便更有針對(duì)性地移除敏感數(shù)據(jù)。

    本站提醒:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,本內(nèi)容不作為投資理財(cái)建議。