99ri日韩国产,日韩国产欧美另类,亚洲ⅴa在线va天堂va,青青青亚洲视频

    
    

    <th id="crsrf"><progress id="crsrf"><listing id="crsrf"></listing></progress></th>
    當(dāng)前位置:區(qū)塊鏈 >區(qū)塊鏈 > 無需額外訓(xùn)練提升模型30%性能!DeepMind科學(xué)家點(diǎn)贊MIT博士生實(shí)習(xí)成果

    無需額外訓(xùn)練提升模型30%性能!DeepMind科學(xué)家點(diǎn)贊MIT博士生實(shí)習(xí)成果

    更新時(shí)間:2023-12-31 14:54:45 | 作者:佚名
    原文來源:量子位 圖片來源:由無界AI生成 一個(gè)來自MIT博士生的驚人發(fā)現(xiàn): 只需對Transformer的特定層進(jìn)行一種非常簡單的修剪,即可在縮小模型規(guī)模的同時(shí)顯著提高模型性能。 效果主要體現(xiàn)在文本理解任務(wù)上,最高可達(dá)30%。 這在3個(gè)模型(LLama2、GPT-J和Roberta)和8個(gè)不同數(shù)據(jù)集上都得到了驗(yàn)證(包含認(rèn)知推理、世界知識等)。 除了文...

    原文來源:量子位

    圖片來源:由無界 AI生成

    一個(gè)來自MIT博士生的驚人發(fā)現(xiàn):

    只需對Transformer的特定層進(jìn)行一種非常簡單的修剪,即可在縮小模型規(guī)模的同時(shí)顯著提高模型性能。

    效果主要體現(xiàn)在文本理解任務(wù)上,最高可達(dá)30%。

    這在3個(gè)模型(LLama2、GPT-J和Roberta)和8個(gè)不同數(shù)據(jù)集上都得到了驗(yàn)證(包含認(rèn)知推理、世界知識等)。

    除了文本理解,它也適用于強(qiáng)化學(xué)習(xí)。

    當(dāng)然,更重要的是,這個(gè)操作只需在模型訓(xùn)練完成之后進(jìn)行,不需要額外的參數(shù)和數(shù)據(jù)。

    DeepMind研究科學(xué)家看完都來點(diǎn)贊了:

    那么,它具體怎么做的?


    方法概述


    該方法全稱“ Layer-Selective Rank Reduction”,簡稱“LASER”。

    這是一種選擇性地去除LLM權(quán)重矩陣高階組件(components)的干預(yù)措施,操作就在Transformer模型的特定權(quán)重矩陣和層中進(jìn)行。

    研究發(fā)現(xiàn),即使完全去除90%以上,模型性能一般也不會(huì)下降。

    具體而言,LASER通過rank-k近似來替換Transformer模型中的特定權(quán)重矩陣(W),有時(shí)僅減少包含前1%組件的矩陣,也能達(dá)到不錯(cuò)的效果。

    一個(gè)單步LASER干預(yù)措施包含三個(gè)參數(shù):

    類型(T)、層號(? )和降秩(ρ,全稱rank reduction)。

    這些值組合在一起描述哪個(gè)矩陣將被其低階近似所取代,以及近似的程度。

    其中參數(shù)類型對我們將要干預(yù)的矩陣進(jìn)行分類,而矩陣W來自MLP和注意力層。

    層號表示我們要介入的層(第一層從0開始索引)。比如Llama-2有32層,因此? ∈{0,1,2,···31}。

    最后,ρ∈[0,1)描述在進(jìn)行低秩近似時(shí)應(yīng)該保留最大秩的分?jǐn)?shù)。

    下圖為LASER操作的一個(gè)示例,它更新的是第L層Transformer塊中MLP的第一層權(quán)重矩陣。

    實(shí)驗(yàn)發(fā)現(xiàn):

    不同層類型之間的降秩效果并不統(tǒng)一,主要可在MLP層的后續(xù)transformer塊中執(zhí)行LASER操作觀察到,在注意力層中則很微弱。

    同時(shí),如果我們一氣兒在多個(gè)層上執(zhí)行LASER還可以進(jìn)一步增強(qiáng)模型性能,超越單層所帶來的改進(jìn)。

    具體而言,有時(shí)可以超過模型原始性能的2倍。

    除了最高可提升模型30%的文本理解性能,它還對強(qiáng)化學(xué)習(xí)有效。

    在此,作者評估了LASER對一個(gè)訓(xùn)練和評估Sokoban游戲(通過移動(dòng)塊推入洞中)的決策transformer模型的影響。

    結(jié)果發(fā)現(xiàn),有了LASER,模型可以多解決3%的任務(wù)。


    原因分析


    為什么這樣一個(gè)簡單操作就能帶來模型性能如此的提升?

    作者用GPT-J模型的結(jié)果來分析(選該模型主要是該它的訓(xùn)練數(shù)據(jù)DT rain是公開的),即通過計(jì)算訓(xùn)練數(shù)據(jù)中“糾正事實(shí)”發(fā)生的頻率,來弄清究竟是哪些數(shù)據(jù)點(diǎn)從中受益。

    結(jié)果發(fā)現(xiàn),性能最大的提升發(fā)生在低頻樣本上。

    如下圖所示c,條形圖顯示了LASER為數(shù)據(jù)提供的提升量,準(zhǔn)確性的最大改進(jìn)來自于訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率較低的數(shù)據(jù)點(diǎn)。

    作者解釋,這很明顯,消除高階組件“去噪”了模型,并有助于恢復(fù)隱藏的、頻率較低的信息。

    對此,DeepMind研究員表示相當(dāng)有道理:

    LLM必須對大量錯(cuò)誤的推理和不準(zhǔn)確的信息進(jìn)行建模,而剔除它們所學(xué)到的一些知識會(huì)有所幫助。

    那么問題又來了:矩陣中的高階組件究竟存儲(chǔ)了哪些會(huì)破壞模型的內(nèi)容?

    通過近似這些組件的以學(xué)習(xí)權(quán)重矩陣,作者發(fā)現(xiàn):

    當(dāng)原始的、未修改的模型不能正確回答時(shí),高階組件偶爾會(huì)用一些沒有實(shí)際含義的高頻詞(例如“a”、“the”、“of”)來回答問題,或者直接預(yù)測與正確答案具有相同語義類型但不正確的實(shí)體。

    而使用LASER去除這些高階組件后,就可以解決這個(gè)問題,使模型正確響應(yīng)。

    總的來說,這項(xiàng)研究對于理解信息如何存儲(chǔ)在LLM中、如何壓縮模型規(guī)模以及更廣泛地理解大型語言模型的行為影響有很大用處。

    目前也還有很多亟待解決的問題,比如:

    1、為什么權(quán)重矩陣中的高階組件在訓(xùn)練過程中會(huì)積累噪聲答案?

    2、模型架構(gòu)和結(jié)構(gòu)選擇對這種現(xiàn)象的發(fā)生有何影響?


    作者介紹


    本文一共三位作者,一作為MIT EECS在讀博士生,她在微軟實(shí)習(xí)時(shí)產(chǎn)出了這項(xiàng)研究。

    剩下兩位都是她本次研究的指導(dǎo)老師,全部為微軟紐約研究院高級研究員,具有同等指導(dǎo)貢獻(xiàn)。

    一位是Jordan T. Ash,博士畢業(yè)于普林斯頓大學(xué),研究方向?yàn)樯疃葘W(xué)習(xí)和順序決策相關(guān)問題。

    另一位是Dipendra Misra,研究方向?yàn)榻换ナ綄W(xué)習(xí)、NLP和表征學(xué)習(xí)。

    參考鏈接:
    [1]https://arxiv.org/abs/2312.13558
    [2]https://twitter.com/pratyusha_PS/status/1739025292805468212

    本站提醒:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,本內(nèi)容不作為投資理財(cái)建議。