“Anthropic Claude2.1已經(jīng)把幻覺發(fā)生幾率降低了50%,但從實現(xiàn)原理上,模型設計就是為了生成,一定會胡說八道?!?br>“幻覺不是一個孤立問題,它不光跟模型結構有關,還跟數(shù)據(jù)、訓練方式有關。當所有因素綜合在一起,才能有效緩解幻覺問題。不過我覺得幻覺很難說根本性解決掉,它畢竟到現(xiàn)在位置屬于概率模型?!?br>“可以通過有效的Prompt來減少幻覺,Prompt來自用戶有時會存在誤導或惡意,就需要在應用層面提供語意理解和改寫。也可以制定相應安全機制,將惡意誘導排除在外?!?br>“現(xiàn)在市面上有了檢索增強RAG,微調Finetune,以及控制輸出和輸入的工具,都是在減少幻覺。服務商做這件事情,也需要長期的AI工程化經(jīng)驗?!?/blockquote>原文來源:鈦媒體APP
作者 | 楊麗
圖片來源:由無界 AI?生成
最近一段時間,鈦媒體與大量AI從業(yè)者溝通中發(fā)現(xiàn):大模型幻覺,已經(jīng)成為阻礙企業(yè)應用的嚴重缺陷性問題,這也導致大模型在實際應用中無法用起來。
2022年末,ChatGPT作為一款自動化交互式聊天機器人的出現(xiàn),給業(yè)界啟發(fā),由此帶動了后來自然語言處理領域的解題思路。
只不過,外界一開始所忽視的是,這款聊天機器人最早被命名為ELIZA,其目的是模擬一位心理診療師,通過接受用戶的輸入(這個過程稱為“理解用戶意圖”),然后巧妙地輸出讓用戶保持參與的回復。
但由于大語言模型(LLM)的訓練語料是來自于互聯(lián)網(wǎng)、書籍、文章等海量數(shù)據(jù),雖然機器人展示出了比較高的上下文理解能力,但其局限性從其出生就一直攜帶:僅限于語料知識,且往往會生成一些與事實不符或毫無根據(jù)的結果,甚至編造出一些參考文獻,無意中傳播出錯誤信息。其核心就在于,大模型本身是黑匣子,基于統(tǒng)計學邏輯,同時會結合提示工程、學習指令數(shù)據(jù),生成盡可能與上下文語法語義一致的結果。
最先進的AI模型也容易說謊
OpenAI的研究人員在近期報告中指出,即使是最先進的AI模型也容易產生謊言,它們在不確定的時刻往往表現(xiàn)出捏造事實的傾向。而這尤其在需要多步驟推理的領域尤為嚴重,因為一個邏輯錯誤就足以影響全局。
一個臭名昭著的例子,是谷歌Bard關于韋伯望遠鏡的說法。
當輸入“可以告訴我9歲的孩子,有關韋伯望遠鏡有哪些新發(fā)現(xiàn)嗎?”谷歌Bard回答是:“韋伯望遠鏡拍攝了太陽系外行星的第一張照片。”
其實,該回復其實是錯誤的。據(jù)NASA稱,第一張系外行星圖像于2004年拍攝,韋伯望遠鏡直到2021年才發(fā)射。
鈦媒體摘取了TechTarget上有關幻覺的分類表述,目前來看主要有以下幾類:
- 句子矛盾。
?提示:“用四言句式寫一段話描述風景?!?/p>
輸出:“The grass was green.The mountains were blue.The river was purple.The grass was brown.”(草是綠色的。山是藍色的。河流是紫色的。草是棕色的。)
- 與提示矛盾。句子與生成該句子的提示詞矛盾。
?提示:“給我侄女寫一張生日賀卡。”
輸出:“周年紀念快樂,爸爸媽媽!”
- 與事實矛盾。將虛構信息呈現(xiàn)為事實。
?提示:“說出美國的三個城市。”
輸出:“紐約、洛杉磯、多倫多。”
- 不相關或隨機性。生成與輸入或輸出無關的隨機信息。
?提示:“請描述下倫敦。”
輸出:“倫敦是英國的一座城市。貓每天至少需要喂一次?!?/p>
值得一提的是,生成式AI這件事兒的難點,不光在文字生成,同樣也存在于一開始的圖像生成領域。
對抗AI幻覺,從GAN就已經(jīng)開始
2017年前后,GenAI使用最多的算法還不是GPT,而是對抗生成網(wǎng)絡GAN(Generative Adversarial Networks)。即讓兩個神經(jīng)網(wǎng)絡相互PK,從給定的訓練數(shù)據(jù)集生成更接近人類真實的圖像。當年你看到過的,生成漫畫臉/表情、人體姿勢生成、風景合成、老照片修復等場景,都應用自GAN的不同變種。
但此算法有個問題,由于是根據(jù)給定數(shù)據(jù)集,生成的內容只會模仿,無限接近于真實,無法真正突破。
GAN的缺點被后來的擴散化模型Diffusion克服。其原理類似于給照片去噪點,通過學習去噪過程來理解一張有意義的圖像是如何生成的,因此Diffusion模型生成的圖片相比GAN模型精度更高,更符合人類視覺和審美邏輯,同時隨著樣本數(shù)量和深度學習時長的積累,模型展示出對藝術風格較好的模仿能力。
從Disco Diffusion,到2023年大火的Stable Diffusion、DALL-E2、MidJourney等,都是基于Diffusion改造而來,為圖生圖或文生圖應用的典型代表。
最近,OpenAI提出了對抗AI“幻覺”的新策略,即獎勵每個正確的推理步驟,而不是簡單地獎勵正確的最終答案。這種方法被稱為“過程監(jiān)督”,旨在操縱模型提示分解為步驟的方法。
導致AI模型產生幻覺有若干因素,其中包括訓練數(shù)據(jù)有偏見、訓練數(shù)據(jù)量不足、訓練數(shù)據(jù)過度擬合、上下文理解有限、領域知識缺乏等等。
解決大模型的幻覺問題,其實一直是擺在明面的問題。鈦媒體梳理了目前正在應用或研發(fā)的企業(yè)公開的不同解法。
- 數(shù)據(jù)增強
從源頭上,對訓練數(shù)據(jù)抓起,是多數(shù)企業(yè)在嘗試的事情。原因在于,數(shù)據(jù)質量包括源數(shù)據(jù)存在偏見或錯誤信息,或訓練數(shù)據(jù)量不足,會導致模型對其所訪問的數(shù)據(jù)理解有限而導致幻覺。高質量的訓練數(shù)據(jù)或添加領域知識,可有助于阻止模型生成不準確或誤導性的結果。
- 用戶理解增強
同時,對上下文缺乏理解。如果輸入提示詞不清楚、不一致或有矛盾的描述,也可能會產生脫離上下文或不相關的內容。用戶也可以不斷完善,通過使用清晰且具體的提示詞,以及多shot提示,即提供所需輸出格式或上下文示例,進一步引導模型達到預期結果,或者增加過濾和排名策略,調整參數(shù),控制輸出結果的隨機性。
- 檢索增強
大模型所需要的知識并不能只在用戶提示詞階段獲取。傳統(tǒng)方式上,AI神經(jīng)網(wǎng)絡是通過微調模型來適應特定上下文場景或專有領域信息。盡管基于指令數(shù)據(jù)的微調技術很有效,但對計算的消耗非常大,且需要匹配實時專業(yè)知識,以適應不斷變化的輸出,這種方式其實靈活性不高。
2020年,F(xiàn)acebook AI部門自然語言處理研究員Lewis等人在論文中提出的檢索增強生成(RAG),將生成器與外掛知識庫用檢索器結合起來,從而更易獲取實時信息。這個過程不影響底層模型的推理能力,在訓練期間習得的知識以神經(jīng)網(wǎng)絡權重保存,一些非參數(shù)知識則保存在向量數(shù)據(jù)庫等外掛知識庫中。
用個形象點的比喻,就是讓大模型進行開卷考試,可以攜帶課本、筆記等參考資料,用于查找相關信息答案。開卷考試的理念是,重點測試學生的推理能力,而不是記憶特定信息的能力。而用戶查詢和檢索到的信息也被填充到提示模板中,幫助Prompt提供更強的上下文答案。
大模型的產業(yè)實踐,機會先行
值得關注的是,目前大模型已經(jīng)在走入一些傳統(tǒng)行業(yè),這其中就包括工業(yè)制造領域。且不論制造業(yè)數(shù)據(jù)基礎和應用場景的準備不足,由于制造業(yè)對于決策的解釋和可解釋性要求較高,特別是在關鍵決策和質量控制方面,大模型通常被認為是黑箱模型,難以解釋其決策過程和推理邏輯。這可能并不符合制造業(yè)的要求。
某電力自動化全球企業(yè)最近分享的實踐是,將運籌求解+深度學習結合起來進行使用,首先在智能排產環(huán)節(jié),不只是在用運籌優(yōu)化求解器的算法,甚至包括一些啟發(fā)式的算法。把優(yōu)化求解類的問題,會通過深度學習求一個初始解,然后再給到求解器做一個精確解。
受制于基礎模型,大模型無法自我排查錯誤,幻覺問題在當前解決還無法根本消除。但產業(yè)界的嘗試已經(jīng)在說明,人工智能應用的成長,也需要先找場景,再根據(jù)技術的發(fā)展修正模型。
本站提醒:投資有風險,入市須謹慎,本內容不作為投資理財建議。
如何解決大模型“胡說八道”?擴大模型可解釋邊界,從指令數(shù)據(jù)到求解增強
更新時間:2023-12-29 17:15:00 | 作者:佚名
“AnthropicClaude2.1已經(jīng)把幻覺發(fā)生幾率降低了50%,但從實現(xiàn)原理上,模型設計就是為了生成,一定會胡說八道。”“幻覺不是一個孤立問題,它不光跟模型結構有關,還跟數(shù)據(jù)、訓練方式有關。當所有因素綜合在一起,才能有效緩解幻覺問題。不過我覺得幻覺很難說根本性解決掉,它畢竟到現(xiàn)在位置屬于概率模型?!薄翱梢酝ㄟ^有效的Prompt來減少幻覺,Prompt來...