99ri日韩国产,日韩国产欧美另类,亚洲ⅴa在线va天堂va,青青青亚洲视频

    
    

    <th id="crsrf"><progress id="crsrf"><listing id="crsrf"></listing></progress></th>
    當前位置:區(qū)塊鏈 >區(qū)塊鏈 > OpenAI「登月計劃」劍指超級AI!LeCun提出AGI之路七階段,打造世界模型是首位

    OpenAI「登月計劃」劍指超級AI!LeCun提出AGI之路七階段,打造世界模型是首位

    更新時間:2023-12-18 15:20:41 | 作者:佚名
    來源:新智元 圖片來源:由無界AI生成 OpenAI「登月計劃」篤定了超級人工智能必定會到來,甚至近在眼前。而在LeCun看來,實現(xiàn)AGI還很遙遠,打造出世界模型僅是第一步。 通用AGI,或許近在咫尺。 OpenAI下一步「登月計劃」,就是實現(xiàn)人類期待已久的超級人工智能,而到達這一步的前提是——解決超級AI對齊問題。 就在前幾天,首席科學家Ilya帶頭O...

    來源:新智元

    圖片來源:由無界 AI生成

    OpenAI「登月計劃」篤定了超級人工智能必定會到來,甚至近在眼前。而在LeCun看來,實現(xiàn)AGI還很遙遠,打造出世界模型僅是第一步。

    通用AGI,或許近在咫尺。

    OpenAI下一步「登月計劃」,就是實現(xiàn)人類期待已久的超級人工智能,而到達這一步的前提是——解決超級AI對齊問題。

    就在前幾天,首席科學家Ilya帶頭OpenAI超級對齊團隊取了的實質性成果。他們發(fā)表的最新論文,首次確定了超級AI對齊的研究方向:

    即小模型監(jiān)督大模型。

    實證表明,GPT-2可以用來激發(fā)GPT-4的大部分能力,能夠達到GPT-3.5的性能。甚至還可以泛化到小模型失敗難題上。

    其中,官方博客的第一句便是:我們相信超級智能可能會在未來10年內出現(xiàn)。

    再加上傳聞中即將面世的GPT-4.5,以及或許會在明年誕生的GPT-5,OpenAI似乎已經準備好迎接超級人工智能到來了。

    然而,在LeCun看來,「超人AI」的發(fā)展不會一蹴而就,而是要經歷多個階段逐漸完成。

    第一階段:學習世界運作方式

    首先,是構建能像小動物一樣學習世界運作方式的系統(tǒng)——可以觀察環(huán)境并從中學習,為發(fā)展更高級的AI能力打下基礎。而這也是AI進化的關鍵一步。

    相比之下,如今的語言模型如GPT-4或Gemini,主要關注的還是文本數(shù)據,這顯然遠遠不夠。

    LeCun經常嘲諷當前AI的一句話是,「如今大模型的智力連貓狗都不如」。甚至在他看來,通往AGI路上,大模型就是在走歪路。

    一直以來,他堅信世界有一種「世界模型」,并著力開發(fā)一種新的類似大腦的AI架構,目的是通過更真實地模擬現(xiàn)實世界來解決當前系統(tǒng)的局限性,例如幻覺和邏輯上的缺陷。

    這也是想要AI接近人類智力水平,需要像嬰兒一樣學習世界運作的方式。

    這個世界模型的架構,由6個獨立的模塊組成:配置器模塊、感知模塊、世界模型模塊、成本模塊、短期記憶模塊,以及參與者模塊。

    其中,核心是世界模型模塊,旨在根據來自感知模塊的信息預測世界。能夠感知人在向哪移動?汽車是轉彎還是繼續(xù)直行?

    另外,世界模型必須學習世界的抽象表示,保留重要的細節(jié),并忽略不重要的細節(jié)。然后,它必須在與任務水平相適應的抽象級別上提供預測。

    LeCun認為「聯(lián)合嵌入預測架構」(JEPA)能夠解決這個難題。JEPA支持對大量復雜數(shù)據進行無監(jiān)督學習,同時生成抽象表示。

    今年6月,基于「世界模型」的愿景,他又提出了一個全新架構I-JEPA。

    論文地址:https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

    不過,LeCun更高層次的愿景留下了許多未解決的問題,例如關于世界模型的架構和訓練方法的細節(jié)。

    第二階段:目標驅動且有保護措施的系統(tǒng)

    其次,是構建目標驅動并在一定的保護措施下運作的機器。

    這些保護措施將確保AI系統(tǒng)在追求目標時仍然安全可控。

    第三階段:規(guī)劃與推理

    隨著AI系統(tǒng)的不斷成熟,它們將發(fā)展出規(guī)劃和推理的能力,從而在遵守安全規(guī)范的前提下,實現(xiàn)既定目標。

    這將使AI系統(tǒng)能夠基于對世界的理解做出更加明智的決策,并采取合適的行動。

    第四階段:分層規(guī)劃

    再進一步,AI系統(tǒng)將能夠進行分層規(guī)劃,從而大幅提升決策能力。

    這將使AI系統(tǒng)更加高效地處理復雜任務和難題。

    第五階段:增強機器智能

    隨著AI的進化,這些系統(tǒng)的智能將從最初的老鼠提升至類似狗或者烏鴉的水平。

    在此過程中,為確保AI系統(tǒng)保持可控和安全,將需要不斷對其保護措施進行調整。

    第六階段:更廣泛的訓練與微調

    當AI系統(tǒng)達到一定的智能水平時,就需要將它們放在不同環(huán)境和任務中接受訓練,使其更加靈活,能夠應對各種挑戰(zhàn)。

    隨后,還需要對AI系統(tǒng)進行微調,以便在特定任務上表現(xiàn)出色。

    第七階段:超人類AI的時代

    總有一天,我們開發(fā)的AI系統(tǒng)會在幾乎所有的領域超越人類智能。

    但這并不意味著這些系統(tǒng)具備情感或意識。只不過是在執(zhí)行任務方面,會比人類做得更好。

    同時,即使這些高級AI系統(tǒng)智力超群,它們也必須始終受到人類的控制。

    根據LeCun之前提出的觀點,這理論上是可行的:由于智力水平與主導欲望之間并無直接聯(lián)系,而AI并不像人類那樣具有天生的主導欲望。因此,AI或許會愿意為智力上不及它們的人類服務。

    當然,這種情況在未來5年內不太可能出現(xiàn)。


    LLM自我迭代,走向AGI


    為了讓超級AI系統(tǒng)能夠迭代學習,持續(xù)完成任務并不斷改進效果,當前的許多框架采用了可識別的過程。
    類似于下圖中的結構,包括反饋控制和強化學習。

    另外,還可以采用一些附加功能,以最大限度地減少人工輸入并增強流程自動化。

    那么,上面展示的迭代學習系統(tǒng)是如何運行的?

    首先,人類將廣義定義的任務分配給智能體。

    任務通常采取提示的形式,概述主要目標,例如,「探索環(huán)境,并完成盡可能多的不同任務」。

    Planner(規(guī)劃)模塊以這個目標為條件,將目標分解為一系列可執(zhí)行的、可理解的任務。

    由于LLM已經在大量數(shù)據上進行了訓練,充分了解智能體運行的環(huán)境,可以很好地支持目標分解。此外,還可以補充上下文來增強LLM的性能。

    當Planner提供了一組派生的子任務后,Selector負責確定最合適的下一個子任務(滿足先決條件,且能產生最佳結果)。

    Controller的工作是生成當前子任務所需要的操作。然后,生成的操作被引入到環(huán)境中。

    在這個過程中,使用Memory塊檢索最相似的學習任務,將它們集成到其正在進行的工作流中。

    為了評估最近操作的影響,Critic會監(jiān)視環(huán)境狀態(tài),提供反饋,包括識別缺點和失敗原因等。

    Descriptor塊把環(huán)境和智能體的狀態(tài)描述為文本,作為Critic的輸入,然后,Critic為Planner提供全面的反饋,以協(xié)助進行下一次試驗。

    下面來看一下系統(tǒng)中每個模塊的一些具體細節(jié)。

    規(guī)劃(Planner)

    Planner負責組織整個任務,根據智能體的當前狀態(tài)和水平來協(xié)調學習過程。

    通常會假設基于LLM的Planner在訓練中接觸過類似的任務分解過程,但這個假設在這里并不成立。

    因此,研究人員提出了一種方法:從環(huán)境手冊文本中提取所有相關信息,總結成一個小尺寸的上下文,并連接到提示中。

    在現(xiàn)實生活中的應用程序中,智能體會遇到各種不同復雜程度的環(huán)境,這種簡單而有效的方法,可以避免頻繁為新任務進行微調。

    Planner模塊與VOYAGER和DEPS在某些方面類似。

    VOYAGER使用 GPT-4作為自動課程模塊,試圖根據探索進度和智能體的狀態(tài)提出越來越難的任務。它的提示包括:

    在設定約束條件的同時鼓勵探索;
    當前智能體的狀態(tài);
    以前完成和失敗的任務,
    來自另一個GPT-3.5自問答模塊的任何其他上下文。

    然后,VOYAGER輸出要由智能體完成的任務。

    DEPS在不同環(huán)境中使用CODEX、GPT-4、ChatGPT和GPT-3作為LLM規(guī)劃器,提示內容包括:

    強大的最終目標(例如,在Minecraft環(huán)境中獲得鉆石);
    最近生成的計劃;
    對環(huán)境的描述和解釋。

    為了提高計劃的效率,DEPS還提出了一個狀態(tài)感知選擇器,從規(guī)劃器生成的候選目標集中,根據當前狀態(tài)選擇最近的目標。

    在復雜的環(huán)境中,通常存在多個可行的計劃,優(yōu)先考慮更接近的目標可以提高計劃效率。

    為此,研究人員使用離線軌跡訓練了一個神經網絡,根據在當前狀態(tài)下完成給定目標所需的時間步長進行預測和排名。然后,Planner與Selector協(xié)作生成一系列要完成的任務。

    控制(Controller)

    Controller的職責是選擇下一個動作來完成給定的任務。

    Controller可以是一個LLM(例如VOYAGER),也可以是深度強化學習模型(例如DEPS),根據狀態(tài)和給定任務生成操作。

    VOYAGER在交互式提示中使用GPT-4來扮演控制器的角色。

    VOYAGER、Progprompt和CaP選擇使用代碼作為操作空間,因為代碼可以自然地表示時間擴展和組合操作。在VOYAGER中生成代碼的提示包括:

    代碼生成動機指南;
    可用的控制基元API列表及其描述;
    從記憶中檢索到的相關技能或代碼;
    上一輪生成的代碼、環(huán)境反饋、執(zhí)行錯誤、Critic輸出;
    當前狀態(tài);
    思維鏈提示在代碼生成前進行推理。

    記憶(Memory)

    人類的記憶一般可以分為短期記憶和長期記憶:

    短期記憶存儲用于學習和推理等任務的信息,可容納大約7件物品,持續(xù)約20-30秒。

    所有基于LLM的終身學習方法,都是通過上下文學習來使用短期記憶,而上下文學習受到LLM上下文長度的限制。

    長期記憶用于長時間存儲和檢索信息,可以作為具有快速檢索功能的外部向量存儲來實現(xiàn)。

    VOYAGER通過添加/檢索從外部向量存儲中學習到的技能,從長期記憶中受益。

    如下圖所示,上半部分描述了VOYAGER添加新技能的過程,下半部分表示技能檢索。

    當Critic驗證代碼可以完成任務時,使用GPT-3.5生成代碼的描述。

    然后,技能將被以鍵值對的形式(技能描述和代碼)存儲在技能庫中。

    當Planner生成一項新任務時,GPT-3.5會生成新的描述,然后從技能庫中檢索前5個相關技能。

    添加長期內存可以顯著提高性能。上圖展示了技能庫對VOYAGER的重要性。

    Controller同時利用短期記憶和長期記憶,以生成和完善其策略。

    評論(Critic)

    Critic也是一個基于LLM的模塊,它對先前執(zhí)行的計劃進行點評,并提供反饋。

    Critic可以采用GPT-4,利用獎勵信號、當前軌跡以及持久記憶來生成反饋,這種反饋比標量獎勵提供了更多的信息,并存儲在內存中,供Planner用于優(yōu)化計劃。

    描述(Descriptor)

    在基于LLM的終身學習中,Planner的輸入和輸出是文本。

    雖然很多環(huán)境(如Crafter)是基于文本的,但有一些其他環(huán)境,會返回2D或3D圖像的渲染,或者返回一些狀態(tài)變量。

    這時,Descriptor就可以充當中間的橋梁,將其他模態(tài)轉換為文本,并將它們合并到LLM的提示中。

    自主AI智能體

    以上主要討論了將基礎模型與持續(xù)學習相結合的最新研究,這是實現(xiàn)AGI的重要一步。

    而最近的AutoGPT和BabyAGI等幾個工作又帶給人們新的啟發(fā)。

    這些系統(tǒng)接受任務后,將任務分解為子任務,自動進行提示和響應,并重復執(zhí)行,直到實現(xiàn)提供的目標。

    他們還可以訪問不同的API,或者訪問互聯(lián)網,大大擴展自己的應用范圍。

    AutoGPT可以訪問互聯(lián)網,并能夠與在線和本地的應用程序、軟件和服務進行交互。

    為了實現(xiàn)人類給出的更高層次的目標,AutoGPT使用一種稱為Reason and ACT (ReACT)的提示格式。

    ReACT使智能體能夠接收輸入、理解并采取行動、根據結果進行推理,然后在需要時重新運行該循環(huán)。

    由于AutoGPT可以自己提示自己,所以可以在完成任務的同時進行思考和推理,尋找解決方案,丟棄不成功的解決方案,并考慮不同的選擇。

    BabyAGI是另一個最近推出的自主AI智能體,上面是它的流程圖。它有三個基于LLM的組件:

    任務創(chuàng)建智能體:提出了一個任務列表(類似于Planer);
    優(yōu)先級智能體:嘗試通過LLM提示(類似于Selector)確定任務列表的優(yōu)先級;
    執(zhí)行智能體(類似于Controller):執(zhí)行具有最高優(yōu)先級的任務。

    AutoGPT和BabyAGI都使用向量數(shù)據庫來存儲中間結果并從經驗中學習。


    局限性和挑戰(zhàn)


    不過,大語言模型(LLM)在終身學習過程中仍然存在一些問題。

    首先就是模型有時會出現(xiàn)幻覺、捏造事實或安排不存在的任務,而且在一些研究中,將GPT-4換成GPT-3.5會嚴重影響性能。

    其次,當大語言模型扮演規(guī)劃者(Planner)或評論者(Critic)時,它們的表現(xiàn)可能不夠準確。——比如評論者可能提供錯誤的反饋,而規(guī)劃者可能重復同樣的計劃。

    另外,大語言模型的上下文長度限制了它們的短期記憶能力,這影響了模型保存詳細的過往經驗、具體指令和控制原語API。

    最后,多數(shù)研究假設大語言模型已經掌握了進行終身學習所需的全部信息,但這種假設并不總是成立。

    所以研究人員為智能體提供互聯(lián)網訪問(如AutoGPT),或提供文本材料作為輸入上下文(如本文介紹),這些方法對之后的研究提供了幫助。

    參考資料:

    • https://the-decoder.com/heres-how-we-get-to-superhuman-ai-according-to-metas-yann-lecun/
    • https://towardsdatascience.com/towards-agi-llms-and-foundational-models-roles-in-the-lifelong-learning-revolution-f8e56c17fa66
    本站提醒:投資有風險,入市須謹慎,本內容不作為投資理財建議。