18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過(guò)一個(gè)簡(jiǎn)單的方法來(lái)解鎖大型語(yǔ)言模型的推理能力?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:酷酷的群 ? 2023-05-10 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、概述

近來(lái)NLP領(lǐng)域由于語(yǔ)言模型的發(fā)展取得了顛覆性的進(jìn)展,擴(kuò)大語(yǔ)言模型的規(guī)模帶來(lái)了一系列的性能提升,然而單單是擴(kuò)大模型規(guī)模對(duì)于一些具有挑戰(zhàn)性的任務(wù)來(lái)說(shuō)是不夠的,比如算術(shù)、常識(shí)、符號(hào)推理任務(wù)(arithmetic, commonsense, symbolic reasoning)。本文探討了如何通過(guò)一個(gè)簡(jiǎn)單的方法來(lái)解鎖大型語(yǔ)言模型的推理能力,這個(gè)方法由兩個(gè)想法驅(qū)動(dòng)。第一個(gè)想法是算術(shù)推理的技術(shù)能夠從生成自然語(yǔ)言解釋?zhuān)╮ationale)中獲益。先前的工作通過(guò)從頭開(kāi)始訓(xùn)練或微調(diào)預(yù)訓(xùn)練模型,以及采用形式語(yǔ)言的神經(jīng)-符號(hào)方法來(lái)使模型能夠生成自然語(yǔ)言的中間步驟。第二個(gè)想法是利用大型語(yǔ)言模型實(shí)現(xiàn)上下文中的少數(shù)樣本學(xué)習(xí)(few-shot learning),即通過(guò)提示(prompting)提供少量輸入-輸出示例,而不是為每個(gè)新任務(wù)微調(diào)單獨(dú)的語(yǔ)言模型。這種方法在一系列簡(jiǎn)單問(wèn)答任務(wù)上取得了成功。

然而,這兩種方法都存在局限性。對(duì)于添加解釋的訓(xùn)練和微調(diào)方法,創(chuàng)建大量高質(zhì)量解釋的成本很高,遠(yuǎn)比傳統(tǒng)機(jī)器學(xué)習(xí)中使用的簡(jiǎn)單輸入-輸出對(duì)復(fù)雜得多。而傳統(tǒng)的少數(shù)樣本提示方法在需要推理能力的任務(wù)上表現(xiàn)不佳,且隨著語(yǔ)言模型規(guī)模的增加,性能提升有限。為了克服這些局限性,作者將這兩個(gè)想法相結(jié)合,提出了一種稱(chēng)為“思維鏈提示”(chain-of-thought prompting)的方法。在這種方法中,模型接收到的提示包含三個(gè)部分:輸入、思維鏈和輸出。思維鏈?zhǔn)且幌盗凶匀徽Z(yǔ)言中的中間推理步驟,它們導(dǎo)致最終輸出。

本文通過(guò)在算術(shù)、常識(shí)和符號(hào)推理基準(zhǔn)任務(wù)上的實(shí)證評(píng)估表明,思維鏈提示在性能上優(yōu)于標(biāo)準(zhǔn)提示,有時(shí)甚至達(dá)到令人驚嘆的程度。例如,在GSM8K數(shù)學(xué)問(wèn)題基準(zhǔn)測(cè)試中,PaLM 540B模型使用思維鏈提示大幅度優(yōu)于標(biāo)準(zhǔn)提示(如下圖),達(dá)到了新的SOTA水平。提示方法的重要性在于它不需要大量訓(xùn)練數(shù)據(jù)集,并且單個(gè)模型檢查點(diǎn)可以執(zhí)行多個(gè)任務(wù)而不會(huì)失去通用性。這項(xiàng)工作強(qiáng)調(diào)了大型語(yǔ)言模型如何通過(guò)少量自然語(yǔ)言任務(wù)數(shù)據(jù)來(lái)學(xué)習(xí)(例如通過(guò)大型訓(xùn)練數(shù)據(jù)集自動(dòng)學(xué)習(xí)輸入和輸出的潛在模式)。

83844d58-ee6f-11ed-90ce-dac502259ad0.png

實(shí)驗(yàn)

二、方法

當(dāng)人們解決這類(lèi)問(wèn)題時(shí),通常會(huì)將問(wèn)題分解成中間步驟,逐個(gè)解決,最后給出答案。本文的目標(biāo)是賦予語(yǔ)言模型生成類(lèi)似思維鏈的能力,即一個(gè)連貫的中間推理步驟序列,引導(dǎo)模型找到問(wèn)題的最終答案。作者表明,如果在少數(shù)樣本提示中提供思維鏈推理的示例,足夠大的語(yǔ)言模型可以生成思維鏈。下圖展示了一個(gè)模型在解決數(shù)學(xué)問(wèn)題時(shí)產(chǎn)生的思維鏈?zhǔn)纠T谶@種情況下,思維鏈類(lèi)似于一個(gè)解決方案,但作者仍選擇稱(chēng)其為思維鏈,以更好地捕捉模擬逐步解決問(wèn)題的思維過(guò)程的概念。

83bd440a-ee6f-11ed-90ce-dac502259ad0.png

思維鏈?zhǔn)纠?/p>

思維鏈提示作為促進(jìn)語(yǔ)言模型推理的方法具有以下幾個(gè)有吸引力的特性:

①原則上,思維鏈允許模型將多步問(wèn)題分解為中間步驟,這意味著可以為需要更多推理步驟的問(wèn)題分配額外的計(jì)算能力。 ②思維鏈為模型的行為提供了一個(gè)可解釋的窗口,提示模型如何得出特定答案,并為發(fā)現(xiàn)推理路徑中的錯(cuò)誤提供調(diào)試機(jī)會(huì)(盡管完全描述支持答案的模型計(jì)算仍然是一個(gè)開(kāi)放性問(wèn)題)。 ③思維鏈推理可用于諸如數(shù)學(xué)問(wèn)題、常識(shí)推理和符號(hào)操作等任務(wù),并且原則上適用于任何人類(lèi)可以通過(guò)語(yǔ)言解決的任務(wù)。 ④最后,通過(guò)在少數(shù)樣本提示的示例中包含思維鏈序列,可以輕松地在足夠大的現(xiàn)成語(yǔ)言模型中引出思維鏈推理。

本文在算術(shù)、常識(shí)、符號(hào)推理任務(wù)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)中不同數(shù)據(jù)集的思維鏈提示示例如下:

83fa77da-ee6f-11ed-90ce-dac502259ad0.png

示例

三、算術(shù)推理

實(shí)驗(yàn)設(shè)置

這部分首先考慮了類(lèi)似于圖1所示的數(shù)學(xué)問(wèn)題,用以衡量語(yǔ)言模型的算術(shù)推理能力。盡管對(duì)人類(lèi)來(lái)說(shuō)很簡(jiǎn)單,但算術(shù)推理是一個(gè)讓語(yǔ)言模型常常感到困難的任務(wù)。令人驚訝的是,當(dāng)將思維鏈提示應(yīng)用于具有540B參數(shù)的語(yǔ)言模型時(shí),在幾個(gè)任務(wù)上與特定任務(wù)的微調(diào)模型表現(xiàn)相當(dāng),甚至在具有挑戰(zhàn)性的GSM8K基準(zhǔn)測(cè)試上實(shí)現(xiàn)了新的SOTA水平。

Benchmarks

我們考慮了以下五個(gè)數(shù)學(xué)問(wèn)題benchmark數(shù)據(jù)集:

①GSM8K數(shù)學(xué)問(wèn)題基準(zhǔn)測(cè)試; ②SVAMP數(shù)據(jù)集,包含不同結(jié)構(gòu)的數(shù)學(xué)問(wèn)題; ③ASDiv數(shù)據(jù)集,包含多樣化的數(shù)學(xué)問(wèn)題; ④AQuA數(shù)據(jù)集,包含代數(shù)問(wèn)題; ⑤MAWPS基準(zhǔn)測(cè)試。

Standard prompting(標(biāo)準(zhǔn)提示)

作為baseline,我們采用GPT-3論文中的標(biāo)準(zhǔn)few-shot prompting,其中語(yǔ)言模型在為測(cè)試時(shí)示例輸出預(yù)測(cè)之前獲得了輸入-輸出對(duì)的上下文示例。示例以問(wèn)題和答案的形式呈現(xiàn)。如圖1(左)所示,模型直接給出答案。

Chain-of-thought prompting(思維鏈提示)

我們提出的方法是用問(wèn)題的關(guān)聯(lián)答案的思維鏈來(lái)增強(qiáng)few-shot prompting中的每個(gè)示例,如圖1(右)所示。由于大多數(shù)數(shù)據(jù)集僅有一個(gè)評(píng)估分割,我們手動(dòng)編寫(xiě)了一組包含思維鏈提示的八個(gè)少數(shù)樣本示例——圖1(右)顯示了一個(gè)思維鏈?zhǔn)纠?。這些特定示例沒(méi)有經(jīng)過(guò)提示工程。為了研究這種形式的思維鏈提示是否可以成功引導(dǎo)成功解答一系列數(shù)學(xué)問(wèn)題,我們使用了這八個(gè)思維鏈?zhǔn)纠?,適用于除AQuA之外的所有基準(zhǔn)測(cè)試,因?yàn)锳QuA是多項(xiàng)選擇而非自由回答。對(duì)于A(yíng)QuA,我們使用了來(lái)自訓(xùn)練集的四個(gè)示例和解決方案

語(yǔ)言模型

我們?cè)u(píng)估了五個(gè)大型語(yǔ)言模型。

①GPT-3,我們使用了text-ada-001、text-babbage-001、text-curie-001和text-davinci-002,它們可能對(duì)應(yīng)于具有350M、1.3B、6.7B和175B參數(shù)的InstructGPT模型。 ②LaMDA,它有422M、2B、8B、68B和137B參數(shù)的模型。 ③PaLM,具有8B、62B和540B參數(shù)的模型。 ④UL2 20B。 ⑤Codex。

我們通過(guò)貪婪解碼從模型中采樣(盡管后續(xù)工作顯示,通過(guò)在許多采樣生成中采取多數(shù)最終答案,可以改進(jìn)思維鏈提示)。對(duì)于LaMDA,我們報(bào)告了五個(gè)隨機(jī)種子的平均結(jié)果,每個(gè)種子具有不同的隨機(jī)洗牌順序的示例。由于LaMDA實(shí)驗(yàn)在不同種子之間沒(méi)有顯示出較大的方差,為節(jié)省計(jì)算資源,我們對(duì)所有其他模型報(bào)告了單個(gè)示例順序的結(jié)果。

結(jié)果

842d8166-ee6f-11ed-90ce-dac502259ad0.png

算術(shù)推理

思維鏈提示的最優(yōu)結(jié)果匯總在上圖中。實(shí)驗(yàn)的結(jié)果主要反映出三個(gè)關(guān)鍵要點(diǎn)。

首先,上圖顯示,思維鏈提示是模型規(guī)模的一種涌現(xiàn)能力(emergent ability)。也就是說(shuō),對(duì)于小型模型,思維鏈提示不會(huì)對(duì)性能產(chǎn)生積極影響,只有在與大約100B參數(shù)的模型一起使用時(shí),才能產(chǎn)生性能提升。我們發(fā)現(xiàn),較小規(guī)模的模型產(chǎn)生了流暢但不合邏輯的思維鏈,導(dǎo)致性能低于標(biāo)準(zhǔn)提示。

其次,對(duì)于更復(fù)雜的問(wèn)題,思維鏈提示的性能提升更大。例如,對(duì)于GSM8K(baseline性能最低的數(shù)據(jù)集),最大的GPT和PaLM模型的性能提高了一倍多。另一方面,對(duì)于SingleOp(MAWPS中最簡(jiǎn)單的子集,只需要一個(gè)步驟就可以解決),性能改進(jìn)要么是負(fù)面的,要么非常小。

第三,通過(guò)GPT-3 175B和PaLM 540B的思維鏈提示,與之前的最佳實(shí)踐相比,表現(xiàn)相當(dāng)不錯(cuò),后者通常在帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集上對(duì)特定任務(wù)的模型進(jìn)行微調(diào)。上圖顯示了PaLM 540B如何使用思維鏈提示在GSM8K、SVAMP和MAWPS上實(shí)現(xiàn)新的SOTA(請(qǐng)注意,標(biāo)準(zhǔn)提示已經(jīng)超過(guò)了SVAMP的之前最佳記錄)。在另外兩個(gè)數(shù)據(jù)集AQuA和ASDiv上,PaLM使用思維鏈提示的方法達(dá)到了距離最佳水平2%以?xún)?nèi)。

為了更好地了解為什么思維鏈提示起作用,我們手動(dòng)檢查了LaMDA 137B在GSM8K上生成的思維鏈。在50個(gè)隨機(jī)樣本中,模型給出了正確的最終答案,除了兩個(gè)恰好得到正確答案的樣本外,所有生成的思維鏈都是邏輯和數(shù)學(xué)上正確的。我們還隨機(jī)檢查了50個(gè)模型給出錯(cuò)誤答案的樣本。總結(jié)一下這個(gè)分析,46%的思維鏈幾乎是正確的,只有一些小錯(cuò)誤(計(jì)算錯(cuò)誤、符號(hào)映射錯(cuò)誤或缺少一個(gè)推理步驟),另外54%的思維鏈在語(yǔ)義理解或連貫性方面存在重大錯(cuò)誤。為了更好地了解為什么規(guī)?;纳屏怂季S鏈推理能力,我們對(duì)PaLM 62B犯的錯(cuò)誤以及將其擴(kuò)展到PaLM 540B是否修復(fù)了這些錯(cuò)誤進(jìn)行了類(lèi)似的分析。總結(jié)來(lái)說(shuō),將PaLM擴(kuò)展到540B能修復(fù)62B模型中的大部分缺失一步和語(yǔ)義理解錯(cuò)誤。

這些結(jié)果表明,通過(guò)引入思維鏈提示,我們可以顯著提高大型語(yǔ)言模型在解決數(shù)學(xué)問(wèn)題方面的性能,特別是在處理更復(fù)雜數(shù)學(xué)問(wèn)題時(shí)。盡管較小的模型在生成思維鏈時(shí)可能會(huì)產(chǎn)生不合邏輯的結(jié)果,但隨著模型規(guī)模的增加,這種方法在很大程度上提高了解決問(wèn)題的準(zhǔn)確性和邏輯性。

總之,通過(guò)在數(shù)學(xué)問(wèn)題上應(yīng)用思維鏈提示,研究人員觀(guān)察到了顯著的性能提升。隨著模型規(guī)模的增加,這種方法在解決更復(fù)雜數(shù)學(xué)問(wèn)題時(shí)變得更加有效。此外,通過(guò)將思維鏈提示與大型模型結(jié)合使用,研究人員能夠?qū)崿F(xiàn)接近甚至超過(guò)之前最佳實(shí)踐的性能。這表明,思維鏈提示是一種有前景的方法,可以幫助提高大型語(yǔ)言模型在數(shù)學(xué)和其他需要多步推理的任務(wù)上的性能。

消融實(shí)驗(yàn)

8461d754-ee6f-11ed-90ce-dac502259ad0.png

消融實(shí)驗(yàn)

使用思維鏈提示所觀(guān)察到的優(yōu)勢(shì)引發(fā)了一個(gè)自然問(wèn)題:其他類(lèi)型的提示是否也能帶來(lái)相同的性能提升。上圖展示了一個(gè)消融實(shí)驗(yàn),其中描述了以下三種思維鏈的變體。

Equation only

使用思維鏈提示可能有助于生成要評(píng)估的數(shù)學(xué)公式,所以我們測(cè)試了一個(gè)變體,在給出答案之前提示模型僅輸出數(shù)學(xué)公式。上圖顯示,對(duì)于GSM8K,僅方程式提示的幫助不大,這意味著GSM8K中問(wèn)題的語(yǔ)義太具挑戰(zhàn)性,無(wú)法在沒(méi)有思維鏈自然語(yǔ)言推理步驟的情況下直接轉(zhuǎn)換成方程式。然而,對(duì)于只需要一步或兩步的問(wèn)題數(shù)據(jù)集,我們發(fā)現(xiàn)僅方程式提示確實(shí)提高了性能,因?yàn)榉匠淌娇梢詮膯?wèn)題中輕易地得出。

Variable compute only

另一個(gè)直觀(guān)的想法是,思維鏈允許模型在更難的問(wèn)題上花費(fèi)更多的計(jì)算量(即中間token)。為了將可變計(jì)算量的效果與思維鏈推理分離,我們測(cè)試了一種配置,其中模型被提示僅輸出一系列等于解決問(wèn)題所需方程中字符數(shù)量的點(diǎn)(. . .)。這個(gè)變體的性能與基線(xiàn)大致相同,這表明可變計(jì)算量本身并非思維鏈提示成功的原因,而且通過(guò)自然語(yǔ)言表達(dá)中間步驟似乎具有實(shí)用價(jià)值。

Chain of thought after answer

另一個(gè)可能的思維鏈提示優(yōu)勢(shì)可能僅僅是這樣的提示允許模型更好地訪(fǎng)問(wèn)在預(yù)訓(xùn)練期間獲得的相關(guān)知識(shí)。因此,我們測(cè)試了一個(gè)替代配置,其中在給出答案之后再給出思維鏈提示,以分離模型是否真的依賴(lài)生成的思維鏈來(lái)給出最終答案。這種變體的性能與基線(xiàn)大致相同,這表明思維鏈中體現(xiàn)的順序推理對(duì)于激活知識(shí)之外的原因是有用的。

思維鏈的魯棒性

849b52fe-ee6f-11ed-90ce-dac502259ad0.png

魯棒性研究

對(duì)示例的敏感性是提示方法的一個(gè)關(guān)鍵考慮因素——例如,改變少量示例的排列可能導(dǎo)致 GPT-3 在 SST-2 上的準(zhǔn)確率從接近隨機(jī)(54.3%)到接近最先進(jìn)水平(93.4%)。在這最后一個(gè)小節(jié)中,我們?cè)u(píng)估了由不同注釋者編寫(xiě)的思維鏈的魯棒性。除了以上使用 Annotator A 編寫(xiě)的思維鏈的結(jié)果外,本文的另外兩位合作者(Annotator B 和 Annotator C)還獨(dú)立為相同的少量示例編寫(xiě)了思維鏈。Annotator A 還編寫(xiě)了另一個(gè)比原文更簡(jiǎn)潔的思維鏈。

上圖顯示了 LaMDA 137B 在 GSM8K 和 MAWPS 上的這些結(jié)果。盡管不同思維鏈注釋之間存在差異,如同使用基于示例的提示時(shí)所預(yù)期的那樣,但所有的思維鏈提示都大幅度優(yōu)于標(biāo)準(zhǔn)基線(xiàn)。這一結(jié)果表明,成功使用思維鏈并不依賴(lài)于特定的語(yǔ)言風(fēng)格。

為了證實(shí)成功的思維鏈提示適用于其他示例集,我們還使用從 GSM8K 訓(xùn)練集中隨機(jī)抽取的三組八個(gè)示例進(jìn)行實(shí)驗(yàn),這是一個(gè)獨(dú)立的來(lái)源(這個(gè)數(shù)據(jù)集中的示例已經(jīng)包括了類(lèi)似思維鏈的推理步驟)。上圖顯示,這些提示的表現(xiàn)與我們手動(dòng)編寫(xiě)的示例相當(dāng),也大大優(yōu)于標(biāo)準(zhǔn)提示。

除了對(duì)注釋者、獨(dú)立編寫(xiě)的思維鏈、不同示例和各種語(yǔ)言模型的魯棒性外,我們還發(fā)現(xiàn),對(duì)于算術(shù)推理的思維鏈提示在不同的示例順序和不同數(shù)量的示例方面也具有魯棒性。

四、常識(shí)推理與符號(hào)推理

除了算術(shù)推理任務(wù)外,本文還測(cè)試了思維鏈提示在常識(shí)推理與符號(hào)推理任務(wù)上的性能。對(duì)于常識(shí)推理任務(wù),我們選擇了五個(gè)涵蓋各種常識(shí)推理類(lèi)型的數(shù)據(jù)集。「CSQA」提出了關(guān)于世界的常識(shí)問(wèn)題,涉及復(fù)雜的語(yǔ)義,通常需要先驗(yàn)知識(shí)。「StrategyQA」要求模型推斷出一個(gè)多跳策略來(lái)回答問(wèn)題。我們從 BIG-bench 項(xiàng)目中選擇了兩個(gè)專(zhuān)門(mén)的評(píng)估集:「Date Understanding」,涉及從給定的上下文中推斷日期;「Sports Understanding」,涉及判斷與體育相關(guān)的句子是合理的還是不合理的。最后,「SayCan數(shù)據(jù)集涉及將自然語(yǔ)言指令映射到離散集合中的一系列機(jī)器人動(dòng)作。實(shí)驗(yàn)結(jié)果如下:

84c1173c-ee6f-11ed-90ce-dac502259ad0.png

常識(shí)推理

符號(hào)推理使用以下兩個(gè)toy任務(wù):

①最后字母拼接。這個(gè)任務(wù)要求模型將名稱(chēng)中單詞的最后字母拼接起來(lái)(例如,“Amy Brown” → “yn”)。這是一個(gè)比首字母拼接更具挑戰(zhàn)性的版本,語(yǔ)言模型已經(jīng)可以在沒(méi)有思維鏈的情況下執(zhí)行第一個(gè)字母拼接。我們通過(guò)從名字人口普查數(shù)據(jù)([https://namecensus.com/)中隨機(jī)連接前一千個(gè)名字和姓氏來(lái)生成全名。 ②拋硬幣。這個(gè)任務(wù)要求模型回答在人們翻轉(zhuǎn)或不翻轉(zhuǎn)硬幣后,硬幣是否仍然是正面朝上的(例如,“一枚硬幣是正面朝上的。菲比翻轉(zhuǎn)了硬幣。奧斯瓦爾多沒(méi)有翻轉(zhuǎn)硬幣。硬幣還是正面朝上嗎?”→“不是”)。

由于這些符號(hào)推理任務(wù)的構(gòu)造是明確的,對(duì)于每個(gè)任務(wù),我們考慮一個(gè)在域內(nèi)測(cè)試集,其中的示例與訓(xùn)練/少量示例的步驟相同,以及一個(gè)域外(out-of-domain,OOD)測(cè)試集,其中評(píng)估示例比示例中的步驟多。對(duì)于最后字母拼接,模型只能看到兩個(gè)單詞的名稱(chēng)示例,然后在具有3和4個(gè)單詞的名稱(chēng)上執(zhí)行最后字母拼接。我們對(duì)拋硬幣任務(wù)中可能的翻轉(zhuǎn)次數(shù)也做同樣的處理。我們的實(shí)驗(yàn)設(shè)置使用與前兩節(jié)相同的方法和模型。我們?cè)俅问謩?dòng)為每個(gè)任務(wù)的少量示例組合思維鏈。實(shí)驗(yàn)結(jié)果如下:

84e8d218-ee6f-11ed-90ce-dac502259ad0.png

符號(hào)推理

五、討論

我們已經(jīng)探討了思維鏈提示作為一種簡(jiǎn)單機(jī)制來(lái)引導(dǎo)大型語(yǔ)言模型進(jìn)行多步推理行為。首先,我們發(fā)現(xiàn)思維鏈提示在算術(shù)推理方面大大提高了性能,帶來(lái)的改進(jìn)遠(yuǎn)比消融實(shí)驗(yàn)更強(qiáng)大,而且對(duì)不同的注釋者、示例和語(yǔ)言模型具有魯棒性。接下來(lái),常識(shí)推理實(shí)驗(yàn)強(qiáng)調(diào)了思維鏈推理的語(yǔ)言特性使其具有普遍適用性。最后,我們展示了對(duì)于符號(hào)推理,思維鏈提示有助于在更長(zhǎng)的序列長(zhǎng)度上進(jìn)行OOD泛化。在所有實(shí)驗(yàn)中,思維鏈推理只是通過(guò)提示現(xiàn)成的語(yǔ)言模型來(lái)引導(dǎo),沒(méi)有對(duì)語(yǔ)言模型進(jìn)行微調(diào)。

思維鏈推理屬于模型規(guī)模的涌現(xiàn)能力,這種能力已經(jīng)成為研究中的一種普遍主題。對(duì)于許多推理任務(wù),標(biāo)準(zhǔn)提示具有平坦的縮放曲線(xiàn),思維鏈提示導(dǎo)致了陡峭的增長(zhǎng)曲線(xiàn)。鏈?zhǔn)剿季S提示似乎擴(kuò)大了大型語(yǔ)言模型可以成功執(zhí)行的任務(wù)集——換句話(huà)說(shuō),我們的工作強(qiáng)調(diào),標(biāo)準(zhǔn)提示只提供了大型語(yǔ)言模型能力的下限。這一觀(guān)察可能引發(fā)的問(wèn)題比答案多——例如,隨著模型規(guī)模的進(jìn)一步增加,我們能期望推理能力提高多少?還有哪些提示方法可能擴(kuò)大語(yǔ)言模型可以解決的任務(wù)范圍?

至于局限性,我們首先說(shuō)明,盡管思維鏈模擬了人類(lèi)推理者的思維過(guò)程,但這并不能回答神經(jīng)網(wǎng)絡(luò)是否真正進(jìn)行了“推理”,我們將這個(gè)問(wèn)題留給未來(lái)研究。其次,雖然在少量示例設(shè)置中,用思維鏈?zhǔn)謩?dòng)增強(qiáng)示例的成本很低,但這種注釋成本對(duì)于微調(diào)來(lái)說(shuō)可能是高昂的(盡管這可以通過(guò)合成數(shù)據(jù)生成或零樣本泛化來(lái)克服)。第三,不能保證正確的推理路徑,這可能導(dǎo)致正確和錯(cuò)誤的答案;改進(jìn)語(yǔ)言模型的事實(shí)生成是未來(lái)工作的一個(gè)開(kāi)放方向。最后,思維鏈推理僅在大型模型規(guī)模上的出現(xiàn)使其在實(shí)際應(yīng)用中的服務(wù)成本變得昂貴;進(jìn)一步的研究可以探討如何在較小的模型中引入推理。

總之,思維鏈提示為解決多步推理任務(wù)提供了一種有效且簡(jiǎn)單的方法,僅通過(guò)提示現(xiàn)成的語(yǔ)言模型就能實(shí)現(xiàn)。然而,這并不意味著思維鏈提示完美無(wú)缺,仍然存在一些局限性和未來(lái)需要解決的問(wèn)題。例如,為了進(jìn)一步提高推理能力,研究人員可能需要探討其他提示方法或改進(jìn)現(xiàn)有的提示方法。此外,未來(lái)的研究可以關(guān)注如何在保持計(jì)算成本較低的情況下,引入推理能力。

通過(guò)本文的研究,我們可以更好地理解大型語(yǔ)言模型在推理任務(wù)上的性能,并為未來(lái)的研究和應(yīng)用奠定基礎(chǔ)。鏈?zhǔn)剿季S提示是一種重要的工具,可以幫助我們更好地利用現(xiàn)有的大型語(yǔ)言模型,在各種任務(wù)和場(chǎng)景中取得更好的結(jié)果。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8532

    瀏覽量

    136015
  • MDA
    MDA
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    12447
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16662
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23110

原文標(biāo)題:思維鏈Prompting促進(jìn)大型語(yǔ)言模型的推理能力

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠(chǎng)團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?597次閱讀

    請(qǐng)問(wèn)如何在RK3588上使用npu,用onnx模型來(lái)推理

    請(qǐng)問(wèn)如何在瑞芯微 RK3588上使用npu,用onnx模型來(lái)推理。官網(wǎng)上介紹說(shuō)要把ONNX模型轉(zhuǎn)換成RKNN模型。但是我并不想這么干,請(qǐng)問(wèn)有
    發(fā)表于 08-09 00:51

    積算科技上線(xiàn)赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型算力

    模型輕量化部署方案。用戶(hù)通過(guò)遠(yuǎn)程算力平臺(tái)預(yù)置的模型鏡像與AI工具,僅需50%的GPU算力即可解鎖模型
    的頭像 發(fā)表于 07-30 21:44 ?587次閱讀

    利用自壓縮實(shí)現(xiàn)大型語(yǔ)言模型高效縮減

    隨著語(yǔ)言模型規(guī)模日益龐大,設(shè)備端推理變得越來(lái)越緩慢且耗能巨大。個(gè)直接且效果出人意料的解決方案是剪除那些對(duì)任務(wù)貢獻(xiàn)甚微的完整通道(chann
    的頭像 發(fā)表于 07-28 09:36 ?263次閱讀
    利用自壓縮實(shí)現(xiàn)<b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>高效縮減

    模型推理顯存和計(jì)算量估計(jì)方法研究

    方法。 、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過(guò)深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)或分類(lèi)的過(guò)程。然
    發(fā)表于 07-03 19:43

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開(kāi)發(fā)已經(jīng)成為個(gè)熱門(mén)話(huà)題。這些模型
    的頭像 發(fā)表于 04-30 18:34 ?926次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語(yǔ)言模型(LLM)的推理能力成了最熱門(mén)的話(huà)題之,大量?jī)?yōu)化
    的頭像 發(fā)表于 04-03 12:09 ?967次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    語(yǔ)言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    本文系統(tǒng)性地闡述了大型語(yǔ)言模型(LargeLanguageModels,LLMs)中的解碼策略技術(shù)原理及其實(shí)踐應(yīng)用。通過(guò)深入分析各類(lèi)解碼算法的工作機(jī)制、性能特征和優(yōu)化
    的頭像 發(fā)表于 02-18 12:00 ?933次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    新品| LLM630 Compute Kit,AI 大語(yǔ)言模型推理開(kāi)發(fā)平臺(tái)

    LLM630LLM推理,視覺(jué)識(shí)別,可開(kāi)發(fā),靈活擴(kuò)展···LLM630ComputeKit是款A(yù)I大語(yǔ)言模型推理開(kāi)發(fā)平臺(tái),專(zhuān)為邊緣計(jì)算和智能
    的頭像 發(fā)表于 01-17 18:48 ?1087次閱讀
    新品| LLM630 Compute Kit,AI 大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>開(kāi)發(fā)平臺(tái)

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?729次閱讀

    云端語(yǔ)言模型開(kāi)發(fā)方法

    云端語(yǔ)言模型的開(kāi)發(fā)是個(gè)復(fù)雜而系統(tǒng)的過(guò)程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個(gè)環(huán)節(jié)。下面,AI部落小編為您分享云端
    的頭像 發(fā)表于 12-02 10:48 ?855次閱讀

    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

    視覺(jué)語(yǔ)言模型(VLM)通過(guò)將文本和圖像投射到同一個(gè)嵌入空間,將基礎(chǔ)大語(yǔ)言模型(LLM)強(qiáng)大的
    的頭像 發(fā)表于 11-19 15:37 ?1264次閱讀
    使用ReMEmbR實(shí)現(xiàn)機(jī)器人<b class='flag-5'>推理</b>與行動(dòng)<b class='flag-5'>能力</b>

    使用vLLM+OpenVINO加速大語(yǔ)言模型推理

    隨著大語(yǔ)言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來(lái)推理時(shí)延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?2012次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理綜述

    模型推理的文獻(xiàn)進(jìn)行了全面的綜述總結(jié)。首先分析了大模型推理效率低下的主要原因,即大模型參數(shù)規(guī)模、注意力計(jì)算操的二次復(fù)雜度作和自回歸解碼
    的頭像 發(fā)表于 11-15 11:45 ?2096次閱讀
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>綜述

    從零開(kāi)始訓(xùn)練個(gè)語(yǔ)言模型需要投資多少錢(qián)?

    ,前言 ? 在A(yíng)I領(lǐng)域,訓(xùn)練個(gè)大型語(yǔ)言模型(LLM)是
    的頭像 發(fā)表于 11-08 14:15 ?1186次閱讀
    從零開(kāi)始訓(xùn)練<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>需要投資多少錢(qián)?