本文對BERT的原理、技術(shù)細節(jié)以及如何應(yīng)用于實際場景中,做了簡明扼要的介紹。看完本文相信您會對BERT為什么被認為是當前最好的NLP模型、實現(xiàn)原理以及適用場景有所了解。
目前最好的自然語言預訓練方法無疑是BERT。它的工作流程分為兩步:
首先,使用大量未標記的數(shù)據(jù),以預訓練、也就是無人監(jiān)督的方式學習語言表達。
然后,使用少量經(jīng)過標記的訓練數(shù)據(jù)對模型進行fine-tune,以監(jiān)督學習的方式,執(zhí)行多種監(jiān)督任務(wù)。
預訓練機器學習模型已經(jīng)在包括視覺、自然語言處理在內(nèi)的各個領(lǐng)域取得了成功。
詳解BERT及其原理
BERT是Bidirectional Encoder Representations from Transformers的縮寫,是一種新型的語言模型,通過聯(lián)合調(diào)節(jié)所有層中的雙向Transformer來訓練預訓練深度雙向表示。
它基于谷歌2017年發(fā)布的Transformer架構(gòu),通常的Transformer使用一組編碼器和解碼器網(wǎng)絡(luò),而BERT只需要一個額外的輸出層,對預訓練進行fine-tune,就可以滿足各種任務(wù),根本沒有必要針對特定任務(wù)對模型進行修改。
BERT將多個Transformer編碼器堆疊在一起。Transformer基于著名的多頭注意力(Multi-head Attention)模塊,該模塊在視覺和語言任務(wù)方面都取得了巨大成功。
BERT的先進性基于兩點:首先,使用Masked Langauge Model(MLM)和Next Sentense Prediction(NSP)的新預訓練任務(wù);其次,大量數(shù)據(jù)和計算能力滿足BERT的訓練強度。
相比之下,像Word2Vec、ELMO、OpenAI GPT等傳統(tǒng)SOTA生成預訓練方法,使用從左到右的單向訓練,或者淺雙向,均無法做到BERT的雙向性。
MLM
MLM可以從文本執(zhí)行雙向?qū)W習,即允許模型從單詞前后相鄰的單詞,學習每個單詞的上下文,這是傳統(tǒng)方法做不到的。
MLM預訓練任務(wù)將文本轉(zhuǎn)換為符號,并使用符號表示作為訓練的輸入和輸出。15%的符號隨機子集在訓練期間被屏蔽(類似被隱藏起來),目標函數(shù)則用來預測符號識別的正確率。
這與使用單向預測作為目標、或使用從左到右和從右到左訓練,來近似雙向性的傳統(tǒng)訓練方法形成了對比。
但是MLM中的BERT屏蔽策略,將模型偏向于實際的單詞,還沒有數(shù)據(jù)顯示這種偏見對訓練所產(chǎn)生的影響。
NSP
NSP使得BERT可以通過預測上下句之間是否連貫來得出句子之間的關(guān)系。
給出50%正確上下句配對,并補充50%的隨機上下句配對,然后對模型進行訓練。
MLM和NSP是同時進行的。
數(shù)據(jù)和TPU/GPU runtime
BERT的訓練總共使用了33億單詞。其中25億來自維基百科,剩下8億來自BooksCorpus。
訓練使用TPU完成,GPU估算如下所示。

使用2500-392000標記的樣品進行fine-tune。重要的是,100K以上訓練樣本的數(shù)據(jù)集在各種超參數(shù)上表現(xiàn)出強大的性能。
每個fine-tune實驗在單個云TPU上運行1小時,在GPU上需要運行幾個小時不等。
結(jié)果顯示,BERT優(yōu)于11項NLP任務(wù)。在SQUAD和SWAG兩個任務(wù)中,BERT成為第一個超越人類的NLP模型!

BERT能夠解決的實際任務(wù)類型
BERT預訓練了104種語言,已在TensorFlow和Pytorch中實現(xiàn)并開源。Clone地址:
https://github.com/google-research/Bert
BERT可以針對幾種類型的任務(wù)進行fine-tune。例如文本分類、文本相似性、問答、文本標簽、如詞性、命名實體識別等。
但是,預訓練BERT是很貴的,除非使用類似于Nvidia V100這樣的TPU或GPU。
BERT人員還發(fā)布了一個單獨的多語種模型,該模型使用整個維基百科的100種語言進行訓練,性能比單語種的低幾個百分點。
-
編碼器
+關(guān)注
關(guān)注
45文章
3877瀏覽量
140862 -
自然語言
+關(guān)注
關(guān)注
1文章
292瀏覽量
13877 -
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23107
原文標題:3分鐘看懂史上最強NLP模型BERT
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
超大容量電池出世,充滿電只需6分鐘
OPPO閃充,15分鐘充滿一部手機電量
新型有機電池ORB 充電只需1分鐘
深圳現(xiàn)身會炒菜機器人:最快只需3分鐘炒好酸辣土豆絲
三星改革智能手機充電技術(shù),充滿只需十分鐘
1024塊TPU在燃燒!將BERT預訓練模型的訓練時長從3天縮減到了76分鐘
OPPO Reno Ace曝光搭載65W超級閃充只需要30分鐘就能充滿電
OPPO Reno 3 Pro將搭載增強版的VOOC 4.0最快56分鐘充滿電
3分鐘了解嵌入式的硬件構(gòu)架資料下載
3分鐘了解ePort關(guān)鍵設(shè)計技巧
3分鐘了解ePort關(guān)鍵設(shè)計技巧
【產(chǎn)品應(yīng)用】3分鐘了解ePort關(guān)鍵設(shè)計技巧

了解BERT原理、技術(shù)、實踐,只需3分鐘
評論