使用視覺和語言指令訓(xùn)練一個(gè)多模態(tài)聊天機(jī)器人!
基于開源多模態(tài)模型OpenFlamingo,作者使用公開數(shù)據(jù)集創(chuàng)建了各種視覺指令數(shù)據(jù),包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對(duì)話。此外,還使用僅包含語言指令數(shù)據(jù)的語言模型組件進(jìn)行了訓(xùn)練。
視覺和語言指令的聯(lián)合訓(xùn)練有效提高了模型的性能!
具體細(xì)節(jié)就跟隨小編繼續(xù)往下看看吧~
總結(jié)
本文提出一種多模態(tài)GPT(視覺、語言),與人類進(jìn)行多輪對(duì)話,同時(shí)設(shè)計(jì)了統(tǒng)一化多模態(tài)的指令數(shù)據(jù)模板
能夠遵循的指令類型:生成詳細(xì)的標(biāo)題、計(jì)算特定的對(duì)象、處理一般的詢問
基準(zhǔn)模型:OpenFlamingo(用LoRA方式訓(xùn)練)
聯(lián)合訓(xùn)練的數(shù)據(jù):1.純文本數(shù)據(jù) 2.圖像-文本數(shù)據(jù)
其他的一些多模態(tài)GPT模型:GPT-4[1]、Mini-GPT[2]、LLaVA[3]
提到的其他LLM:Vicuna[4]、LLaMA[5]
提到的其他數(shù)據(jù)集:VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR
1.引言
人類交流/理解世界的方式:視覺、語言等
AI智能助手的作用:根據(jù)多種模態(tài)的指令,理解人類意圖,完成各種任務(wù)
之前的方法:將視覺表示與LLM的輸入空間對(duì)齊,隨后利用LLM中的原始自我注意來處理視覺信息
本文的方法:微調(diào)Flamingo(開源)
視覺編碼器
門限交叉注意力機(jī)制
預(yù)訓(xùn)練使用“圖文對(duì)”數(shù)據(jù)
統(tǒng)一多模態(tài)的指令模板
語言數(shù)據(jù)、語言-視覺數(shù)據(jù),進(jìn)行聯(lián)合訓(xùn)練
本文目標(biāo):在多模態(tài)對(duì)話任務(wù)上,接近人的性能表現(xiàn)
2.統(tǒng)一指令模板
主要是提出了一個(gè)統(tǒng)一的訓(xùn)練數(shù)據(jù)模板,把以下兩種數(shù)據(jù)整合起來,提高模型理解能力
2.1 僅語言的指令模板
僅包含語言的指令提示模板
{instruction},{input}為輸入文本,{response},
使用數(shù)據(jù):
Dolly15k數(shù)據(jù)集
AlpacaGPT4數(shù)據(jù)集
2.2 視覺-語言的指令模板
包含視覺-語言的指令提示模板
其中,{question}是原始文本,
使用數(shù)據(jù)集:
LLaVA
Mini-GPT4
A-OKVQA
COCOcaption(不直接作為訓(xùn)練集,而是用GPT-4轉(zhuǎn)化,再加入訓(xùn)練集)
OCRVQA
上述合成指令使得訓(xùn)練集較為豐富,則模型能夠更健壯
圖像描述的指令,舉例如下:
本文方法
模型結(jié)構(gòu)圖
基線模型:open-flamingo模型
組成:
視覺編碼器:CLIP
感知重采樣
語言解碼器:LLaMA (自注意力、交叉注意力、FFW中加入LoRA,便于微調(diào))
訓(xùn)練數(shù)據(jù):用2.1和2.2兩種數(shù)據(jù),進(jìn)行聯(lián)合訓(xùn)練
訓(xùn)練過程:通過預(yù)測(cè)文本的下一個(gè)標(biāo)記進(jìn)行訓(xùn)練,只有{responce}和標(biāo)記參與損失計(jì)算
4.實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置:
實(shí)驗(yàn)參數(shù) | 取值 |
---|---|
GPU | A100*8 |
epoch | 1 |
batch_size | 1 |
LoRA參數(shù)更新 | 每16輪 |
learningrate | 1e-5 |
Demos展示:
給出一個(gè)烤千層面的食譜,并告訴用戶在哪里吃到它
能夠識(shí)別埃隆·馬斯克的形象,并回答關(guān)于埃隆·馬斯克的問題
我知道照片上有4個(gè)女人,也知道她們?cè)谧鍪裁?/p>
認(rèn)得出電影,也知道電影是由哪個(gè)電影公司制作的
能識(shí)別圖像中的人物,并認(rèn)識(shí)該書的作者
可以回答關(guān)于用戶旅行的一般問題
可以為圖像生成詳細(xì)的描述,并有能力推理得到在圖像中的季節(jié)
在線網(wǎng)站
感興趣可以去官方網(wǎng)站[6]去嘗試下,真的很棒!點(diǎn)擊閱讀原文也可直達(dá)!
缺點(diǎn)是好像只支持英文~
審核編輯 :李倩
-
開源
+關(guān)注
關(guān)注
3文章
3885瀏覽量
45301 -
語言模型
+關(guān)注
關(guān)注
0文章
567瀏覽量
11208 -
聊天機(jī)器人
+關(guān)注
關(guān)注
0文章
348瀏覽量
12966
原文標(biāo)題:多模態(tài)GPT:國(guó)內(nèi)發(fā)布一款可以在線使用的多模態(tài)聊天機(jī)器人!快來把玩~
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
為旌科技VS859:國(guó)產(chǎn)具身智能“感算控”一體SoC,賦能邊緣多模態(tài)智能場(chǎng)景

江智機(jī)器人公司《多模態(tài)下人機(jī)協(xié)同交互系統(tǒng)與方法》發(fā)明專利已具有高價(jià)值發(fā)明專利屬性

愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型

??低?b class='flag-5'>發(fā)布多模態(tài)大模型AI融合巡檢超腦
?多模態(tài)交互技術(shù)解析
??低?b class='flag-5'>發(fā)布多模態(tài)大模型文搜存儲(chǔ)系列產(chǎn)品

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型
商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一
自然語言處理在聊天機(jī)器人中的應(yīng)用
一文理解多模態(tài)大語言模型——下

評(píng)論