18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

上海AI lab提出VideoChat:可以與視頻對(duì)話啦

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:夕小瑤科技說(shuō) ? 2023-05-15 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

視頻相比語(yǔ)言、圖像,是更復(fù)雜更高級(jí)的一類表征世界的模態(tài),而視頻理解也同樣是相比自然語(yǔ)言處理與計(jì)算機(jī)視覺(jué)的常見(jiàn)工作更復(fù)雜的一類工作。在當(dāng)下大模型的洪流中,自然而然的想法就是大規(guī)模語(yǔ)言模型(LLMs)可以基于語(yǔ)言訓(xùn)練的強(qiáng)大理解推理能力,完成視頻理解的工作嗎?現(xiàn)在答案到來(lái)了,上海 AI Lab 提出了以 Chat 為中心的端到端的視頻理解系統(tǒng) VideoChat,集成了視頻基礎(chǔ)模型與 LLMs,并且在如空間、時(shí)間推理,事件定位、因果推斷等多個(gè)方面都表現(xiàn)十分出色。

01aaedc8-f2b6-11ed-90ce-dac502259ad0.png

區(qū)別于現(xiàn)有多模態(tài)大模型針對(duì)視頻輸入的處理方法,即首先文本化視頻內(nèi)容再接入大模型利用大模型自然語(yǔ)言理解的優(yōu)勢(shì),這篇論文從模型角度以可學(xué)習(xí)的方式集成了視頻和語(yǔ)言的基礎(chǔ)模型,通過(guò)構(gòu)建視頻基礎(chǔ)模型與 LLMs 的接口,通過(guò)對(duì)接口進(jìn)行訓(xùn)練與學(xué)習(xí)從而完成視頻與語(yǔ)言的對(duì)齊。這樣一種方式可以有效的避免視覺(jué)信息、時(shí)空復(fù)雜性信息丟失的問(wèn)題,第一次創(chuàng)立了一個(gè)高效、可學(xué)習(xí)的視頻理解系統(tǒng),可以實(shí)現(xiàn)與 VideoChat 對(duì)視頻內(nèi)容的有效交流。

論文題目:

VideoChat : Chat-Centric Video Understanding

論文鏈接:

https://arxiv.org/pdf/2305.06355.pdf

代碼地址:

https://github.com/OpenGVLab/Ask-Anything

如果要問(wèn)大模型有什么樣的能力,那我們可能洋洋灑灑從理解推理到計(jì)算判斷都可以列舉許多,但是如果要問(wèn)在不同場(chǎng)景下如何理解大模型的不同作用,那有可能就是一個(gè)頗為玄妙的“藝術(shù)”問(wèn)題。在 VideoChat 中,論文作者將大模型理解為一個(gè)視頻任務(wù)的解碼器,即將視頻有關(guān)的描述或更進(jìn)一步的嵌入理解為人類可理解的文本。這一過(guò)程可以被形式化的理解為:

這里 與 表示一個(gè)圖片或視頻的模型,通過(guò)將 I(圖像) 與 V(視頻)輸入到模型中,得到視頻或圖像的嵌入表示 E,而一個(gè)解碼的過(guò)程,就是:

其中 與 分別表示在第 t 輪中 LLM 的回答和在 t 輪前用戶提出的所有問(wèn)題及答案, 即一個(gè) LLM 模型。傳統(tǒng)上針對(duì)多模態(tài)大模型的解決方法,一般是一種將視頻信息文本化的方法,通過(guò)將視頻序列化為文本,構(gòu)成 Video Description,再輸入到大模型之中,這種文本流可以很好的適應(yīng)理解類的工作,但是卻對(duì)如時(shí)間、空間感知這類任務(wù)表現(xiàn)不佳,因?yàn)閹缀跏潜厝坏?,將視頻信息文本化后很容易使得這類基礎(chǔ)信息出現(xiàn)丟失。而因此論文試圖完成一個(gè)端到端的一體化的方法,直接提取視頻的嵌入信息,如下圖對(duì)比所示:

01df4532-f2b6-11ed-90ce-dac502259ad0.png

通過(guò)整合這樣兩種視頻架構(gòu),即整合 VideoChat-Text 與 VideoChat-Embed 得到的 Video Context 輸入到大模型之中,以獲得更全面的視頻信息理解能力,如在上圖的任務(wù)中,用戶提問(wèn)“他是在唱、跳和 Rap 嗎”,VideoChat 回復(fù)“不是,他是在打籃球(和跳舞)”

對(duì)于 VideoChat-Text 部分,論文作者詳細(xì)的解構(gòu)了一個(gè)視頻包含的內(nèi)容,比如動(dòng)作、語(yǔ)音、對(duì)象及帶有位置注釋的對(duì)象等等,基于這些分析,VideoChat-Text 模塊綜合利用各種視頻與圖像模型獲得這些內(nèi)容的表征,再使用 T5 整合模型輸出,得到文本化的視頻之中,使用如下圖所示的模板完成對(duì) LLMs 的輸入:

0202b954-f2b6-11ed-90ce-dac502259ad0.png

而對(duì)于 VideoChat-Embed 則采用如下架構(gòu)將視頻和大模型與可學(xué)習(xí)的 Video-Language Token Interface(VLTF)相結(jié)合,基于 BLIP-2 和 StableVicuna 來(lái)構(gòu)建 VideoChat-Embed,具體而言,首先通過(guò) GMHRA 輸入視頻,同時(shí)引入圖像數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練并接入一個(gè)經(jīng)過(guò)預(yù)訓(xùn)練的 Q-Former,完成視頻的 Embedding。

0227a098-f2b6-11ed-90ce-dac502259ad0.png

整個(gè)訓(xùn)練過(guò)程可以分為兩個(gè)階段,分別是對(duì)齊與微調(diào)。在對(duì)齊階段,作者引入了 25M 個(gè)視覺(jué)-文本對(duì)針對(duì)接口進(jìn)行微調(diào),整體的輸入提示如下:

023fe07c-f2b6-11ed-90ce-dac502259ad0.png

而在微調(diào)階段,論文自行構(gòu)建并開(kāi)源了包含 7k 個(gè)詳細(xì)的視頻描述與圖像描述以及 4k 個(gè)視頻對(duì)話,3k 個(gè)圖像描述,2k 個(gè)圖像對(duì)話,2k 個(gè)圖像推理的指令數(shù)據(jù)集對(duì) VideoChat 完成微調(diào)。

025616f8-f2b6-11ed-90ce-dac502259ad0.png

對(duì)比 LLaVa、miniGPT-4 以及 mPLUG-owl,論文對(duì) VideoChat 的多方面能力進(jìn)行了定性研究。其中,在空間感知與分析中,VideoChat 可以識(shí)別日式服裝來(lái)推斷出相應(yīng)的音樂(lè),并且確定視頻中的人數(shù)。這即是證明了 VideoChat 識(shí)別捕獲視覺(jué)元素并給予視覺(jué)元素進(jìn)行分析的能力。

02bb2cf0-f2b6-11ed-90ce-dac502259ad0.png

在時(shí)間感知與分析中,VideoChat 可以識(shí)別出視頻中做瑜伽的動(dòng)作,甚至給出了它摔倒可能性的判斷并進(jìn)行提醒了安全問(wèn)題。

02d2de36-f2b6-11ed-90ce-dac502259ad0.png

在非正式推斷中,VideoChat 也可以解釋“為什么這個(gè)視頻是好笑的”這一問(wèn)題,并且解釋的也符合我們對(duì)視頻好笑的一些抽象判斷,如不協(xié)調(diào),突然性等等。

030494f8-f2b6-11ed-90ce-dac502259ad0.png

而對(duì)比最近的基于圖像的多模態(tài)對(duì)話系統(tǒng),VideoChat 可以正確的識(shí)別場(chǎng)景,而其他系統(tǒng)則錯(cuò)誤的將對(duì)話環(huán)境視為室內(nèi),這充分的體現(xiàn)了 Video-Chat 在空間感知方面非常強(qiáng)大的比較優(yōu)勢(shì)。

032e5a04-f2b6-11ed-90ce-dac502259ad0.png

這樣一個(gè)開(kāi)源的視頻理解框架可以為視頻理解這樣一個(gè)目前還沒(méi)有什么非常成熟的解決方案的問(wèn)題鋪好道路,顯然,將視頻信息與文本信息對(duì)齊,大規(guī)模語(yǔ)音模型的優(yōu)秀能力是可以允許他們理解視頻信息。而如果將大模型看作一個(gè)有推理、理解能力的黑盒,視頻理解的問(wèn)題就變成了如何對(duì)視頻進(jìn)行解碼以及與文本對(duì)齊的問(wèn)題,這可以說(shuō)是大模型為這一領(lǐng)域帶來(lái)的“提問(wèn)方式”的改變。

但是針對(duì)我們期望的成熟的視頻理解器,這篇工作仍然具有局限性,比如 VideoChat 還是難以處理 1 分鐘以上的長(zhǎng)視頻,當(dāng)然這主要是來(lái)自于大模型上下文長(zhǎng)度的限制,但是在有限的上下文長(zhǎng)度中如何更好的壓縮視頻信息也成為一個(gè)復(fù)雜的問(wèn)題,當(dāng)視頻時(shí)長(zhǎng)變長(zhǎng)后,系統(tǒng)的響應(yīng)時(shí)間也會(huì)對(duì)用戶體驗(yàn)帶來(lái)負(fù)面影響。另外總的來(lái)說(shuō),這篇論文使用的數(shù)據(jù)集仍然不算大,因此使得 VideoChat 的推理能力仍然停留在簡(jiǎn)單推理的層級(jí)上,還無(wú)法完成復(fù)雜一點(diǎn)的推理工作,總之,盡管 VideoChat 還不是一個(gè)盡善盡美的解決方案,但是已然可以為當(dāng)下視頻理解系統(tǒng)增添重要一筆,讓我們期待基于它的更加成熟的工作吧!

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Video
    +關(guān)注

    關(guān)注

    0

    文章

    196

    瀏覽量

    46300
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13864

原文標(biāo)題:上海AI lab提出VideoChat:可以與視頻對(duì)話啦

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    對(duì)話|AI服務(wù)器電源對(duì)磁性元件提出的新需求

    編者按: 自ChatGPT、DeepSeek等大型AI模型應(yīng)用爆發(fā)以來(lái),市場(chǎng)對(duì)AI服務(wù)器的需求激增,其配套電源的發(fā)展前景已成為行業(yè)共識(shí)。目前,I服務(wù)器電源企業(yè)的出貨規(guī)模仍有限,AI服務(wù)器電源廠商差距
    的頭像 發(fā)表于 10-11 14:55 ?192次閱讀
    <b class='flag-5'>對(duì)話</b>|<b class='flag-5'>AI</b>服務(wù)器電源對(duì)磁性元件<b class='flag-5'>提出</b>的新需求

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    AI的應(yīng)用多種多樣。比如:DALL-E2、Midjourney、Stable Diffusion等,不僅包括對(duì)話功能,還包括生成圖像、視頻、語(yǔ)音和程序代碼等功能。 竟然連代碼都可以生成
    發(fā)表于 09-12 16:07

    正點(diǎn)原子 AI BOX0 智能伴侶,1.54寸高清屏+長(zhǎng)效續(xù)航,語(yǔ)音暢聊,情景對(duì)話,知識(shí)科普,多色可選,隨身攜帶!

    品非它莫屬! 為什么選擇小智AI? 真人級(jí)交互體驗(yàn) ① AI情感對(duì)話:不止問(wèn)答,更能陪你聊心事、講笑話,像朋友一樣懂你! ② 10+音色百變:溫柔御姐、萌趣童聲、磁性男神… 每天換一種聲音陪伴
    發(fā)表于 04-24 16:11

    芯資訊|WT2605C藍(lán)牙語(yǔ)音芯片:AI對(duì)話大模型賦能的智能交互新引擎

    引言:AI技術(shù)驅(qū)動(dòng)智能交互新趨勢(shì)在萬(wàn)物互聯(lián)的智能時(shí)代,用戶對(duì)產(chǎn)品的交互體驗(yàn)提出了更高要求——從“被動(dòng)響應(yīng)”向“主動(dòng)對(duì)話”升級(jí)。如何將AI大模型的強(qiáng)大語(yǔ)義理解與語(yǔ)音交互能力輕量化集成至硬
    的頭像 發(fā)表于 04-09 08:35 ?760次閱讀
    芯資訊|WT2605C藍(lán)牙語(yǔ)音芯片:<b class='flag-5'>AI</b><b class='flag-5'>對(duì)話</b>大模型賦能的智能交互新引擎

    單次、多次對(duì)話與RTC對(duì)話AI交互模式,如何各顯神通?

    和RTC對(duì)話這三種常見(jiàn)的AI交互模式,各自在不同場(chǎng)景中發(fā)揮著關(guān)鍵作用,為我們帶來(lái)了不同的使用體驗(yàn)。對(duì)話視頻三種AI交互模式單次
    的頭像 發(fā)表于 04-02 18:18 ?1601次閱讀
    單次、多次<b class='flag-5'>對(duì)話</b>與RTC<b class='flag-5'>對(duì)話</b><b class='flag-5'>AI</b>交互模式,如何各顯神通?

    能和Ai-M61模組對(duì)話了?手搓一個(gè)ChatGPT 語(yǔ)音助手

    起猛了, 安信可的Ai-M61模組能說(shuō)話了! 超低延遲實(shí)時(shí)秒回 ,對(duì)話超絲滑的那種,先來(lái)看一段VCR: 小安派+ChatGPT語(yǔ)音實(shí)測(cè):對(duì)話絲滑到忘記對(duì)面是AI_ 人工智能的應(yīng)用日益廣
    的頭像 發(fā)表于 03-12 11:57 ?7376次閱讀
    能和<b class='flag-5'>Ai</b>-M61模組<b class='flag-5'>對(duì)話</b>了?手搓一個(gè)ChatGPT 語(yǔ)音助手

    科技云報(bào)到:從鸚鵡學(xué)舌到靈魂對(duì)話,AI的「人話革命」

    科技云報(bào)到:從鸚鵡學(xué)舌到靈魂對(duì)話,AI的「人話革命」
    的頭像 發(fā)表于 03-11 14:26 ?437次閱讀

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開(kāi)發(fā)視頻應(yīng)用

    AI助手”功能。 根據(jù)需求選擇助手類型,例如應(yīng)用助手、知識(shí)助手或對(duì)話助手。對(duì)于視頻生成應(yīng)用,可能需要結(jié)合應(yīng)用助手和對(duì)話助手的功能。 完成助手的基礎(chǔ)配置,包括動(dòng)作意圖、知識(shí)庫(kù)和
    發(fā)表于 03-05 19:52

    AI正在對(duì)硬件互連提出“過(guò)分”要求 | Samtec于Keysight開(kāi)放日深度分享

    ?在Keysight實(shí)驗(yàn)室開(kāi)放日上海站做深度分享時(shí),提出了以上這樣的問(wèn)題。 本次活動(dòng)由Keysight主辦,在上海、北京舉辦開(kāi)放實(shí)驗(yàn)室主題日活動(dòng),攜手Samtec的技術(shù)專家,共同探討確保 AI
    發(fā)表于 02-26 11:09 ?544次閱讀
    <b class='flag-5'>AI</b>正在對(duì)硬件互連<b class='flag-5'>提出</b>“過(guò)分”要求 | Samtec于Keysight開(kāi)放日深度分享

    行業(yè)集結(jié):共同定制 RK3566 集成 AI 眼鏡的前沿 AR 方案

    的 WiFi5 音視頻 SoC 模組。RK3566 芯片框圖 功能特點(diǎn) 這款 AI 眼鏡,絕非僅僅是一款冰冷的科技設(shè)備,它擁有以下功能:· AI 大模型語(yǔ)音對(duì)話· 圖像拍照(上
    發(fā)表于 02-20 18:44

    商湯科技推出SenseNova-5o,限時(shí)免費(fèi)實(shí)時(shí)音視頻對(duì)話服務(wù)

    的實(shí)時(shí)交互、視覺(jué)識(shí)別、記憶思考、持續(xù)對(duì)話和復(fù)雜推理等多項(xiàng)能力。這些功能使得AI與人類之間的交流更加自然、流暢,每一次互動(dòng)都充滿了智能與貼心。 通過(guò)SenseNova-5o,用戶可以享受到前所未有的智能體驗(yàn)。無(wú)論是生活場(chǎng)景中的日常
    的頭像 發(fā)表于 01-20 15:11 ?946次閱讀

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案

    、NVIDIA Triton,Pantheon Lab 訓(xùn)練速度提高 10 倍、推理延遲降低 50%,以及用戶參與度提升 30%。這些進(jìn)步使對(duì)話AI 能夠提供實(shí)時(shí)且真實(shí)的互動(dòng),使 Pantheon
    的頭像 發(fā)表于 01-14 11:19 ?831次閱讀

    HarmonyOS NEXT 應(yīng)用開(kāi)發(fā)練習(xí):AI智能對(duì)話

    顯示發(fā)送的時(shí)間戳,以便用戶了解消息的發(fā)送時(shí)間。 這個(gè)DEMO展示了如何使用ArkTS和擴(kuò)展后的ChatUI框架(或類似功能的庫(kù))在HarmonyOS NEXT上創(chuàng)建一個(gè)功能豐富的AI智能對(duì)話框。我們可以根據(jù)需要進(jìn)一步定制和擴(kuò)展這
    發(fā)表于 01-03 11:29

    一桿有AI的路燈:感知環(huán)境監(jiān)測(cè)路況還能“對(duì)話”無(wú)人駕駛AI燈桿屏

    一桿有AI的路燈:感知環(huán)境監(jiān)測(cè)路況還能“對(duì)話”無(wú)人駕駛AI燈桿屏
    的頭像 發(fā)表于 11-15 09:45 ?969次閱讀
    一桿有<b class='flag-5'>AI</b>的路燈:感知環(huán)境監(jiān)測(cè)路況還能“<b class='flag-5'>對(duì)話</b>”無(wú)人駕駛<b class='flag-5'>AI</b>燈桿屏

    AI對(duì)話魔法 Prompt Engineering 探索指南

    Engineering 就是設(shè)計(jì)和優(yōu)化與AI對(duì)話的“提示詞”或“指令”,讓AI能準(zhǔn)確理解并提供有用的回應(yīng)。 Prompt Engineering 主要包括以下幾個(gè)方面: 1.明確目標(biāo):希望A
    的頭像 發(fā)表于 11-07 10:11 ?1675次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>對(duì)話</b>魔法 Prompt Engineering 探索指南