偷av色偷偷男人的天堂,粉嫩av久久一区二区三区王玥 ,欧美性色黄大片

視頻相比語(yǔ)言、圖像，是更復(fù)雜更高級(jí)的一類表征世界的模態(tài)，而視頻理解也同樣是相比自然語(yǔ)言處理與計(jì)算機(jī)視覺(jué)的常見(jiàn)工作更復(fù)雜的一類工作。在當(dāng)下大模型的洪流中，自然而然的想法就是大規(guī)模語(yǔ)言模型（LLMs）可以基于語(yǔ)言訓(xùn)練的強(qiáng)大理解推理能力，完成視頻理解的工作嗎？現(xiàn)在答案到來(lái)了，上海 AI Lab 提出了以 Chat 為中心的端到端的視頻理解系統(tǒng) VideoChat，集成了視頻基礎(chǔ)模型與 LLMs，并且在如空間、時(shí)間推理，事件定位、因果推斷等多個(gè)方面都表現(xiàn)十分出色。

區(qū)別于現(xiàn)有多模態(tài)大模型針對(duì)視頻輸入的處理方法，即首先文本化視頻內(nèi)容再接入大模型利用大模型自然語(yǔ)言理解的優(yōu)勢(shì)，這篇論文從模型角度以可學(xué)習(xí)的方式集成了視頻和語(yǔ)言的基礎(chǔ)模型，通過(guò)構(gòu)建視頻基礎(chǔ)模型與 LLMs 的接口，通過(guò)對(duì)接口進(jìn)行訓(xùn)練與學(xué)習(xí)從而完成視頻與語(yǔ)言的對(duì)齊。這樣一種方式可以有效的避免視覺(jué)信息、時(shí)空復(fù)雜性信息丟失的問(wèn)題，第一次創(chuàng)立了一個(gè)高效、可學(xué)習(xí)的視頻理解系統(tǒng)，可以實(shí)現(xiàn)與 VideoChat 對(duì)視頻內(nèi)容的有效交流。

論文題目：

VideoChat ： Chat-Centric Video Understanding

論文鏈接：

https://arxiv.org/pdf/2305.06355.pdf

代碼地址：

https://github.com/OpenGVLab/Ask-Anything

如果要問(wèn)大模型有什么樣的能力，那我們可能洋洋灑灑從理解推理到計(jì)算判斷都可以列舉許多，但是如果要問(wèn)在不同場(chǎng)景下如何理解大模型的不同作用，那有可能就是一個(gè)頗為玄妙的“藝術(shù)”問(wèn)題。在 VideoChat 中，論文作者將大模型理解為一個(gè)視頻任務(wù)的解碼器，即將視頻有關(guān)的描述或更進(jìn)一步的嵌入理解為人類可理解的文本。這一過(guò)程可以被形式化的理解為：

這里與表示一個(gè)圖片或視頻的模型，通過(guò)將 I（圖像）與 V（視頻）輸入到模型中，得到視頻或圖像的嵌入表示 E，而一個(gè)解碼的過(guò)程，就是：

其中與分別表示在第 t 輪中 LLM 的回答和在 t 輪前用戶提出的所有問(wèn)題及答案，即一個(gè) LLM 模型。傳統(tǒng)上針對(duì)多模態(tài)大模型的解決方法，一般是一種將視頻信息文本化的方法，通過(guò)將視頻序列化為文本，構(gòu)成 Video Description，再輸入到大模型之中，這種文本流可以很好的適應(yīng)理解類的工作，但是卻對(duì)如時(shí)間、空間感知這類任務(wù)表現(xiàn)不佳，因?yàn)閹缀跏潜厝坏?，將視頻信息文本化后很容易使得這類基礎(chǔ)信息出現(xiàn)丟失。而因此論文試圖完成一個(gè)端到端的一體化的方法，直接提取視頻的嵌入信息，如下圖對(duì)比所示：

通過(guò)整合這樣兩種視頻架構(gòu)，即整合 VideoChat-Text 與 VideoChat-Embed 得到的 Video Context 輸入到大模型之中，以獲得更全面的視頻信息理解能力，如在上圖的任務(wù)中，用戶提問(wèn)“他是在唱、跳和 Rap 嗎”，VideoChat 回復(fù)“不是，他是在打籃球（和跳舞）”

對(duì)于 VideoChat-Text 部分，論文作者詳細(xì)的解構(gòu)了一個(gè)視頻包含的內(nèi)容，比如動(dòng)作、語(yǔ)音、對(duì)象及帶有位置注釋的對(duì)象等等，基于這些分析，VideoChat-Text 模塊綜合利用各種視頻與圖像模型獲得這些內(nèi)容的表征，再使用 T5 整合模型輸出，得到文本化的視頻之中，使用如下圖所示的模板完成對(duì) LLMs 的輸入：

而對(duì)于 VideoChat-Embed 則采用如下架構(gòu)將視頻和大模型與可學(xué)習(xí)的 Video-Language Token Interface（VLTF）相結(jié)合，基于 BLIP-2 和 StableVicuna 來(lái)構(gòu)建 VideoChat-Embed，具體而言，首先通過(guò) GMHRA 輸入視頻，同時(shí)引入圖像數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練并接入一個(gè)經(jīng)過(guò)預(yù)訓(xùn)練的 Q-Former，完成視頻的 Embedding。

整個(gè)訓(xùn)練過(guò)程可以分為兩個(gè)階段，分別是對(duì)齊與微調(diào)。在對(duì)齊階段，作者引入了 25M 個(gè)視覺(jué)-文本對(duì)針對(duì)接口進(jìn)行微調(diào)，整體的輸入提示如下：

而在微調(diào)階段，論文自行構(gòu)建并開(kāi)源了包含 7k 個(gè)詳細(xì)的視頻描述與圖像描述以及 4k 個(gè)視頻對(duì)話，3k 個(gè)圖像描述，2k 個(gè)圖像對(duì)話，2k 個(gè)圖像推理的指令數(shù)據(jù)集對(duì) VideoChat 完成微調(diào)。

對(duì)比 LLaVa、miniGPT-4 以及 mPLUG-owl，論文對(duì) VideoChat 的多方面能力進(jìn)行了定性研究。其中，在空間感知與分析中，VideoChat 可以識(shí)別日式服裝來(lái)推斷出相應(yīng)的音樂(lè)，并且確定視頻中的人數(shù)。這即是證明了 VideoChat 識(shí)別捕獲視覺(jué)元素并給予視覺(jué)元素進(jìn)行分析的能力。

在時(shí)間感知與分析中，VideoChat 可以識(shí)別出視頻中做瑜伽的動(dòng)作，甚至給出了它摔倒可能性的判斷并進(jìn)行提醒了安全問(wèn)題。

在非正式推斷中，VideoChat 也可以解釋“為什么這個(gè)視頻是好笑的”這一問(wèn)題，并且解釋的也符合我們對(duì)視頻好笑的一些抽象判斷，如不協(xié)調(diào)，突然性等等。

而對(duì)比最近的基于圖像的多模態(tài)對(duì)話系統(tǒng)，VideoChat 可以正確的識(shí)別場(chǎng)景，而其他系統(tǒng)則錯(cuò)誤的將對(duì)話環(huán)境視為室內(nèi)，這充分的體現(xiàn)了 Video-Chat 在空間感知方面非常強(qiáng)大的比較優(yōu)勢(shì)。

這樣一個(gè)開(kāi)源的視頻理解框架可以為視頻理解這樣一個(gè)目前還沒(méi)有什么非常成熟的解決方案的問(wèn)題鋪好道路，顯然，將視頻信息與文本信息對(duì)齊，大規(guī)模語(yǔ)音模型的優(yōu)秀能力是可以允許他們理解視頻信息。而如果將大模型看作一個(gè)有推理、理解能力的黑盒，視頻理解的問(wèn)題就變成了如何對(duì)視頻進(jìn)行解碼以及與文本對(duì)齊的問(wèn)題，這可以說(shuō)是大模型為這一領(lǐng)域帶來(lái)的“提問(wèn)方式”的改變。

但是針對(duì)我們期望的成熟的視頻理解器，這篇工作仍然具有局限性，比如 VideoChat 還是難以處理 1 分鐘以上的長(zhǎng)視頻，當(dāng)然這主要是來(lái)自于大模型上下文長(zhǎng)度的限制，但是在有限的上下文長(zhǎng)度中如何更好的壓縮視頻信息也成為一個(gè)復(fù)雜的問(wèn)題，當(dāng)視頻時(shí)長(zhǎng)變長(zhǎng)后，系統(tǒng)的響應(yīng)時(shí)間也會(huì)對(duì)用戶體驗(yàn)帶來(lái)負(fù)面影響。另外總的來(lái)說(shuō)，這篇論文使用的數(shù)據(jù)集仍然不算大，因此使得 VideoChat 的推理能力仍然停留在簡(jiǎn)單推理的層級(jí)上，還無(wú)法完成復(fù)雜一點(diǎn)的推理工作，總之，盡管 VideoChat 還不是一個(gè)盡善盡美的解決方案，但是已然可以為當(dāng)下視頻理解系統(tǒng)增添重要一筆，讓我們期待基于它的更加成熟的工作吧！

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴