18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SceneXplain:讓ChatGPT開啟視覺視角

深度學(xué)習(xí)自然語言處理 ? 來源:Jina AI ? 2023-04-14 10:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

精準(zhǔn)的圖像描述不僅可以讓人們更容易理解圖像背后的故事和信息,還可以讓圖像更易于被檢索和識(shí)別。然而,對(duì)于那些復(fù)雜的圖像來說,寫出既準(zhǔn)確又詳細(xì)的描述實(shí)在是件非常困難的事情。

圖像描述算法的演變

所謂 Image Caption(圖像描述)任務(wù),就是讓計(jì)算機(jī)能夠根據(jù)一張圖片自動(dòng)生成相應(yīng)的文字描述。在早期的模型,比如OpenAI 的 CLIP,利用了無監(jiān)督學(xué)習(xí)和微調(diào)技術(shù),通過海量的圖片和文本數(shù)據(jù)集進(jìn)行了訓(xùn)練,理解了圖片和文本間的聯(lián)系,從而能夠生成有意義的圖像描述。

后來,一種名為BLIP-2的算法應(yīng)運(yùn)而生,它采用了更高效的預(yù)訓(xùn)練策略。BLIP-2 利用現(xiàn)成的凍結(jié)預(yù)訓(xùn)練圖像編碼器和大型語言模型,通過一個(gè)輕量級(jí)的查詢式 Transformer 來連接不同的模態(tài)。不僅減少了訓(xùn)練參數(shù),還保證了各種視覺-語言任務(wù)上取得 SOTA 表現(xiàn)。

得益于多模態(tài)技術(shù)的不斷發(fā)展,圖像描述這個(gè)需要結(jié)合 CV 和 NLP 的老大難問題在近些年里邁出了一大步。但直到現(xiàn)在,大部分 AI 生成的圖像描述都比較籠統(tǒng)簡(jiǎn)短,難以充分展示圖像的豐富內(nèi)涵。尤其為復(fù)雜圖像所生成的文本描述在準(zhǔn)確性方面仍存在明顯不足,更別提那些涉及多個(gè)物體、互動(dòng)和復(fù)雜細(xì)節(jié)的圖像了。

現(xiàn)有圖像描述解決方案面臨的挑戰(zhàn)

1. 過于簡(jiǎn)化或空泛的論述

如圖,大多數(shù)圖像字幕算法給出的是“一個(gè)人和一條狗”,看似準(zhǔn)確,但其這張圖里有非常豐富的物體和故事。他們?cè)谕饷孀鍪裁?,他們?yōu)槭裁磿?huì)露營,右邊的背包有什么暗示嗎?

d7b89700-d9b9-11ed-bfe3-dac502259ad0.png

圖源《First Dog, 10th Man to Walk Around the World》

2. 缺少細(xì)微差別和關(guān)系

如圖,簡(jiǎn)單地給出“對(duì)象 A 和對(duì)象 B”的描述是遠(yuǎn)遠(yuǎn)不夠的,兩者間的空間關(guān)系傳達(dá)了截然不同的內(nèi)涵。

d7d7127a-d9b9-11ed-bfe3-dac502259ad0.png

圖源《MESSRS: A model-based 3D system for of recognition, semantic annotation and calculating the spatial relationships of a factory’s digital facilities》

3. 處理噪音和糟糕的圖像質(zhì)量

如圖,中間顯示的“攻擊”對(duì)比擾動(dòng)原來照片,盡管人類眼睛瞟一眼就知道和原始圖片沒變化,但圖像描述算法依然標(biāo)錯(cuò)了分類。

d7eba424-d9b9-11ed-bfe3-dac502259ad0.png

圖源:Daniel Jakubovitz 和 Raja Giryes,Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization.

4. 難以處理復(fù)雜圖像

對(duì)于經(jīng)典畫作,如下圖,很多圖像描述算法只能給出簡(jiǎn)單的“波提切利的維納斯的誕生”的說明,單單一個(gè)名字實(shí)在讓人一知半解,讓觀眾無法理解圖像所展現(xiàn)的品味。

d8035ec0-d9b9-11ed-bfe3-dac502259ad0.png

SceneXplain 生成的描述

一幅標(biāo)志性的畫作「維納斯的誕生」展開在眼前,女神維納斯從貝殼中誕生,周身環(huán)繞著神話人物和天界人物,包括美人魚、天使和手持花束的女人。這些人物之間微妙的交互營造出一種迷人和驚奇的感覺,宛如在慶祝維納斯降臨于人世。這優(yōu)雅的構(gòu)圖引領(lǐng)觀眾進(jìn)入神話領(lǐng)域,驚嘆于這個(gè)永恒場(chǎng)景所展現(xiàn)的壯麗和優(yōu)雅。

相比起上面生成的枯燥無味的標(biāo)題,由 SceneXplain 生成的這樣一段豐富生動(dòng)的描繪不僅能夠幫助我們更好地欣賞圖像,還能讓我們深入了解其審美價(jià)值。

應(yīng)對(duì)多媒體內(nèi)容的挑戰(zhàn),SceneXplain 讓故事破圖而出

總而言之,現(xiàn)有圖像字幕解決方案取得了很大進(jìn)步,能夠?yàn)閳D片生成相關(guān)的描述,然而還無法為復(fù)雜圖像生成細(xì)節(jié)、上下文和細(xì)微差別的描述。如何進(jìn)一步提高處理這樣復(fù)雜圖像的能力,是當(dāng)前圖像描述技術(shù)面臨的重要挑戰(zhàn)。

這也正是 SceneXplain 一個(gè)箭步跨進(jìn)來的契機(jī),這是一個(gè)顛覆性的工具,它不止停留在表面,而是進(jìn)一步拓寬了圖像描述的邊界。它突破了傳統(tǒng)圖像描述算法的局限性,提供了簡(jiǎn)練專業(yè)、引人入勝的圖像敘事體驗(yàn)。憑借用戶友好的界面、無縫 API 集成和強(qiáng)大的多語言支持,方便開發(fā)者輕松集成到他們的多模態(tài)應(yīng)用中。

d8329528-d9b9-11ed-bfe3-dac502259ad0.png

網(wǎng)址:scenex.jina.ai

SceneXplain 生成的文本拓展了圖片的表現(xiàn)力,不管是動(dòng)漫,風(fēng)景,商品,還是產(chǎn)品 UI,它都準(zhǔn)確識(shí)別了圖片中關(guān)鍵信息,理解了畫面表達(dá)的氣氛,并深入捕捉到了圖片中的細(xì)節(jié),并用流暢連貫的語言完成了描述。

d84b27f0-d9b9-11ed-bfe3-dac502259ad0.png

d8641b48-d9b9-11ed-bfe3-dac502259ad0.png

d88e4d78-d9b9-11ed-bfe3-dac502259ad0.png

d8a7a606-d9b9-11ed-bfe3-dac502259ad0.png

SceneXplain vs Midjourney describe

我們對(duì) SceneXplain 與市面上流行的圖像描述工具和算法的性能進(jìn)行了測(cè)評(píng)。

SceneXplain:生成詳細(xì)、復(fù)雜、生動(dòng)、富有上下文的文本描述,為復(fù)雜視覺內(nèi)容提供先進(jìn)的圖像描述解決方案。

Midjourney:最近發(fā)布的 /describe 功能,旨在將圖像轉(zhuǎn)化為文本提示詞。

注意:相比起 /describe 生成的是圖像提示詞 Prompt,而 SceneXplain 生成出的是詳細(xì)、復(fù)雜、生動(dòng)、富含上下文的圖像描述,更適合人類閱讀。此外,我們還對(duì)比了

BLIP-2:一種高效的預(yù)訓(xùn)練策略,使用現(xiàn)成的凍結(jié)的預(yù)訓(xùn)練圖像編碼器和大型語言模型進(jìn)行視覺語言預(yù)訓(xùn)練,可在訓(xùn)練參數(shù)大大減少的情況下,實(shí)現(xiàn)各種視覺語言任務(wù)的 SOTA 性能。

CLIP Interrogator 2.1 專門設(shè)計(jì)給 Stable Diffusion 2.0 模型生成圖像提示詞。

接下來讓我們將這些算法對(duì)同一圖片進(jìn)行描述,展示它們?cè)诟鞣N圖像描述任務(wù)中的效果。完整的 Benchmark 表格請(qǐng)?jiān)诠娞?hào)回復(fù) SceneX 獲取。

d8bf993c-d9b9-11ed-bfe3-dac502259ad0.png

d8eb57b6-d9b9-11ed-bfe3-dac502259ad0.png

d913f91e-d9b9-11ed-bfe3-dac502259ad0.png

d9301fa4-d9b9-11ed-bfe3-dac502259ad0.png

d95a9914-d9b9-11ed-bfe3-dac502259ad0.png

d98533f4-d9b9-11ed-bfe3-dac502259ad0.png

相比之下,Midjourney /describe 和 CLIP Interrogator 2.1 等解決方案?jìng)?cè)重于為圖像生成對(duì)應(yīng)提示詞,而非讓人類輕松閱讀的自然語言描述。同時(shí),BLIP-2 生成的字幕非常簡(jiǎn)短、粗略且生硬,僅包含幾個(gè)相關(guān)詞匯,可能適用于簡(jiǎn)單的場(chǎng)景,但難以捕捉到更為復(fù)雜的視覺細(xì)節(jié),從而忽略了關(guān)鍵信息,無法展示圖像的豐富內(nèi)涵。

而 SceneXplain 填補(bǔ)了這一塊空白,深入、準(zhǔn)確、豐富 —— 面對(duì)復(fù)雜圖像,SceneXplain 讓圖像描述更上一層樓。它兼顧了準(zhǔn)確性和深度,它能夠深入到復(fù)雜場(chǎng)景里錯(cuò)綜復(fù)雜的細(xì)節(jié),并基于這些細(xì)節(jié)的微妙關(guān)聯(lián),比如空間位置,依賴關(guān)系等,構(gòu)建出流暢連貫的敘事。這種結(jié)構(gòu)化敘事讓觀眾能夠從更高的視角去理解圖像所呈現(xiàn)的復(fù)雜概念和場(chǎng)景,使得圖像栩栩如生,故事得以生動(dòng)訴說。

當(dāng)然,我們也必須要承認(rèn) SceneXplain 在簡(jiǎn)單場(chǎng)景下有些矯枉過正,會(huì)出現(xiàn)一些幻覺。

SceneXplain 的優(yōu)勢(shì)

與其他圖像描述解決方案相比,SceneXplain 具有許多優(yōu)勢(shì):

抗噪聲和變化的圖像質(zhì)量

SceneXplain 背后強(qiáng)大的 AI 算法增強(qiáng)了其對(duì)各種圖像質(zhì)量的理解能力,哪怕是低分辨率、模糊不清或帶有噪點(diǎn)的圖像,SceneX 也能基于有限的信息推斷圖像內(nèi)涵,確保生成的描述保持準(zhǔn)確性。

d9a9881c-d9b9-11ed-bfe3-dac502259ad0.png

d9c856f2-d9b9-11ed-bfe3-dac502259ad0.png

da02d3c2-d9b9-11ed-bfe3-dac502259ad0.png

多語言支持

SceneXplain 有強(qiáng)大的多語言支持,可以生成多種語言的上下文豐富的圖像描述。

應(yīng)用場(chǎng)景

我們期待您探索和體驗(yàn) SceneXplain 的能力,它的潛在應(yīng)用非常廣泛,比如三個(gè)關(guān)鍵領(lǐng)域:

視覺敘事升級(jí):SceneXplain 的豐富描述能夠把簡(jiǎn)單的視覺圖像轉(zhuǎn)化為真正引人入勝的敘事體驗(yàn)。這種敘事升級(jí)能夠在各個(gè)場(chǎng)景下得以運(yùn)用,比如電商產(chǎn)品詳情頁的撰寫,通過詳細(xì)的圖像描述,為用戶提供更豐富的瀏覽體驗(yàn)。

優(yōu)化 SEO:SceneXplain 生成的生動(dòng)且豐富的描述包含大量的關(guān)鍵詞,這有助于提高內(nèi)容的搜索引導(dǎo)性和點(diǎn)擊率,從而有可能帶來網(wǎng)站排名的提升和來自搜索引擎的更多流量。

提高可訪問性:SceneXplain 生成的描述能夠充分解釋圖像細(xì)節(jié)和含義,從而有望徹底改變無障礙多媒體內(nèi)容的創(chuàng)建和消費(fèi)方式,改善視覺障礙用戶的網(wǎng)絡(luò)體驗(yàn)。

從三個(gè)關(guān)鍵領(lǐng)域?qū)?yīng)的場(chǎng)景上,SceneX 也有許多應(yīng)用空間,對(duì)于社交媒體內(nèi)容創(chuàng)作者,美食博主,旅游博主等為拍攝的圖片生成更加具體生動(dòng)的描述,提高圖片素材的影響力;在線電商企業(yè)可以用來描述商品,用關(guān)鍵詞和描述語句豐富產(chǎn)品詳情頁描述,提升 SEO;博物館等公共服務(wù)行業(yè)用于為展品創(chuàng)建詳細(xì)的文字描述,幫助視障人士更好地欣賞等等。

如何將 SceneXplain 集成到您的應(yīng)用中

SceneXplain 提供多種集成選項(xiàng)以滿足不同組織的需求。

1. 通過網(wǎng)頁生成圖像描述

da1ed446-d9b9-11ed-bfe3-dac502259ad0.png

2. 通過 API 批量處理圖像

對(duì)于尋求自動(dòng)化和無縫集成的組織,SceneXplain 為其系統(tǒng)提供了強(qiáng)大、可擴(kuò)展且安全的 API。快速批處理 API 允許在 50 秒內(nèi)在一個(gè)批次中描述多達(dá) 128 張圖像。

da482e36-d9b9-11ed-bfe3-dac502259ad0.png

3. 作為 ChatGPT 插件使用

對(duì)于 ChatGPT Plus 用戶來說,可以在 ChatGPT 插件里使用。

4. 本地隱私保護(hù)解決方案

對(duì)于數(shù)據(jù)安全和隱私有嚴(yán)格要求的組織來說,我們提供本地解決方案,您可以在自己的服務(wù)器上部署 SceneXplain,確保了敏感數(shù)據(jù)保留在自己的網(wǎng)絡(luò)中,同樣無縫集成 SceneXplain 的高級(jí)圖像描述。

添加技術(shù)運(yùn)營微信 jinaai01,或掃描文末二維碼,與我們的團(tuán)隊(duì)約定會(huì)議了解本地解決方案。

SceneXplain 的核心優(yōu)勢(shì)在于它能精準(zhǔn)捕捉到圖片中多個(gè)物體之間的關(guān)系和互動(dòng),同時(shí)考慮它們?cè)趫?chǎng)景中的位置,以及周圍環(huán)境的氛圍。這些細(xì)節(jié)在普通的圖像描述工具里經(jīng)常被忽略,但 SceneXplain 不僅在生成文本描述時(shí)保留了這些細(xì)節(jié),還提供了更多的情境感,將視覺內(nèi)容的精髓高效地呈現(xiàn)出來,幫助讀者更好地理解圖像所呈現(xiàn)的內(nèi)容。無論是社交媒體、電商網(wǎng)站,還是公共服務(wù)領(lǐng)域,它都能大顯身手。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3876

    瀏覽量

    140749
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4743

    瀏覽量

    96832
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1595

    瀏覽量

    9893

原文標(biāo)題:SceneXplain:讓 ChatGPT 開啟視覺視角

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當(dāng)下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計(jì)中,是否也可以用ChatGPT輔助設(shè)計(jì)呢?
    發(fā)表于 03-28 23:41

    chatGPT幫我寫硬件代碼,是懂行的,好助手!#chatgpt #物聯(lián)網(wǎng)開發(fā) #python開發(fā)板

    ChatGPT
    蘇州煜瑛微電子科技有限公司
    發(fā)布于 :2023年02月17日 15:27:42

    ChatGPT對(duì)話語音識(shí)別

    ChatGPT
    YS YYDS
    發(fā)布于 :2023年05月30日 22:13:10

    科技大廠競(jìng)逐AIGC,中國的ChatGPT在哪?

    最近,AI(人工智能)圈一股以“ChatGPT”為核心的熱潮從美國“硅谷”涌入中國。 2022年11月底,初創(chuàng)公司OpenAI發(fā)布了名為ChatGPT的對(duì)話式聊天機(jī)器人模型,一經(jīng)推出,便在網(wǎng)絡(luò)上
    發(fā)表于 03-03 14:28

    AMOLED技術(shù)日臻成熟 即將開啟視覺新時(shí)代

    維信諾創(chuàng)新設(shè)計(jì)大賽整個(gè)AMOLED產(chǎn)業(yè)的創(chuàng)新升級(jí)增加額外動(dòng)力,如今隨著折疊的AMOLED技術(shù)日臻成熟,為滿足人類在未來對(duì)于顯示的需求,AMOLED產(chǎn)業(yè)將開啟視覺新時(shí)代。
    發(fā)表于 02-02 13:44 ?2539次閱讀

    機(jī)器視覺與視頻監(jiān)控的結(jié)合,安防行業(yè)開啟一個(gè)全新的智慧時(shí)代!

    計(jì)算機(jī)視覺是人工智能的重要分支,隨著深度學(xué)習(xí)與人工智能的快速迭代和進(jìn)化,計(jì)算機(jī)視覺也創(chuàng)造了更多應(yīng)用場(chǎng)景。與視頻監(jiān)控的結(jié)合,安防行業(yè)開啟一個(gè)全新的智慧時(shí)代!
    發(fā)表于 09-06 15:17 ?4129次閱讀

    iNFINITE Production使用VR作為工具 人們感受色盲人群的日常視角

    2016年,捷克VR開發(fā)商 Jan Horsk與他的公司iNFINITE Production使用VR作為激起同理心的工具,人們切身感受色盲人群的日常視角。鑒于VR的優(yōu)勢(shì)之一是作為視覺工具,因此Jan專注于開發(fā)與
    發(fā)表于 12-05 09:56 ?2286次閱讀

    中文版ChatGPT開啟AI技術(shù)新時(shí)代

    系統(tǒng)。 ChatGPT的概念宣傳已經(jīng)引得無數(shù)網(wǎng)民垂涎欲滴,基于無法訪問外網(wǎng),海外賬號(hào)登錄難等痛點(diǎn),時(shí)代飛鷹ChatGPT橫空出世。 國外一億用戶使用ChatGPT 上線兩個(gè)月日活用戶超一億,
    的頭像 發(fā)表于 02-08 08:53 ?2474次閱讀
    中文版<b class='flag-5'>ChatGPT</b>:<b class='flag-5'>開啟</b>AI技術(shù)新時(shí)代

    ChatGPT的智能來自哪里

    ChatGPT \text{ChatGPT} ChatGPT效果的同時(shí),其“胡編亂造”的結(jié)果也人擔(dān)憂。   ChatGPT \te
    發(fā)表于 02-14 10:15 ?0次下載
    <b class='flag-5'>ChatGPT</b>的智能來自哪里

    從攻擊視角探討ChatGPT對(duì)網(wǎng)絡(luò)安全的影響

    專家介紹 ChatGPT是OpenAI 發(fā)布的基于人工智能的對(duì)話機(jī)器人,上線短短2個(gè)月活躍用戶就突破了1億,成為全球關(guān)注的焦點(diǎn)。ChatGPT可以自動(dòng)化地處理對(duì)話,可以通過基于自然語言處理技術(shù)的模型
    的頭像 發(fā)表于 02-22 08:15 ?1731次閱讀

    從防御視角探討ChatGPT對(duì)網(wǎng)絡(luò)安全的影響

    專家介紹 ChatGPT的核心優(yōu)勢(shì)是通過基于自然語言處理技術(shù)模型、情景模型和語言模型來自動(dòng)生成文章和代碼。在前面的文章中,我們從攻擊視角探討了ChatGPT對(duì)網(wǎng)絡(luò)安全的影響, 本文將從防御視角
    的頭像 發(fā)表于 02-23 23:55 ?1871次閱讀

    微軟發(fā)布Visual ChatGPT視覺模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

    系統(tǒng)原則的提示符,“Visual ChatGPT是一個(gè)可以處理廣泛語言和視覺任務(wù)的助手,xxxxxx”。在這個(gè)prompt的部分,以下內(nèi)容被強(qiáng)調(diào):Visual ChatGPT的角色,可以訪問且需要
    的頭像 發(fā)表于 03-16 10:35 ?1826次閱讀

    一個(gè)令人驚艷的ChatGPT項(xiàng)目,開源了!

    而Visual ChatGPT這個(gè)項(xiàng)目則可以把ChatGPT和一系列視覺基礎(chǔ)模型(VFM,Visual Foundation Model)給聯(lián)系起來,以便實(shí)現(xiàn)在ChatGPT聊天的過程
    的頭像 發(fā)表于 03-31 11:00 ?2782次閱讀

    視覺新紀(jì)元:解碼LED顯示屏的視角、可視角、最佳視角的最終奧秘

    在璀璨奪目的LED顯示屏世界里,每一個(gè)絢爛畫面的背后,都離不開三個(gè)關(guān)鍵概念:視角、可視角與最佳視角。這些術(shù)語不僅是衡量顯示效果的重要標(biāo)尺,也是連接觀眾與精彩內(nèi)容的橋梁。讓我們一起走進(jìn)這場(chǎng)視覺
    的頭像 發(fā)表于 06-23 02:55 ?1226次閱讀
    <b class='flag-5'>視覺</b>新紀(jì)元:解碼LED顯示屏的<b class='flag-5'>視角</b>、可<b class='flag-5'>視角</b>、最佳<b class='flag-5'>視角</b>的最終奧秘