近日,在計(jì)算機(jī)視覺領(lǐng)域最具影響力的國際競賽 CVPR NTIRE 2025中,傳音多媒體團(tuán)隊(duì)與上海交通大學(xué)圖像所MediaLab聯(lián)合團(tuán)隊(duì)分別斬獲高效超分辨率挑戰(zhàn)賽(NTIRE 2025 Efficient Super-Resolution Challenge)第一名,短視頻UGC圖像超分辨率挑戰(zhàn)賽(NTIRE 2025 Short-form UGC Image Super-Resolution Challenge)第二名,展現(xiàn)了傳音在視頻畫質(zhì)領(lǐng)域的深厚積累與領(lǐng)先實(shí)力。


CVPR NTIRE(New Trends in Image Restoration and Enhancement)是計(jì)算機(jī)視覺頂會CVPR(Conference on Computer Vision and Pattern Recognition)旗下極具影響力的國際學(xué)術(shù)競賽,素有“影像算法奧林匹克”之稱。該賽事聚焦視頻復(fù)原、圖像增強(qiáng)、生成技術(shù)及質(zhì)量評估等底層視覺任務(wù),旨在推動技術(shù)突破并解決實(shí)際應(yīng)用難題。今年的賽事設(shè)置了多項(xiàng)挑戰(zhàn)賽,吸引了全球頂尖科研與產(chǎn)業(yè)隊(duì)伍參與。
傳音深耕非洲、南亞等新興市場多年,始終圍繞用戶需求進(jìn)行本地化創(chuàng)新。近年來數(shù)字媒體飛速發(fā)展,傳音洞察到用戶對智能手機(jī)圖像和視頻素質(zhì)提出了更高的要求。據(jù)Dataspark的數(shù)據(jù)顯示,2024年非洲用戶月均在社交、視頻類App上花費(fèi)約52小時(shí),然而非洲用戶觀看視頻在線播放網(wǎng)速平均不到10M/S,觀看體驗(yàn)較差。面對非洲等目標(biāo)市場存在的網(wǎng)速慢、流量貴等現(xiàn)實(shí)問題,傳音持續(xù)投入資源,與上海交通大學(xué)圖像所MediaLab深入合作,研發(fā)輕量化、低功耗、高性能的畫質(zhì)增強(qiáng)技術(shù),讓更多用戶在有限條件下也能享受高清視覺體驗(yàn)。
技術(shù)成果一:高效圖像超分辨率中的蒸餾監(jiān)督下的卷積低秩適應(yīng)
在高效超分辨率挑戰(zhàn)賽中,傳音多媒體團(tuán)隊(duì)和上海交通大學(xué)圖像所MediaLab提交的論文“高效圖像超分辨率中的蒸餾監(jiān)督下的卷積低秩適應(yīng)(Distillation-Supervised Convolutional Low-Rank Adaptation for Efficient Image Super-Resolution)”提出DSCLoRA技術(shù),其借鑒大語言模型中的低秩適應(yīng)并結(jié)合知識蒸餾策略,在不增加計(jì)算成本的前提下顯著提升了高效超分辨率模型的性能。
多個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明DSCLoRA在模型復(fù)雜度和性能表現(xiàn)之間實(shí)現(xiàn)了出色的均衡。在不增加模型體積和計(jì)算開銷的前提下,DSCLoRA能夠大幅提升圖像超分辨率效果,提升弱網(wǎng)環(huán)境下視頻通話與流媒體播放清晰度,同時(shí)具備推理速度快、功耗低等優(yōu)點(diǎn)。通過將該算法集成至手機(jī)影像引擎,用戶在在線視頻播放、視頻通話、圖像放大、數(shù)碼變焦拍攝等場景中,均可體驗(yàn)更高分辨率、更銳利自然的畫面。

模型架構(gòu)總覽
技術(shù)成果二:用于短視頻UGC圖像超分辨率的增強(qiáng)語義提取與引導(dǎo)
在短視頻UGC圖像超分辨率挑戰(zhàn)賽中,傳音多媒體團(tuán)隊(duì)和上海交通大學(xué)圖像所MediaLab提交的論文“用于UGC圖像超分辨率的增強(qiáng)語義提取與引導(dǎo)(Enhanced Semantic Extraction and Guidance for UGC Image Super Resolution)”,提出一種基于 Diffusion 的新型模型以處理短視頻平臺 UGC 場景下低分辨率退化圖片,有助于實(shí)現(xiàn)更穩(wěn)健、感知可信和實(shí)際適用的圖像修復(fù)。
該模型通過制作特定數(shù)據(jù)集,消除現(xiàn)實(shí) UGC 場景下圖片退化類型和合成退化之間存在的差異。其次,通過引入語義提取模塊,利用 SAM2 預(yù)訓(xùn)練模型提取高層次的上下文信息,協(xié)助模型進(jìn)行圖像重建任務(wù)。最后,針對不同的數(shù)據(jù)集進(jìn)行參數(shù)微調(diào),使模型在不同數(shù)據(jù)集上表現(xiàn)達(dá)到最優(yōu)。
該項(xiàng)技術(shù)突破,將有效處理模糊、壓縮、結(jié)構(gòu)變形等常見失真問題,生成更自然、真實(shí)、語義一致的修復(fù)圖像,極大提升用戶在短視頻截圖、社交圖片增強(qiáng)等場景中的視覺體驗(yàn)。

模型架構(gòu)總覽
此次聯(lián)合高校團(tuán)隊(duì)參加國際頂級競賽體現(xiàn)傳音對核心技術(shù)創(chuàng)新的重視與投入,也為后續(xù)畫質(zhì)增強(qiáng)功能的產(chǎn)品化奠定堅(jiān)實(shí)基礎(chǔ)。未來,傳音將加速將畫質(zhì)增強(qiáng)技術(shù)部署到旗下手機(jī)產(chǎn)品中,構(gòu)建起一套適應(yīng)新興市場特色、兼顧性能與體驗(yàn)的視頻增強(qiáng)解決方案,為更多新興市場用戶帶來更為高清、流暢的視覺體驗(yàn)。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1713瀏覽量
47373 -
傳音
+關(guān)注
關(guān)注
0文章
86瀏覽量
6531
發(fā)布評論請先 登錄
東風(fēng)睿立達(dá)斬獲NEVC 2025中國新能源商用車挑戰(zhàn)賽六項(xiàng)大獎(jiǎng)
2025 EDA精英挑戰(zhàn)賽華大九天賽題發(fā)布

2025 EDA精英挑戰(zhàn)賽紫光同創(chuàng)賽題發(fā)布

地平線H-RDT模型斬獲CVPR 2025大賽冠軍

傳音多媒體團(tuán)隊(duì)攬獲CVPR NTIRE 2025兩項(xiàng)挑戰(zhàn)賽冠亞軍

德賽西威深度參與兩項(xiàng)國家標(biāo)準(zhǔn)制定工作
華為數(shù)字能源榮獲DCS AWARDS 2025兩項(xiàng)權(quán)威大獎(jiǎng)
中微公司在TechInsights 2025半導(dǎo)體供應(yīng)商獎(jiǎng)項(xiàng)調(diào)查中榮獲兩項(xiàng)第一
導(dǎo)遠(yuǎn)兩項(xiàng)產(chǎn)品可靠性測試規(guī)范獲評先進(jìn)標(biāo)準(zhǔn)
全新嵐圖夢想家又獲兩項(xiàng)權(quán)威認(rèn)證
兆易創(chuàng)新助力2025年“西門子杯”中國智能制造挑戰(zhàn)賽
德賽電池榮獲2025“北極星杯”兩項(xiàng)大獎(jiǎng)
平頭哥半導(dǎo)體亮相AICAS 2025挑戰(zhàn)賽技術(shù)研討會
探索具身智能邊界,地瓜機(jī)器人邀你共戰(zhàn)ICRA 2025 Sim2Real挑戰(zhàn)賽

評論