在情感計(jì)算發(fā)展的過程中,機(jī)器人和計(jì)算機(jī)逐漸發(fā)展出分析人類面部表情、識別情緒并基于此進(jìn)行應(yīng)答的能力。相關(guān)的應(yīng)用除了檢測個(gè)體的健康狀態(tài)和學(xué)生的注意力外,也在幫助醫(yī)生更好的捕捉疾病的信號、讓機(jī)器人成為我們更好的陪伴。
但目前的技術(shù)對于復(fù)雜多變的人類情緒表達(dá)還面臨著一系列復(fù)雜的問題。除了如文化、性別、年齡等通常的差別外、還包括更細(xì)粒度的差異,包括:所處的時(shí)刻、睡眠狀態(tài)、甚至是對話對象間的熟悉程度都會微妙地影響著我們對于情緒狀態(tài)的表達(dá)。這些對于機(jī)器來說千頭萬緒的問題于人類大腦來看卻是本能的反應(yīng)。近年來深度學(xué)習(xí)技術(shù)逐漸學(xué)會了捕捉人類面部微妙表情的能力,但精確性和跨人群的適應(yīng)性需要很長的路要走。
為了解決情感計(jì)算中面臨的問題,來自麻省理工媒體實(shí)驗(yàn)室情感計(jì)算研究組提出了一種可以超越傳統(tǒng)方法捕捉微小的面部表情,并更好的測量人類情緒的機(jī)器學(xué)習(xí)模型。除此之外,通過額外的小規(guī)模數(shù)據(jù)可以將模型高效的遷移到不同的人群中去,在保持精度效率的同時(shí)提高了模型的適應(yīng)性。
精準(zhǔn)的個(gè)性化情緒識別
傳統(tǒng)的情感計(jì)算模型利用一刀切的思想來訓(xùn)練模型,將在某一數(shù)據(jù)集上訓(xùn)練描繪不同表情的優(yōu)化特征作為通用特征用于整個(gè)全新的新數(shù)據(jù)集。與過去較為單一的方式不同的是,MIT的研究人員提出了一種模型個(gè)性化技術(shù),稱為"混合專家(mixture of experts MoE)"的模型。這種模型可以從個(gè)體中發(fā)掘出更為細(xì)粒度的表情數(shù)據(jù)。
上圖是研究中提出的模型架構(gòu),其中研究人員首先利用Faster R-CNN從視頻幀中提取出面部區(qū)域,隨后利用ResNet-50學(xué)習(xí)出面部的深度特征,并將這些特征饋入個(gè)性化專家網(wǎng)絡(luò)(personalizedexpert network PEN)中,用于自動(dòng)估計(jì)主體的預(yù)約和興奮程度。同時(shí)還包括了門網(wǎng)絡(luò)(gating network CN),在推斷新圖像時(shí)為PEN中不同的專家分配權(quán)重。
在MoEs中,一系列被稱為“專家”的神經(jīng)網(wǎng)絡(luò)模型被訓(xùn)練來獨(dú)立地處理特定的任務(wù)并生成單一的結(jié)果。同時(shí)研究人員還利用了被稱為“門網(wǎng)絡(luò)”結(jié)構(gòu)來計(jì)算不同神經(jīng)網(wǎng)絡(luò)對于未知主體情緒的檢測概率,從而找出對于給定圖像最合適的專家檢測器。
利用情感計(jì)算數(shù)據(jù)集RECOLA中的18個(gè)獨(dú)立視頻,研究人員們將MoEs中的每一個(gè)專家網(wǎng)絡(luò)與其中的一個(gè)視頻進(jìn)行匹配訓(xùn)練。在訓(xùn)練時(shí)將所有的視頻分解為獨(dú)立的幀,在其中9個(gè)上做訓(xùn)練,并在另外9個(gè)上做驗(yàn)證。
每一個(gè)專家網(wǎng)絡(luò)和門網(wǎng)絡(luò)一起負(fù)責(zé)跟蹤每一個(gè)個(gè)體面部表情。模型會根據(jù)每一幀中面部表情的愉悅程度和興奮狀態(tài)打分。而在訓(xùn)練時(shí),這些打分的標(biāo)簽由6位人類專家完成,分值從-1(low)到+1(high)之間。
隨后研究人員測試的模型的個(gè)性化能力。在訓(xùn)練完模型后,利用余下被測者的部分視頻幀進(jìn)一步訓(xùn)練模型,而后用模型從未見過的幀來進(jìn)行測試。結(jié)果表明,對于新的人群只需要5%~10%的數(shù)據(jù),模型就可以大幅度超過傳統(tǒng)方法,在對于面部表情的愉悅和興奮程度解讀更接近于人類專家的水平。
這一結(jié)果顯示出了模型利用少數(shù)數(shù)據(jù),具有人群和個(gè)體間遷移能力的潛力,而這也是處理這一問題的關(guān)鍵。我們通常會在某一人群上訓(xùn)練出一個(gè)較好的算法,但當(dāng)面臨完全不一樣的人群時(shí),算法的表現(xiàn)就會降低很多。但只要從新的人群中進(jìn)行少數(shù)采樣來優(yōu)化模型,模型就會適應(yīng)新的人群特征得到較好的結(jié)果。這是模型個(gè)性化最為重要的優(yōu)勢。
雖然目前的訓(xùn)練數(shù)據(jù)在膚色上缺乏多樣性,但研究人員表示一旦有適合的數(shù)據(jù)集,模型將在更具多樣性的人口數(shù)據(jù)上進(jìn)行訓(xùn)練以適應(yīng)更加多樣性的文化。
更好的人機(jī)交互
訓(xùn)練個(gè)性化模型的另一個(gè)重要原因在于,這會為機(jī)器人和計(jì)算機(jī)帶來強(qiáng)大的學(xué)習(xí)能力,可以通過很少的數(shù)據(jù)就能訓(xùn)練并學(xué)習(xí)會如何感受我們?nèi)祟惽榫w的微妙變化,從而更好的為人類服務(wù)。這會為很多應(yīng)用場景帶來完全不同的便捷體驗(yàn)。
例如它可以在電腦或移動(dòng)設(shè)備的后臺運(yùn)行來跟蹤用戶的視頻對話從而學(xué)習(xí)用戶在不同情形下面部表情的微妙變化。利用web技術(shù)或者app可以識別出用戶的焦慮、痛苦、緊張、沮喪等負(fù)面情緒,并為用戶及時(shí)提供相應(yīng)的建議。通過情緒識別還可以計(jì)算出用戶日常情緒的偏離狀況,并作為健康和幸福指數(shù)的度量來描述用戶的狀態(tài)。
這在人機(jī)交互中十分重要。機(jī)器人需要識別不同個(gè)體的心理狀態(tài),并根據(jù)識別出的情緒提供相應(yīng)的響應(yīng)。例如在教育機(jī)器人中可以利用情緒識別來判斷學(xué)生的專注程度,從而及時(shí)調(diào)整授課的方式和內(nèi)容。甚至這也是識別兒童孤獨(dú)癥的有效手段。
個(gè)性化的情緒識別將為為情感認(rèn)知提供更好的保證。通過訓(xùn)練多個(gè)專家并對結(jié)果進(jìn)行聚合優(yōu)于訓(xùn)練單個(gè)超級專家的情況,結(jié)合個(gè)性化的能力使得情感識別的準(zhǔn)確性和通用性大幅提高。通過情緒識別,在未來得以將許多人機(jī)交互場景變?yōu)楝F(xiàn)實(shí)。也許更懂你的機(jī)器人、陪你徹夜長談的mate、默契的好伙伴將在不遠(yuǎn)的將來走進(jìn)我們的生活中。
-
人機(jī)交互
+關(guān)注
關(guān)注
12文章
1269瀏覽量
57435 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8530瀏覽量
135960 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1229瀏覽量
25949
原文標(biāo)題:?MIT研究人員提出個(gè)性化機(jī)器學(xué)習(xí)模型,可捕捉細(xì)微的面部表情、更好地感知人類情緒變化
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論