通過(guò)分析人臉圖像來(lái)估算情緒價(jià)和喚醒的技術(shù)
近年來(lái),全球無(wú)數(shù)的計(jì)算機(jī)科學(xué)家一直在開(kāi)發(fā)基于深度神經(jīng)網(wǎng)絡(luò)的模型,該模型可以根據(jù)人們的面部表情預(yù)測(cè)他們的情緒。但是,迄今為止開(kāi)發(fā)的大多數(shù)模型僅檢測(cè)到主要的情緒狀態(tài),例如憤怒,幸福和悲傷,而不是人類(lèi)情緒的更微妙的方面。
另一方面,過(guò)去的心理學(xué)研究已經(jīng)描述了情緒的許多方面,例如,引入了諸如價(jià)(即情緒顯示的積極程度)和喚醒(即某人在表達(dá)情緒時(shí)有多平靜或興奮)之類(lèi)的測(cè)量方法。 。對(duì)于大多數(shù)人來(lái)說(shuō),僅通過(guò)看一下人的臉來(lái)估計(jì)價(jià)和喚起力就很容易了,但對(duì)于機(jī)器來(lái)說(shuō)卻是一個(gè)挑戰(zhàn)。
三星AI和倫敦帝國(guó)理工學(xué)院的研究人員最近開(kāi)發(fā)了一種基于深度神經(jīng)網(wǎng)絡(luò)的系統(tǒng),該系統(tǒng)只需分析日常環(huán)境中拍攝到的人臉圖像,就可以高度準(zhǔn)確地估算情感價(jià)和喚醒。在《自然機(jī)器智能》上發(fā)表的一篇論文中提出的這種模型可以相當(dāng)快速地做出預(yù)測(cè),這意味著它可以用于實(shí)時(shí)檢測(cè)微妙的情緒品質(zhì)(例如,從CCTV攝像機(jī)的快照中)。
研究人員說(shuō):“長(zhǎng)期以來(lái),人們一直在研究情感估計(jì)問(wèn)題,很明顯,情感情感的離散類(lèi)別太有限,無(wú)法代表人類(lèi)每天展示的情感范圍。”研究通過(guò)電子郵件告訴TechXplore。“結(jié)果,我們將重點(diǎn)轉(zhuǎn)移到更廣泛的情感維度上,即效價(jià)和喚醒。”
除了高性能的硬件外,構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)還需要兩個(gè)基本要素:合適的數(shù)據(jù)集和算法。在過(guò)去的研究中,三星AI和帝國(guó)理工學(xué)院的研究人員團(tuán)隊(duì)因此編譯了可用于訓(xùn)練用于情感識(shí)別的深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集,包括AFEW-VA和SEWA數(shù)據(jù)集。
研究人員說(shuō):“在創(chuàng)建AFEW-VA數(shù)據(jù)集的同時(shí),我們證明了要獲得一種在自然條件下可行的方法,而不是在受控的實(shí)驗(yàn)室條件下,還應(yīng)在野外收集對(duì)該方法進(jìn)行訓(xùn)練的數(shù)據(jù)。” “與此類(lèi)似,正如我們?cè)赟EWA項(xiàng)目中所展示的那樣,文化在其中扮演著至關(guān)重要的角色。”
在他們收集了包含在真實(shí)環(huán)境中拍攝的人臉圖像的數(shù)據(jù)集之后,研究人員開(kāi)發(fā)了一個(gè)模型,該模型將傳統(tǒng)的情感識(shí)別方法與其他與情感相關(guān)的理論進(jìn)行了融合。他們創(chuàng)建的深度學(xué)習(xí)架構(gòu)可以僅通過(guò)處理人臉圖像來(lái)以高準(zhǔn)確度估算價(jià)和喚醒。此外,在實(shí)驗(yàn)室中拍攝這些圖像時(shí)以及在實(shí)際環(huán)境中拍攝時(shí),它的性能都很好。
圖片來(lái)源:Toisoul等。
“我們的方法的主要目標(biāo)是給定一個(gè)人的臉部圖像,以可靠且實(shí)時(shí)的方式估算持續(xù)的價(jià)位(心理狀態(tài)有多積極或消極)和喚醒(使體驗(yàn)平靜或令人興奮)水平,研究人員說(shuō)。
新系統(tǒng)在帶注釋的圖像上進(jìn)行了訓(xùn)練,這些圖像包含有關(guān)價(jià)和喚醒的信息。此外,它使用特定的“地標(biāo)”(例如人的嘴唇,鼻子和眼睛的位置)作為參考來(lái)分析面部表情。這使它可以專注于與估計(jì)效價(jià)和喚醒水平最相關(guān)的面部區(qū)域。
研究人員解釋說(shuō):“我們還將離散情感類(lèi)別的可用標(biāo)簽用作輔助任務(wù),以提供額外的監(jiān)督并在價(jià)和喚醒估計(jì)的主要任務(wù)上獲得更好的表現(xiàn)。” “為防止網(wǎng)絡(luò)過(guò)度適合任何一項(xiàng)任務(wù),我們使用隨機(jī)過(guò)程,搖動(dòng)正則化將它們組合在一起。”
在初步評(píng)估中,深度學(xué)習(xí)技術(shù)能夠以空前的準(zhǔn)確性從自然條件下拍攝的面孔圖像中估計(jì)化合價(jià)和喚醒度。值得注意的是,在AffectNet和SEWA數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),該系統(tǒng)的性能和專家級(jí)的人類(lèi)注釋器一樣出色。
研究人員說(shuō):“在兩個(gè)數(shù)據(jù)集上,我們的網(wǎng)絡(luò)性能優(yōu)于人工注釋者之間的協(xié)議。” “在實(shí)踐中,這意味著如果將該網(wǎng)絡(luò)視為這些數(shù)據(jù)集的另一個(gè)注釋者,那么它與人類(lèi)注釋者的平均協(xié)議至少將與其他人類(lèi)注釋者之間的協(xié)議一樣好,這非常了不起。”
除了表現(xiàn)出色之外,深度學(xué)習(xí)方法是非侵入性的,易于實(shí)現(xiàn),因?yàn)樗念A(yù)測(cè)基于常規(guī)相機(jī)拍攝的簡(jiǎn)單圖像。這使其成為廣泛應(yīng)用的理想選擇。例如,它可以用于進(jìn)行市場(chǎng)分析或創(chuàng)建社交機(jī)器人,從而更好地理解人類(lèi)的感受并做出相應(yīng)的反應(yīng)。
到目前為止,基于深度神經(jīng)網(wǎng)絡(luò)的系統(tǒng)僅受過(guò)訓(xùn)練以分析靜態(tài)圖像。盡管從理論上講它也可以應(yīng)用于視頻鏡頭,但要在視頻上同樣出色地表現(xiàn),也應(yīng)考慮時(shí)間相關(guān)性。因此,在未來(lái)的工作中,研究人員計(jì)劃進(jìn)一步開(kāi)發(fā)他們的系統(tǒng),以便可以將其用于從靜態(tài)圖像和視頻中估算情感價(jià)和喚醒度。
研究人員說(shuō):“我們?cè)贑VPR 2020上發(fā)表的論文“人為化的高階CNN及其在時(shí)空情感估計(jì)中的應(yīng)用”是邁向改善我們網(wǎng)絡(luò)在視頻上的性能的第一步。“特別是,我們?cè)O(shè)計(jì)了一種新穎的方法,先在靜態(tài)圖像上訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后將其推廣到時(shí)空數(shù)據(jù)。這具有使時(shí)空網(wǎng)絡(luò)的訓(xùn)練速度更快,所需數(shù)據(jù)更少的優(yōu)勢(shì)。”
標(biāo)簽: