康奈爾大學利用RGB傳感器捕捉面部肌肉進行人臉識別
只用“耳機”,識別表情,這是怎么做到的了?
AI讓蒙娜麗莎動起來,甚至模仿我們的表情運動,伴隨科技的飛躍,都已經(jīng)不再是讓人驚奇的事了。
然而,面部追蹤系統(tǒng),通常對攝像頭精度要求很高。
然而,如果攝像頭可以不被使用了呢?
事實上,康奈爾大學的科研專家已做到了,過程無需任何正對著用戶的臉的攝像頭,追蹤就完成了,效果也不錯。
先看看追蹤效果如何:
攝像頭不必要的話,看看佩戴口罩的效果:
那么拋開攝像頭,面部表情如何追蹤了?
提示:戴在耳朵上的小東西。事實上,那副耳機就是主要儀器,用戶的表情可以實時輸出。
比用攝像頭的“傳統(tǒng)方法”,該方法的優(yōu)點在于,哪怕有口罩,追蹤用戶的面部表情依然輕松,人們無需特地取下口罩了。
系統(tǒng)叫做C-Face(Contour-Face)。
康奈爾大學SciFi實驗室主任、C-Face論文的高級作者張鋮在聲明中說:“該設備比所有的耳掛式可穿戴技術(shù)都更簡易、更有新鮮感,有更全的功能?!?/p>
“傳統(tǒng)的為了識別面部表情的可穿戴技術(shù)中,大部分必須在面部上配置傳感器,傳感器數(shù)量這么大,系統(tǒng)也僅僅識別一組離散面部表情。”
42個特征點被抓,C-Face也支持無聲命令和聊天表情發(fā)送
攝像頭并非完全沒被在此項目中用到,只不過非常隱蔽。
觀察用戶的耳朵下方,左右都有一個RGB攝像頭,攝像頭可以在用戶面部肌肉移動時,捕捉臉頰輪廓的變化。
頭戴式耳機也能夠配置攝像頭,實現(xiàn)面部識別。
通過計算機視覺和深度學習模型重建圖像后,卷積神經(jīng)網(wǎng)絡可以解析2D圖像,把面部特征變?yōu)?strong>42個面部特征點,特征表征用戶的嘴巴、眼睛和眉毛的形狀。
臉部追蹤數(shù)據(jù)有了后,數(shù)據(jù)被變成八種不同表情,有中立或憤怒等等。
C-Face還支持通過面部表情操作音樂程序上的播放鍵。
手機在充電,但是不想動,無需說出聲音,播放歌曲就實現(xiàn)了:
或者,聊天需要發(fā)送表情,但是恰巧找不到表情包了,該怎么辦?
在這種情境下,直接做出表情,系統(tǒng)可以識別并直接發(fā)送出去,非常簡便:
不過,因為受到新冠疫情的影響,科研小組只對9名參與者測試了C-Face。雖然參與者不多,但準確度超過了88%,面部提示的準確度多于85%。
并且,專家發(fā)現(xiàn),耳機的電池容量影響了續(xù)航時間,正設計功耗更低的傳感技術(shù)。