看幾小時(shí)視頻就能模仿人類聊天的機(jī)器人
人形機(jī)器人的相似度與人類的好感度不成正比。根據(jù)日本機(jī)器人專家森政弘1970年提出的恐怖谷理論,隨著物體擬人程度增加,人類的反應(yīng)呈增-減-增曲線。當(dāng)擬人度達(dá)到某一程度時(shí),人類好感度會(huì)大幅下降,甚至還會(huì)覺(jué)得擬人物驚悚可怕。 △ 恐怖谷理論/維基百科 Facebook正在努力讓自己的機(jī)器人盡快跨過(guò)恐怖谷。 近日,F(xiàn)acebook人工智能實(shí)驗(yàn)室(FAIR)的研究人員就開(kāi)發(fā)出一個(gè)善于表達(dá)情緒的機(jī)器人。這是由一個(gè)由AI算法操控的虛擬動(dòng)畫(huà)機(jī)器人,在觀察幾小時(shí)人類Skype聊天視頻能模仿人的表情。68個(gè)面部標(biāo)記區(qū)塊 為了更好模擬人類的情感表達(dá)方式,研究人員將動(dòng)畫(huà)中的人臉?lè)殖?8個(gè)區(qū)塊,在Skype對(duì)話中重點(diǎn)觀察這些部位的變化。在交談中,人類的點(diǎn)頭、眨眼和嘴部的動(dòng)作變化都會(huì)反應(yīng)出來(lái),機(jī)器人會(huì)學(xué)會(huì)這些面部變化。 △ 上圖為捕捉到的人類對(duì)話中的面部表情,下圖為系統(tǒng)對(duì)面部表情的追蹤 觀察一段時(shí)間后,動(dòng)畫(huà)機(jī)器人可以實(shí)時(shí)預(yù)測(cè)可能出現(xiàn)的面部表情。如果視頻中人在笑,機(jī)器人也可能張開(kāi)嘴,或者歪著頭。測(cè)驗(yàn)結(jié)果 隨后,F(xiàn)acebook研究人員進(jìn)行了一組測(cè)驗(yàn)。志愿者們觀看了人和人對(duì)話的原版視頻,以及訓(xùn)練后的機(jī)器人模擬的反應(yīng),他們認(rèn)為機(jī)器人表現(xiàn)得自然且真實(shí)。 △ 圖片中線條高低表示嘴部(左)及眼部(右)的張合度,可以看出用戶(上)和智能體預(yù)測(cè)(下)的表情基本一致 因?yàn)楝F(xiàn)在算法還只能表現(xiàn)在動(dòng)畫(huà)中,尚不清楚算法支持的人形機(jī)器人的反應(yīng)如何。 學(xué)習(xí)面部交流的基本規(guī)則不夠以創(chuàng)造真正的對(duì)話伙伴,以色列特拉維夫大學(xué)的博士生Goren Gordon說(shuō),“真正的面部表情是要基于所思所感的。” “在這種情況下,F(xiàn)acebook系統(tǒng)會(huì)創(chuàng)造出一種平均性格”,卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)學(xué)院副教授louis-Philippe Morency說(shuō)。在未來(lái),機(jī)器人的性格可能更復(fù)雜,或能根據(jù)談話對(duì)象調(diào)整自己的性格。 機(jī)器人不擅長(zhǎng)人類之間互動(dòng)的這些微妙元素,Gordon說(shuō)。他同時(shí)表達(dá)了對(duì)機(jī)器人的期望:“在某一時(shí)刻,我們終會(huì)走出恐怖谷,走到另一邊?!?△ 日本大阪大學(xué)智能機(jī)器人研究所規(guī)劃的人形機(jī)器人女播音員Otonaroid Facebook將在本月24號(hào)溫哥華召開(kāi)的IROS 2017上展示這項(xiàng)技術(shù),現(xiàn)在已將這項(xiàng)技術(shù)的論文《Learn2Smile: Learning Non-Verbal Interaction Through Observation》公開(kāi)。論文摘要 在這篇論文中,我們研究了人類和智能體面對(duì)面交流中的非語(yǔ)言面部暗示,提出了基于用戶表情自動(dòng)學(xué)習(xí)并升級(jí)智能體面部情感表達(dá)的方式。我們用數(shù)百個(gè)視頻訓(xùn)練神經(jīng)網(wǎng)絡(luò),包含人類相互對(duì)話的視頻,這其中沒(méi)有加入外部的人為監(jiān)督。 實(shí)驗(yàn)結(jié)果顯示,我們的智能體面部標(biāo)記模型可以長(zhǎng)時(shí)間預(yù)測(cè)人類的表情;對(duì)比結(jié)果也表明,模型顯著優(yōu)于基線方式。最后,我們進(jìn)行了更深入的研究以更好地理解模型性能。