人工智能機器人會不會學(xué)到唇讀技巧
有點可怕,如果有一天,人工智能也學(xué)習(xí)到了唇讀技巧的話,是不是以后我們說話都要小心翼翼了,萬一旁邊有設(shè)備在對著我們的嘴。 來自于牛津大學(xué)、谷歌等相關(guān)機構(gòu)的科學(xué)家最近測驗了一種算法,而這個算法現(xiàn)在已經(jīng)擊敗了專業(yè)的人類唇讀者。很快,或許監(jiān)控錄像不僅可以顯示你的行為,還可以顯示你說話的內(nèi)容。 研究人員運用了谷歌的深度思維神經(jīng)網(wǎng)絡(luò),并運用了數(shù)千小時的 BBC 電視視頻來訓(xùn)練它。這些視頻顯示了不同的人在各種各樣的姿勢、活動和燈光下所講的話。 “唇讀”是人工智能研究的一個活躍領(lǐng)域,而他們并不是第一個進行這樣的研究的團隊。但是,該團隊通過運用數(shù)千小時的視頻,讓他們的算法取得了最好的進展。 他們的“觀看、聽、拼寫”神經(jīng)網(wǎng)絡(luò)學(xué)會了將視頻里嘴巴的動作轉(zhuǎn)錄成字符,為此他們運用了超過 100,000 個視頻。而通過把嘴的動作轉(zhuǎn)換成單個的字符,最后神經(jīng)網(wǎng)絡(luò)將會拼出單詞。 在訓(xùn)練人工智能的過程中,團隊的一個創(chuàng)新就是從單個單詞開始,然后逐漸增加樣本的長度以達到完整的句子。這加快了對人工智能的培訓(xùn)速度,同時也極大地提升了測驗的性能。 他們發(fā)現(xiàn),專業(yè)的唇讀者能夠正確解讀不到四分之一的口語。但是該團隊的模型能夠辨認出一半的口語詞匯,這個成績比專業(yè)的唇語讀者要好的多。 在許多實際使用中都可以用到機器唇讀,比如在嘈雜環(huán)境中進行轉(zhuǎn)錄、配音或轉(zhuǎn)錄無聲電影,提升自動語音識別能力等等。讓我們想象一下吧。隨著聊天機器人發(fā)明了自己的語言,人工智能在某一天超越了人類智能,或許屆時在人類與人工智能大戰(zhàn)中,我們說句話都要小心翼翼了,因為或許有機器在盯著我們的嘴巴!