微軟有望奪冠:在語音識別準(zhǔn)確率方面處于領(lǐng)先
研究人員正在就如何讓機(jī)器在各種不同的設(shè)定條件下識別人類語言而不懈努力,從實時交互到離線,再到預(yù)先錄制的語音郵件皆在此列。作為其中的一類重要使用,離線轉(zhuǎn)錄甚至可用于政府監(jiān)管工作?! 《谶@場機(jī)器學(xué)習(xí)的軍備競賽當(dāng)中,微軟或許在語音轉(zhuǎn)錄準(zhǔn)確度方面略微領(lǐng)先于IBM。 今年三月,IBM公司研究人員表示,在預(yù)先錄制的陌生人對于既定話題,諸如運動項目的英文電話交流中,單詞識別錯誤率僅為5.5%。本周,他們在瑞典斯德哥爾摩舉行的2017年INTERSPEECH會議上介紹并公布了此項研究的同行評審結(jié)果。 上周日,微軟公司在其公布的一篇博客文章與技術(shù)白皮書中聲稱在同樣的任務(wù)條件下,微軟方案在這方面略有提升,已經(jīng)將單詞錯誤率降低為5.1%。 工作原理與IBM相似,其聲學(xué)與語言建模的算法采用深度學(xué)習(xí)架構(gòu)。微軟方面表示去年其單詞錯誤率已為5.9%,而這一切都?xì)w功于“采用可擴(kuò)展性最優(yōu)深度學(xué)習(xí)軟件,微軟Cognitive Toolkit 2.1(簡稱CNTK)以探索模型架構(gòu)并優(yōu)化模型的超參數(shù)。此外,微軟在云計算基礎(chǔ)設(shè)施方面的投資,特別是Azure GPU,有助于其通過培訓(xùn)模型與測驗新想法以提升這方面的執(zhí)行效率與速度表現(xiàn)。” 在荷蘭蒂爾堡大學(xué)研究語言識別的計算機(jī)科學(xué)家Eric Postma在接受本報記者采訪時表示,雖然這是“向前邁出的重要一步”,卻“尚未成為一項突破”,因為該領(lǐng)域的目標(biāo)在于達(dá)到人類認(rèn)知級別――就如同能夠在雞尾酒派對中理解同時發(fā)出的不同言論,或是掌握更多日常所需常識。 微軟公司承認(rèn)在識別不同口音、語言風(fēng)格以及語種方面仍有大量工作亟待完成,更不用說理解采集自擁擠房間中的不清楚對話內(nèi)容。 盡管IBM方面可能宣稱在此次的數(shù)據(jù)組中,5.1%錯誤率已然屬于人類認(rèn)知級別,但Postma就此表示:“這只是種營銷性結(jié)論,而非科學(xué)成果。” 專業(yè)從事語音識別并且曾經(jīng)處理過相同數(shù)據(jù)組的劍橋大學(xué)信息工程師Phil Woodland在接受采訪時表示,從20世紀(jì)90年代開始此類研究后,“錯誤率已經(jīng)大幅度降低”(2004年在對RT-04電話談話數(shù)據(jù)組進(jìn)行理解時,IBM方案的語音識別錯誤率為15.2%)。 Woodland同時指出,除了識別陌生人之間的談話外,IBM的新文章中還轉(zhuǎn)錄了家庭成員之間較為隨意的談話內(nèi)容(錯誤率為10.3%)。相比之下,微軟的論文只搞定了相對而言“更容易”的問題,當(dāng)陌生人之間交流時,由于言語更加正式,因此內(nèi)容更容易理解。 Woodland還表示,由于該項研究結(jié)果會根據(jù)不同任務(wù)而變化,所以很難“確定”人類識別級別的指標(biāo)。并且,微軟算法可能在更難的數(shù)據(jù)組上表現(xiàn)更差,或者獲得與IBM相似的結(jié)果。 對于微軟算法是否可以使用于其他數(shù)據(jù)組還尚不明確。研究人員的算法將可能通過調(diào)試而專門用于測驗電話通話,而不會轉(zhuǎn)向立足媒體檔案進(jìn)行語音搜索或者實現(xiàn)廣播數(shù)據(jù)轉(zhuǎn)錄。