轉帖|行業資訊|編輯:龔雪|2016-12-30 10:17:03.000|閱讀 1599 次
概述:2016年是語音識別高速發展的一年,得益于深度學習與人工神經網絡的發展,語音識別取得了一系列突破性的進展,在產品應用上也越來越成熟。作為語音交互領域中極其重要的一環,語音識別一直是科技巨頭研究的重點,國內外也涌現出了一批優秀的創業公司。長久以來,人與機器交談一直是人機交互領域內的一個夢想。語音識別做為很基礎的技術在這一年中再次有了更大的發展。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
這其中幾個最具有代表性的例子是,百度、IBM 和微軟等公司在語音識別準確率上取得的突破。在今年年初,百度 Deep Speech 2 的短語識別的詞錯率降到了 3.7%。到了5月,IBM Watson 團隊再次宣布在在非常流行的評測基準 Switchboard 數據庫中,他們的系統創造了 6.9% 的詞錯率新紀錄。而在今年10月,微軟人工智能與研究部門的團隊報告出他們的語音識別系統實現了和專業速錄員相當甚至更低的詞錯率(WER),達到了 5.9%。5.9% 的詞錯率已經等同于人速記同樣一段對話的水平,而且這是目前行業標準 Switchboard 語音識別任務中的最低記錄。這個里程碑意味著,一臺計算機在識別對話中的詞上第一次能和人類做得一樣好。
就各項突破的技術提升基礎,我們可以很明晰的梳理出一條線:
1. 之前 LSTM 這樣的模型開始成功應用于語音識別,今年的后續研究不斷提升 LSTM 的模型效果。
2. 另外一個比較大的進展是 Deep CNN。Deep CNN 比起雙向 LSTM(雙向效果比較好)有一個好處——時延。所以在實時系統里會更傾向于用 Deep CNN 而不是雙向 LSTM。
3. 端到端學習,這也是百度首席科學家吳恩達在 NIPS 2016 上重點提到的。比如語音識別,輸入的是語音,輸出的是文本,這是比較純粹的端對端學習。但是它也有缺點——需要足夠大的訓練集。
盤點了16年語音識別的發展,那么在未來幾年里,語音識別技術主要發展方向是什么呢?
方向一:進一步提升在遠場識別尤其是有人聲干擾情況下的識別率
目前一般遠場識別的錯誤率是近場識別錯誤率的兩倍左右,所以在很多情況下語音識別系統還不盡如人意。遠場識別至少目前還不能單靠后端的模型加強來解決。現在大家的研究集中在結合多通道信號處理(例如麥克風陣列)和后端處理從拾音源頭到識別系統全程優化來增強整個系統的表現。
方向二:更好的識別算法
這個「更好」有幾個方面:一個方面是能不能更簡單。現在的模型訓練過程還是比較復雜的,需要經過很多步驟。如果沒有 HTK 和 Kaldi 這樣的開源軟件和 recipe 的話,很多團隊都要用很長時間才能搭建一個還 OK 的系統,即使 DNN 的使用已經大幅降低了門檻。現在因為有了開源軟件和 recipe,包括像 CNTK 這樣的深度學習工具包,事情已經容易多了,但還有繼續簡化的空間。這方面有很多的工作正在做,包括如何才能不需要 alignment 、或者不需要 dictionary。現在的研究主要還是基于 end-to-end 的方法,就是把中間的一些以前需要人工做的步驟或者需要預處理的部分去掉。雖然目前效果還不能超越傳統的 hybrid system,但是已經接近 hybrid system 的 performance 了。
方向三:尋找特殊網絡結構
最近的幾年里大家已經從一開始使用簡單的 DNN 發展到了后來相對復雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現得還不夠好。所以一個研究方向是尋找一些特殊的網絡結構能夠把我們想要 model 的那些東西都放在里面。我們之前做過一些嘗試,比如說人在跟另外一個人對話的過程中,他會一直做 prediction,這個 prediction 包括很多東西,不單是包括你下一句想要說什么話,還包括根據你的口音來判斷你下面說的話會是怎樣等等。我們曾嘗試把這些現象建在模型里以期提升識別性能。很多的研究人員也在往這個方向走。
方向四:快速自適應的方法
快速自適應的方法就是快速的不需要人工干預的自適應方法(unsupervised adaptation)。現在雖然已經有一些自適應的算法了,但是它們相對來說自適應的速度比較慢,或者需要較多的數據。有沒有辦法做到更快的自適應?就好像第一次跟一個口音很重的人說話的時候,你可能開始聽不懂,但兩三句話后你就可以聽懂了。大家也在尋找像這種非常快還能夠保證良好性能的自適應方法。快速自適應從實用的角度來講還是蠻重要的。因為自適應確實在很多情況下能夠提升識別率。
如今,語音識別從算法到模型都有了質的變化,在加上語音領域(語音合成等)的其他研究,語音技術陸續進入工業、家庭機器人、通信、車載導航等各個領域中。當有一天,機器能夠真正「理解」人類語言,并作出回應,那時我們必將迎來一個嶄新的時代。(本文部分摘自微信公眾號“機器之心”,作者李亞洲)
更多行業資訊,更新鮮的技術動態,盡在。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn