中文開源語音識別引擎語音識別的技術原理是什么？

2021-03-12

2393

語音識別的技術原理是什么？看圖編碼：把語音變成向量頻域信息：人類是通過振動頻率來判斷聲音的，所以要用傅里葉變換來完成時域頻域之間的轉換；特征：如，MFCC是依照人耳的聽聲特點提出的filter。然后我

語音識別的技術原理是什么？

看圖

聲學模型（acoustic model）：用于識別語音向量；可用GMM或DNN等方法來識別向量，用DTW或HMM或CTC來對齊（alignment）識別結果的輸出（單詞從何時開始，何時結束）
字典（dictionary）：多數(shù)模型并不是以單詞，而是以音素為識別單位。當識別出? p l這三個音素時，利用字典，就可以判斷出所說的詞是apple。
語言模型（language model）：我們在聽老外說錯誤的中文時依然能夠識別內容是因為我們有關于語法的知識，可以調整聲學模型所識別出的不合邏輯的詞語。這就是語言模型的作用

有幾種方法：使用電腦自帶的功能、使用第三方軟件、使用第三方網(wǎng)站。

無論是windows、Mac、還是Linux的一些發(fā)行版，都有自帶的語音識別工具。但是這些工具普遍性能一般，準確率不怎么高。一般在控制面板、系統(tǒng)設置之類的菜單中就可以找到。

用第三方軟件來語音識別更常見，效果也更好。訊飛、搜狗以及其他一些輸入法廠商都提供了語音輸入功能，可以借由連接遠程服務器，直接把說話的內容轉化為文字。準確率比系統(tǒng)自帶的識別工具強一些。值得一提的是訊飛輸入法，是中文語音識別效果最好的產品。

網(wǎng)絡工具則更專注于把整段音頻轉化成文字。借助服務器的運算速度和龐大的語料庫與算法，這些工具往往可以提供比單機語音輸入更好的效果。

在這一類里推薦幾個：

Google的autosub，可以把音頻轉化成文字，支持九十多種語言，速度很快。

訊飛聽見，支持普通話和多種方言，有120分鐘的免費使用時間，超過了需要付款。

IBM 的watson Speech to Text 使用的是Watson人工智能系統(tǒng)，可以支持不超過100M的文件。