人工智能語音現(xiàn)狀 人工智能技術和智能語音技術的區(qū)別有哪些?
人工智能技術和智能語音技術的區(qū)別有哪些?智能語音技術是人工智能領域落下時運用最好的技術之一,是普通人外界人工智能的有用窗口。智能語音僅是語義推測,相對很簡單。人工智能真包含智能語音,應用領域總體應用廣
人工智能技術和智能語音技術的區(qū)別有哪些?
智能語音技術是人工智能領域落下時運用最好的技術之一,是普通人外界人工智能的有用窗口。
智能語音僅是語義推測,相對很簡單。人工智能真包含智能語音,應用領域總體應用廣泛,某個特定領域也更難開發(fā)。
人工智能涵蓋面的內容很多,智能語音一類AI領域的一個子領域,是可以如果說他們兩者是乾坤二卦和被包含的關系
如何解決人工智能的智能語音問題?
因為牽涉到到的問題都很多,我盡量以更通俗語言來具體解釋。
智能語音真包含幾個層面:1語音合成;2語音識別;3語義識別。
1語音合成
日常生活中更多的見于導航軟件、聽書軟件、銀行系統(tǒng)智能語音機器人、上門推銷等,將文字是從語音展示出不出來。和語音識別比起,語音合成的技術相對于說來要完全成熟那些,并已又開始大規(guī)模行動商用中。
語音合成技術的最的問題在2個方面:
1)文本不規(guī)整、詞的切分、語法分析和語義分析。
舉個例子,“我是人”,這句話真包含“我”,“是”,“人”三個詞或詞組,主、謂、賓關系清晰,只不過就現(xiàn)有技術水平來說,還需進一步增強,聽書軟件中,我們經常聽了的是勻速運動大聲朗讀,還沒有太很明顯的斷句和詞組切分。
2)缺少情感。
更多的是照念式朗讀文章,情緒變化不肯定,很順耳都很生硬。在有所不同的語境下,語言和文字代表意思已經差別,倒致音量、音色、減弱長短等也有了完全不同。
相對而言,語音識別成熟度比語音識別、語義識別更好,推廣和商業(yè)化運作程度比較比較好,可是一定程度上還必然不足以,但隨著語法分析、語義分析技術的提升,這樣,語音合成效果也將是越來越棒。
2語音識別
一句話概括,按照識別和理解過程把語音信號變化為或則的文本或命令的技術。
目前市場通常集中行業(yè),比如說公安、司法(檢查院、法院)、邊檢等,較常見于會議、刑訊、庭審、問過等。同語義理解、語義識別比較好來說,難度介乎二者之間。
語音交互比較多的產品主要有:
1)短語音,主要常見于個人通信,簡短精悍交流等場合。
2)長語音,要注意多見于會議記錄等。
3)實時語音,要注意作用于在旁邊能接收音頻數(shù)據(jù),在旁邊需要提供錄音轉寫結果,都能夠動態(tài)實時某些和依靠文字信息。
語音識別難點取決于人幾個方面:
1)識別準確率。據(jù)分析,電視臺/廣播電臺的播音員語音識別率換算下來約80-85%(當然,某些情況下也可能達到90,這里講的是你算算水平),更別提一般普通人了。
2)環(huán)境造成負面影響。諸如車輛、工地、空調、會議噪聲等,會對語音識別有都很大的影響。
3)口音差異。各省各地的方言差異較小,必須充足的訓練集來訓練。
4)互聯(lián)網時代,新的詞語層出不窮,需要定期更新詞庫。
5)音調、音量、音色、聲音持續(xù)等,也會對最終造成很大的影響。
總的說來,語音識別效果也可以逐漸優(yōu)化軟件,行業(yè)應用中,最好就是變動到最佳狀態(tài)。
3語義識別
舉個通俗的例子來那說明“語音識別”與“語義分析”在人工智能技術層次上的不同:用戶對著電視機說一部具體看的電影或者電視劇的全名,電視機會對用戶語音通過識別,不自動收索片名、可以播放,這那是“語音識別”可是,如果用戶對電視機說“一部愛情片”、“正熱播的動作片”、“導演的電影”、“好萊塢大片”等模糊不堪語句,電視機依據(jù)什么用戶的性別、愛好、平時的點播傾向等特征來進行智能的分析,并參與精準的推薦,這是“語義分析”,在智商上比“語音識別”高了好幾個層次,領先對手一大步。
最常見的如智慧家居、車載語音、可穿戴設備、VR、機器人等。
語義識別難點本質幾個方面:
1)詞序的變化,主謂關系的顛倒或省略。例如港臺片中的“我走先”,能夠語法中是沒有此說法,但是這個叫法現(xiàn)在大家都懂,不過機器一點不懂。
2)語境的影響。
舉個生活中的一個例子,女朋友給男朋友打個
女:我在電影院門口等你,晚上7五點半我沒有到的話,你等下;
女:我在電影院門口等到你,晚上7點鐘你是沒有到的話,你等下;
很確實,語境稍有變化,導致的語義幾乎有所不同。
我認為,語義識別最難,目前市面上可是有部分產品試用,但還達將近如此大規(guī)模正式商用的水平。況且另外一個話題-聲紋識別,要注意運用在公安、司法領域,應用于取證和預警等,在今天談些的范圍內。以后有機會再聊。
大家有疑問,也可以私聊我交流探討。