亲，暂时无法评论！

語音識別原理五分鐘就能弄懂

2021-07-24 00:00:00 74U閱讀網

浏覽：0

語音識別原理五分鐘就能弄懂

首先，我們知道聲音實際上是一種波。常見的mp3、wmv等格式都是壓縮格式，必須轉成非壓縮的純波形文件來處理，比如Windows PCM文件，也就是俗稱的wav文件。wav文件裡存儲的除瞭一個文件頭以外，就是聲音波形的一個個點瞭。

在開始語音識別之前，有時需要把首尾端的靜音切除，降低對後續步驟造成的幹擾。這個靜音切除的操作一般稱為VAD，需要用到信號處理的一些技術。要對聲音進行分析，需要對聲音分幀，也就是把聲音切開成一小段一小段，每小段稱為一幀。分幀操作一般不是簡單的切開，而是使用移動窗函數來實現，這裡不詳述。幀與幀之間一般是有交疊的。

每幀的長度為25毫秒，每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。每幀的長度為25毫秒，每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。

分幀後，語音就變成瞭很多小段。但波形在時域上幾乎沒有描述能力，因此必須將波形作變換。常見的一種變換方法是提取MFCC特征，根據人耳的生理特性，把每一幀波形變成一個多維向量，可以簡單地理解為這個向量包含瞭這幀語音的內容信息。這個過程叫做聲學特征提取。實際應用中，這一步有很多細節，聲學特征也不止有MFCC這一種，具體這裡不講。

至此，聲音就成瞭一個12行（假設聲學特征是12維）、N列的一個矩陣，稱之為觀察序列，這裡N為總幀數。觀察序列如下圖所示，圖中，每一幀都用一個12維的向量表示，色塊的顏色深淺表示向量值的大小。

接下來就要介紹怎樣把這個矩陣變成文本瞭。首先要介紹兩個概念：音素：單詞的發音由音素構成。對英語，一種常用的音素集是卡內基梅隆大學的一套由39個音素構成的音素集，參見The CMU Pronouncing Dictionary。漢語一般直接用全部聲母和韻母作為音素集，另外漢語識別還分有調無調，不詳述。狀態：這裡理解成比音素更細致的語音單位就行啦。通常把一個音素劃分成3個狀態。

語音識別是怎麼工作的呢？實際上一點都不神秘，無非是：第一步，把幀識別成狀態（難點）；第二步，把狀態組合成音素；第三步，把音素組合成單詞。

語音識別原理五分鐘就能弄懂

今日熱點

小編精選

热门視頻

猜你喜歡

黃瓜洋蔥拌花生米的做法不但口味清爽營養也是特別的豐富

新中國成立70周年宣傳標語國慶70周年宣傳標語口號推薦

平眉畫法平眉怎麼畫好看

長江怎麼釣鯿魚

同治皇帝是怎麼死的同治皇帝是誰

晚上向日葵朝哪個方向晚上向日葵的朝向

微波爐可以用金屬容器嗎金屬容器能用微波爐加熱嗎

夢到車被水淹這七種預示您要註意

excel表格裡的虛格怎麼去掉有以下三種方法

養500頭牛國傢有什麼補貼養牛補貼標準告訴你

烤箱把柿子烘幹的方法快來學一學吧

如何快速剝雞蛋 3秒鐘快速剝掉雞蛋殼的技巧

羊肉燴面的湯料配方具體有以下配方

黃年糕怎麼做好吃又簡單黃年糕如何做好吃又簡單

紅豆黑豆綠豆一起煮的功效和作用快快做給傢裡人吃吧

語音識別原理 五分鐘就能弄懂

今日熱點

小編精選

热门視頻

猜你喜歡

黃瓜洋蔥拌花生米的做法 不但口味清爽營養也是特別的豐富

新中國成立70周年宣傳標語 國慶70周年宣傳標語口號推薦

平眉畫法 平眉怎麼畫好看

長江怎麼釣鯿魚

同治皇帝是怎麼死的 同治皇帝是誰

晚上向日葵朝哪個方向 晚上向日葵的朝向

微波爐可以用金屬容器嗎 金屬容器能用微波爐加熱嗎

夢到車被水淹 這七種預示您要註意

excel表格裡的虛格怎麼去掉 有以下三種方法

養500頭牛國傢有什麼補貼 養牛補貼標準告訴你

烤箱把柿子烘幹的方法 快來學一學吧

如何快速剝雞蛋 3秒鐘快速剝掉雞蛋殼的技巧

羊肉燴面的湯料配方 具體有以下配方

黃年糕怎麼做好吃又簡單 黃年糕如何做好吃又簡單

紅豆黑豆綠豆一起煮的功效和作用 快快做給傢裡人吃吧

語音識別原理五分鐘就能弄懂

黃瓜洋蔥拌花生米的做法不但口味清爽營養也是特別的豐富

新中國成立70周年宣傳標語國慶70周年宣傳標語口號推薦

平眉畫法平眉怎麼畫好看

同治皇帝是怎麼死的同治皇帝是誰

晚上向日葵朝哪個方向晚上向日葵的朝向

微波爐可以用金屬容器嗎金屬容器能用微波爐加熱嗎

夢到車被水淹這七種預示您要註意

excel表格裡的虛格怎麼去掉有以下三種方法

養500頭牛國傢有什麼補貼養牛補貼標準告訴你

烤箱把柿子烘幹的方法快來學一學吧

羊肉燴面的湯料配方具體有以下配方

黃年糕怎麼做好吃又簡單黃年糕如何做好吃又簡單

紅豆黑豆綠豆一起煮的功效和作用快快做給傢裡人吃吧