機器人的語音輸入輸出內容如圖3-9所示。語音輸入過程是一種模式識 別過程,先對空氣振動引起的語音聲波進行分析,然后抽取聲波里的音響特征,模式識別以及限定語音之間的連接關系。正確無誤地對連續的發音進行 一個一個語音識別是一件非常困難的事情,所以只能從不是那么準確的語音 序列或單詞的識別去理解人的說話內容。因此,在機器人系統中所使用的語 音識別方法、韻律規則和語法規則等語言學方面的規則都是綜合了各種知識 形成的,只有這樣才能理解人說話表達的意思。可以把這種系統稱為語音理 解系統。但是人的說話有時不那么明確,或者表達不那么清楚,這時機器人就 要通過語音合成裝置在人說話內容不明確或不清楚的地方提出疑問并請求解 答,或對人的說話內容多次加以確認,采用這種方式構成的系統稱為語音對話 系統。在語音對話系統中,雖然對人所發出的語音或單詞的識別并不十分準 確,但通過對話和理解過程就能把人說話的內容傳達給機器人。
一般來說,語音的生成過程分為三個階段:聲道內音源的發音;到聲道出 口為止的聲波的傳遞;從聲道出口到語音接受點的聲波輻射。發音的音源也 有三種:通過聲帶的振動引起聲道內呼出的氣流所產生具有近似周期性的斷 續氣流量的變化;當呼出的氣流通過聲道時,由于聲道變窄而產生的聲壓變 化;把閉鎖的聲道突然開放而產生的階躍型的音壓變化。對元音而言,聲道由 咽喉、口咽和口腔組成,并具有全極點的傳遞函數特性,每個極點的頻率稱為 共振峰頻率,把這些共振峰頻率依次編號為D一共振峰頻率、第二共振峰頻 率、第三共振峰頻率等。
語音的特征有分節特征和韻律特征兩種。在語音分節特征中,可以把元 音或輔音等每個單音作為語音的一個特征單位,因此可以根據聲道的傳遞函 數和音源的種類對這些特征單位進行描述。在語音的韻律特征中可以把語音 的抑揚、強度、節奏和速度作為語音的一種特征單位。語音的抑揚可以用振動的基頻來描述,語音的強度可以用音源的強弱來描述,而語音的節奏和速度則 可以用單音或停頓的持續時間來描述。
通過傅里葉變換對頻率函數進行分析是一種基本的語音分析方法。這種 方法得出的結果是一種頻譜特性,包括振幅頻譜和相位頻譜,但相位特性對語 音影響不大,所以一般僅用振幅頻譜(簡稱頻譜)來表示。因為語音特征是隨 時間變化的,所以使用傅里葉變換對語音分析時,應截取有限長度的語音信號 進行分析。
孤立單呼語音識別系統的基本構成。該圖所示系統只能 識別預先指定的有限個孤立單詞,這種系統不是進行組成單詞的音素的識 別,而是把單詞整體作為一個單位來進行識別。輸入系統的孤立單詞語音用 隨時間變化的函數來描述,通過某些數學運算把單詞語音信號變換為語音特 征更為明確的參數序列,進行音響分析。經過變換后的單詞語音通常用十幾 維的向量序列來描述,即使同一說話者對同一單詞進行發音,每次發音時的 向量序列長度也有可能不同。對單詞整體而言,向量序列長度的伸縮不是線 性變化的,元音的穩定發音部分的長度容易引起伸縮,輔音部分和各個過渡 部分則保持相對的固有長度,因而描述單詞的整個向量序列長度的伸縮呈非 線性的。
在單呼語音識別系統中,被識別對象的單詞,都預先準備好其標準的特征 向量序列。這些特征向量序列叫做標準模式。所謂單呼語音識別,是把經過 變換后的輸入單詞的特征向量序列與各單詞的標準模式之間的相似性(或距 離)逐一進行比較,Z后把相似性Z高的單詞作為識別結果進行輸出。把被識 別單詞的特征向量序列與標準單詞模式進行比較,計算兩者的相似性的操作 過程稱為“對照”或“匹配”。輸入的單詞和標準單詞的模式的向量序列長度一 般有差異,兩者進行匹配時不能單純的線性伸縮把兩者湊齊,需要根據在時間 軸上的非線性特點采用時間規整技術進行復雜的數學計算。
單呼語音識別系統有兩種類型:以特定人為前提并隨時進行語音調整的 系統和以非特定人為前提且不對語音進行特別調整的系統。前者叫做特定人 的單呼語音識別系統,后者叫做非特定人的單呼語音識別系統。在特定人的 單呼語音識別系統中,大多數情況下是把特定人所說的單詞語音進行音響分 析再變換為特征向量序列,然后原封不動地將這個特征向量序列句作為標準 模式來使用。在特定人的單呼語音識別系統中,選擇幾個典型的單詞特征向 量序列作為標準單詞模式,或從多個標準單詞模式中求出概率分布,Z后進行 統計判別。
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |