新到貨2本75折
即時語音處理實踐指南

即時語音處理實踐指南

  • 定價:594
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

本書主要介紹基於互聯網場景的互動式即時語音處理流程,內容涉及智慧語音助手、智慧音箱、音/視訊會議等,具體包括即時語音信號處理、數位音效、網路傳輸編/解碼和語音喚醒識別四部分。
 
在闡述各部分內容時,本書從基本概念和原理入手,將理論和實踐相結合,並細緻分析了極具商業價值的實例,以説明讀者瞭解相關演算法在工程上是如何實現的。另外,為便於有興趣的讀者快速進行演算法驗證並將其改進和應用到實際的項目中,作者也開源了書中演算法的源碼。
 
對於語音技術零基礎的讀者,建議按照本書的編排順序閱讀;本書也適合有一定語音理論基礎的高等院校相關專業本科生和研究生;對從事語音相關產品的非技術人員來說,可從本書瞭解語音處理的主要內容和技術難點,對從事語音工程開發的技術人員來說,本書開源了一些極具商業價值的源碼工程,具有較高的參考價值。
 

 

作者介紹

葛世超,碩士,畢業于西安電子科技大學雷達國防重點實驗室,先後任職于阿裡巴巴、rokid和Zoom,從事語音演算法工作。

呂強,學士,吉林大學通信工程專業畢業,原微鯨電視系統軟體音訊專家。

錢思沖,武漢理工大學博士,2016年至2018年在rokid從事麥克風陣列信號研究,目前主要研究語音信號盲源分離。

張博倫,碩士研究生,畢業于中國海洋大學海底科學與探測技術教育部重點實驗室。畢業後先後從事水聲、音訊信號處理等工作。

張碩,畢業于西安電子科技大學和法國高等電力學院,先後任職於諾基亞和Rokid,從事語音演算法相關工作。
 

 

目錄

緒論1
第1章 信號處理 7
1.1 數位和類比頻率 7
1.2 離散傅裡葉變換8
1.2.1 實數DFT 9
1.2.2 複數DFT 10
1.2.3 負頻分量 10
1.2.4 DFT變換性質 10
1.3 FFT 11
1.3.1 FFT 結果舉例 12
1.3.2 實信號FFT 13
1.3.3 短時傅裡葉變換 14
1.3.4 STFT語音窗函數選擇 14
1.4 重疊相加法和重疊保留法 16
1.4.1 OLA 17
1.4.2 OLS 19
1.5 加權重疊相加法 21
1.5.1 WOLA 計算過程 22
1.5.2 WOLA 窗函數選擇 22
1.6 濾波器組 23
1.7 語音預加重 27
1.8 高斯分佈 27
1.8.1 單高斯分佈 27
1.8.2 多維高斯分佈 29
1.9 HMM模型 31
1.10 卡爾曼濾波 32

第2章 發音機理和器件 34
2.1 語音的產生和接收 34
2.1.1 語音產生機理 34
2.1.2 發聲模型 36
2.1.3 發音單位 36
2.1.4 發音分類 37
2.1.5 聲音接收 37
2.1.6 聲音傳播 38
2.2 揚聲器 38
2.2.1 電學性能 38
2.2.2 聲學性能 39
2.2.3 底噪 40
2.2.4 頻響特性 41
2.2.5 THD+N POUT 41
2.2.6 電壓(功率)和失真 42
2.3 麥克風 42
2.3.1 麥克風性能指標 42
2.3.2 麥克風的選擇 43
2.4 結構設計 45
2.5 音訊設備 46
2.6 聲學測試 49

第3章 語音端點檢測 59
3.1 特徵選取 59
3.2 判決準則 61
3.2.1 門限 61
3.3 VAD 實例 63
3.4 語音/非語音幀的初始參數 75

第4章 單通道降噪 79
4.1 譜減法 79
4.2 維納濾波 84
4.3 子空間降噪 86
4.4 WebRTC 單通道降噪實現 87
4.5 深度學習降噪 101
第5章 聲學回聲消除 106
5.1 回聲消除原理 106
5.2 自我調整濾波器 108
5.3 WebRTC 回聲消除演算法 113
5.4 Speex 回聲消除演算法 128

第6章 聲源定位 147
6.1 GCC演算法 147
6.2 SRP-PHAT演算法 149
6.3 MUSIC演算法 150
6.4 TOPS 演算法 152
6.5 FRIDA演算法 154
6.6 後處理抗噪 155

第7章 波束形成技術 162
7.1 麥克風陣列 163
7.2 常見波束形成方法 168
7.3 WebRTC 波束形成實例 174
7.4 後置濾波(Post-filtering) 187

第8章 盲源分離 196
8.1 基本概念及數學預備知識 196
8.2 盲語音分離預處理——PCA 199
8.3 頻域獨立成分分析法——FDICA 200
8.4 後置濾波處理 205
8.5 GSC 與ICA聯合估計 209

第9章 音效處理 214
9.1 聲道的分類 214
9.2 後端音效處理 217

第10章 語音編/解碼 227
10.1 LPC 編碼 230
10.2 SILK編/解碼 231
10.3 opus 編/解碼概覽 239
10.4 語音品質評估 247

第11章 語音網路傳輸 251
11.1 擁塞控制 252
11.2 NetEQ 266

第12章 語音喚醒 278
12.1 語音喚醒技術簡介 278
12.2 特徵提取 279
12.3 模型結構 284
12.4 計算加速 292

第13章 語音辨識 301
13.1 語音特徵提取 303
13.2 聲學模型 306
13.3 語言模型 310
13.4 YES 和NO識別實例 312
13.5 Kaldi 中文語音辨識 321
13.6 DeepSpeech 語音辨識 324
附錄A 本書涉及的專業術語 331
 

 

詳細資料

  • ISBN:9787121387593
  • 規格:平裝 / 352頁 / 16k / 19 x 26 x 1 cm / 普通級 / 單色印刷 / 初版
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 用一代人的努力終結氣候危機《再生》|自然科普展7折起
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 888現折88
  • 分寸與好運
  • 終結氣候危機