內容簡介

這是一部融合了企業界先進工程實踐經驗和學術界前沿技術和思想的ORC著作。本書由阿里巴巴本地生活研究院算法團隊技術專家領銜，從元件、算法、實現、工程應用等維度系統講解基於深度學習的OCR技術的原理和落地。書中一步步剖析了算法背後的數學原理，提供大量簡潔的代碼實現，幫助讀者從零基礎開始構建OCR算法。全書共9章：第1章從宏觀角度介紹了ORC技術的發展歷程、概念和產業應用；第2章講解了OCR的圖像預處理方法；第3~4章介紹了傳統機器學習方法和深度學習的相關基礎；第5章講解了基於傳統方法和深度學習方法的OCR的資料生成；第6章講解了與OCR相關的一些高級深度學習方法，方便讀者理解後續的檢測和識別部分；第7章講解了文字的檢測技術，從通用的目標檢測到文字的檢測，一步步加深讀者對文字檢測問題的認識；第8章討論了文字識別的相關技術，定位到文字的位置之後，需要對文字的內容進行進一步的解析；第9章介紹了一些OCR後處理的方法。

作者介紹

劉樹春

阿里巴巴本地生活研究院算法專家，前復旦七牛雲聯合實驗室OCR算法負責人，在OCR相關技術的落地和實現方面有深入的研究和豐富的實踐經驗，在功能表識別、車牌檢測識別、卡證識別、商業廣告文字檢測和識別、票據類識別等應用場景中積累了豐富的經驗。曾經組隊參加COCO競賽、ICDAR刷榜等活動，並發表多篇頂會論文。

賀盼

佛羅里達大學在讀博士，擔任 CVPR、ICCV、ECCV等10多家國際頂會審稿人或程式委員，在場景文本領域發表過多篇國際頂會論文 (DTRN、CTPN、SSTD等)。曾經在中科院先進技術研究院、港中文、曠視美國研究院等做過相關研究工作，對場景文本有深刻的認識，並且對場景文本學術前沿有很強的感知力。

馬建奇

著名的RRPN算法的作者，發表過多篇國際頂會論文，曾經在曠視研究院做過檢測相關的工作，在上海高等研究院做過文字檢測相關的工作，曾經組隊參加過ICDAR 17 MLT比賽，獲得前三名。曾獲Facebook研究實習機會。目前即將開始修讀博士學位，正在做文字識別相關的工作，對於OCR的問題有獨到的見解。

王佳軍

阿里巴巴本地生活研究院高級算法專家，負責本地生活研究院圖像算法團隊的管理、研發等工作，曾經在滴滴研究院做相關算法的研究。業餘時間擔任深度學習框架MXNet的技術專家，對實際算法的落地優化等有非常深入的耕耘，具有很強的OCR相關項目的落地能力。

謝雨飛

趣頭條算法工程師，曾在七牛雲做OCR、NLP相關算法的研究工作，發表過多篇國際頂會論文。

陳明曦

紐約大學碩士研究生，曾在七牛雲從事OCR相關工作，發表相關論文數篇。

推薦序
前言

第1章　緒論 1
1.1　人工智慧大潮中的OCR發展史 1
1.1.1　傳統OCR方法一般流程 3
1.1.2　基於深度學習OCR方法一般流程 5
1.2　文字檢測 6
1.3　文字識別 8
1.4　產業應用現狀 10
1.5　本章小結 11
1.6　參考文獻 11

第2章　圖像預處理 13
2.1　二值化 13
2.1.1　全域閾值方法 13
2.1.2　局部閾值方法 17
2.1.3　基於深度學習的方法 20
2.1.4　其他方法 22
2.2　平滑去噪 26
2.2.1　空間濾波 26
2.2.2　小波閾值去噪 28
2.2.3　非局部方法 29
2.2.4　基於神經網路的方法 33
2.3　傾斜角檢測和校正 35
2.3.1　霍夫變換 36
2.3.2　Radon 變換 38
2.3.3　基於 PCA 的方法 38
2.4　實戰 39
2.5　參考文獻 43

第3章　傳統機器學習方法緒論 45
3.1　特徵提取方法 45
3.1.1　基於結構形態的特徵提取 45
3.1.2　基於幾何分佈的特徵提取 61
3.2　分類方法模型 63
3.2.1　支持向量機 63
3.2.2　K近鄰算法 65
3.2.3　多層感知器 70
3.3　實戰：身份證號碼的識別 71
3.3.1　核心代碼 71
3.3.2　測試結果 78
3.4　本章小結 79
3.5　參考文獻 79

第4章　深度學習基礎知識 80
4.1　單層神經網路 80
4.1.1　神經元 80
4.1.2　感知機 81
4.2　雙層神經網路 82
4.2.1　雙層神經網路簡介 82
4.2.2　常用的啟動函數 83
4.2.3　反向傳播算法 86
4.3　深度學習 87
4.3.1　卷積神經網路 88
4.3.2　常用優化算法 90
4.4　訓練網路技巧 92
4.4.1　權值初始化 92
4.4.2　L1/L2正則化 93
4.4.3　Dropout 94
4.5　實戰 95
4.6　參考文獻 97

第5章　資料生成 99
5.1　背景介紹 99
5.2　傳統單字OCR資料生成 100
5.3　基於深度學習的OCR資料生成 101
5.3.1　文字檢測資料的生成 101
5.3.2　檢測圖片生成 103
5.3.3　其他方法 112
5.3.4　識別資料生成 113
5.4　通過GAN的技術生成資料 114
5.4.1　GAN背景介紹 114
5.4.2　GAN的原理 116
5.4.3　GAN的變種 117
5.5　圖像增廣 123
5.5.1　常用的圖像增強方法 123
5.5.2　深度學習方法 126
5.6　常用的開來源資料集 128
5.7　ICDAR的任務和資料集 131
5.8　本章小結 138
5.9　參考文獻 138

第6章　深度學習高級方法 140
6.1　圖像分類模型 140
6.1.1　LeNet5 140
6.1.2　AlexNet 142
6.1.3　VGGNet 143
6.1.4　GoogLeNet 144
6.1.5　ResNet 147
6.1.6　DenseNet 151
6.1.7　SENet 153
6.1.8　輕量化網路 154
6.2　迴圈神經網路 154
6.2.1　RNN網路 154
6.2.2　GRU 156
6.2.3　GRU的實現 158
6.2.4　LSTM網路 160
6.3　Seq2Seq 163
6.4　CTC Loss 164
6.4.1　算法詳解 166
6.4.2　前向傳播 168
6.4.3　後向傳播 173
6.4.4　前向/後向算法 173
6.4.5　CTC算法特性 174
6.4.6　代碼解析 175
6.5　Attention 178
6.6　本章小結 181
6.7　參考文獻 182

第7章　文字檢測 183
7.1　研究意義 183
7.2　目標檢測方法 185
7.2.1　目標檢測相關術語 186
7.2.2　傳統檢測方法 189
7.2.3　Two-stage 方法 195
7.2.4　One-stage 方法 210
7.3　文本檢測方法 217
7.3.1　傳統文本檢測方法 217
7.3.2　基於深度學習的文本檢測方法 222
7.4　本章小結 228
7.5　參考文獻 228

第8章　字元識別 232
8.1　任務概覽 232
8.2　資料集說明 233
8.2.1　資料集意義 233
8.2.2　常見識別資料集介紹 234
8.3　評測指標 238
8.3.1　編輯距離 239
8.3.2　歸一化編輯距離 239
8.3.3　字元準確度 239
8.3.4　詞準確率 239
8.3.5　語境相關的評測方式 239
8.4　主流算法介紹 240
8.4.1　傳統光學方法 240
8.4.2　完全基於深度學習的方法 244
8.5　CRNN模型實戰 274
8.5.1　簡介 274
8.5.2　運行環境 274
8.5.3　測試部分講解 274
8.5.4　測試運行結果 279
8.5.5　訓練部分 279
8.5.6　用ICDAR2013資料集訓練CRNN模型 282
8.6　本章小結 284
8.7　參考文獻 285

第9章　OCR後處理方法 288
9.1　文本糾錯 288
9.1.1　BK-tree 289
9.1.2　基於語言模型的中文糾錯 293
9.2　文本結構化 297
9.2.1　範本匹配 298
9.2.2　文本分類 300
9.3　本章小結 304
9.4　參考文獻 304

第10章　版面分析 306
10.1　版面分析詳解 306
10.2　複雜版面識別 309
10.3　文檔恢復 310
10.4　本章小結 311
10.5　參考文獻 311

看更多

序

推薦序

文字識別（OCR）是視覺感知中一個重要的技術，目的是從照片中提取文字資訊。這項技術有著廣泛的應用前景。比如，自動駕駛汽車路標識別，或把掃描文檔轉化成結構化的文字資訊以方便檢索。近幾年來，隨著深度學習等技術的發展，文字識別相關技術取得了突破性進展，特別是場景文字的檢測、識別和結構化技術。這些技術的發展使得文字識別在工業界受到了廣泛關注。阿裡巴巴、騰訊、百度、穀歌、微軟等互聯網公司都有大規模的文字識別應用，提供了各式各樣的文字識別相關的服務。

本書系統地介紹了文字識別的各類方法，內容翔實，包括圖像預處理、資料生成與增強、文字檢測、文字識別以及後處理和結構化等，這些方法是文字識別的基礎。同時，本書還介紹了學習這些方法所必需的一些基礎，比如，殘差神經網路以及通用目標檢測技術。另外，本書詳細地介紹了這些方法具體的代碼實現，供讀者學習和使用。目前，關於文字識別的專業書籍還比較缺乏，本書將給廣大文字識別研究人員和應用人員帶來便利。

本書的作者在文字識別學術研究和產業應用方面有豐富的經驗，書中很好地融合了學術理論和產業化實踐。相信本書的出版對於文字識別技術的普及和發展會產生積極的作用。

——FCOS，CTPN模型作者，田值

看更多

詳細資料

ISBN：9787111654049
規格：平裝 / 312頁 / 16k / 19 x 26 x 1.56 cm / 普通級 / 單色印刷 / 初版
出版地：中國

主題活動

閱讀媒合所｜寫書評送25元E-Coupon

購物說明

溫馨提醒您：若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍，建議與其他商品分開下單，以避免等待時間過長，謝謝。

大陸出版品書況：因裝幀品質及貨運條件未臻完善，書況與台灣出版品落差甚大，封面老舊、出現磨痕、凹痕等均屬常態，故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外，其餘所有商品將正常出貨。

請注意，部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

調貨時間：若您購買海外庫存之商品，於您完成訂購後，商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間，建議您將簡體書與其它商品分開訂購，以利一般商品快速出貨。

若您具有法人身份為常態性且大量購書者，或有特殊作業需求，建議您可洽詢「企業採購」。

退換貨說明

會員所購買的商品均享有到貨十天的猶豫期（含例假日）。退回之商品必須於猶豫期內寄回。

辦理退換貨時，商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性，切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者，恐將影響退貨權益或需負擔部分費用。

訂購本商品前請務必詳閱商品退換貨原則。

選擇語言

:::網站搜尋

深度實踐OCR：基於深度學習的文字識別

內容簡介

作者介紹

目錄

序

詳細資料

會員評鑑

主題活動

最近瀏覽商品

相關活動

購物說明

得獎認證