新到貨2本75折
大數據搜索引擎原理分析

大數據搜索引擎原理分析

  • 定價:414
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

本書是暢銷書升級版,向讀者提供了一套完整的大數據時代背景下的搜索引擎解決方案,詳盡地介紹了搜索引擎的技術架構、算法體系及取得的成果,並以模塊化的方式進行組織。本書著重介紹了機器學習在搜索引擎中的應用,包括中文分詞、聚類、分類等核心的機器學習算法,並結合示例加以介紹和分析,使讀者可以更好地理解機器學習在搜索引擎中的價值;同時,闡述了大數據給搜索引擎帶來的新特性,結合目前大數據分析的主流工具,在搜索引擎中構建知識圖譜,以及進行日誌反饋學習,可以使得搜索引擎更加智能。本書不僅適合作為互聯網行業從業者的技術參考書。
 
 

作者介紹

劉凡平,碩士,畢業於中國科學技術大學軟件系統設計專業。曾任職微軟亞太研發集團、百度(中國)有限公司。現任薇問(北京)科技有限公司首席技術官,負責搜索引擎技術與大數據人工智能平台研發工作。擅長搜索引擎、大數據分析、分佈式計算等相關研發工作,是Iveely開源搜索引擎的主要貢獻者之一。
 
 

目錄

第1章引論 1
1.1搜索引擎的過去 1
1.2搜索引擎的現在 2
1.3搜索引擎的未來 4
1.4大數據與搜索引擎 6
1.4.1搜索價值提升 6
1.4.2用戶價值提升 7
1.5大數據與人工智能 7
1.5.1人工智能的發展 7
1.5.2人工智能技術 9
1.6 搜索引擎與人工智能 11
1.7本章小結 13
第2章搜索引擎原理與技術 14
2.1基本工作原理 14
2.2基本模塊結構 15
2.2.1網絡爬蟲服務 16
2.2.2索引服務 17
2.2.3緩存服務 18
2.2.4搜索服務 19
2.2.5日誌服務 21
2.3技術概要 22
2.3.1自然語言處理 22
2.3.2知識圖譜 23
2.3.3海量數據存儲 25
2.3.4分佈式計算 27
2.3.5搜索排序 28
2.4 開源技術 29
2.4.1 Apache Lucene 29
2.4.2 Apache Nutch 31
2.4.3 Sphinx 32
2.4.4 Elastic Search 34
2.5本章小結 36
第3章自然語言處理框架 37
3.1英文分詞 37
3.2中文分詞 39
3.2.1中文分詞概述 39
3.2.2基於詞庫的分詞技術 40
3.2.3基於條件隨機場模型的中文分詞 42
3.2.4分詞粒度 49
3.3詞性標註 50
3.3.1隱馬爾科夫模型概要 51
3.3.2隱馬爾科夫模型與詞性標註 52
3.4語義相似度 60
3.5依存句法分析 62
3.5.1依存句法分析概要 62
3.5.2依存句法分析實現 65
3.6情感傾向分析 68
3.7文檔關鍵詞提取 70
3.7.1文檔關鍵詞提取概述 70
3.7.2基於TF-IDF算法 71
3.7.3基於TextRank算法 73
3.8文檔句子相似度分析 76
3.8.1句子相似度 77
3.8.2文檔相似度 79
3.9文檔核心句提取 80
3.10文本的分類與聚類 83
3.10.1文本分類 84
3.10.2文本聚類 89
3.11語種檢測 96
3.12本章小結 98
第4章構建大數據存儲引擎 99
4.1架構體系 100
4.1.1結構概要 100
4.1.2服務器上線 103
4.1.3服務器下線 103
4.1.4數據讀取 104
4.2數據存儲模型 105
4.3數據壓縮 107
4.4負載均衡 108
4.5數據存儲邏輯視圖 111
4.6本章小結 114
第5章構建分佈式實時計算 115
5.1概述 115
5.2設計架構 117
5.2.1設計思想 117
5.2.2基本框架 119
5.3運行模式 121
5.4負載均衡 122
5.5通信設計 123
5.5.1基本方式 124
5.5.2分佈式遠程服務調用 124
5.6容災恢復 125
5.7數據容錯原理 126
5.8數據處理設計示例 128
5.9本章小結 129
第6章分佈式可擴展爬蟲 130
6.1爬蟲體系架構 130
6.1.1主從分佈式結構爬蟲 131
6.1.2對等分佈式結構爬蟲 131
6.1.2基於分佈式計算平台爬蟲 132
6.2網頁解析 133
6.2.1狀態碼處理 134
6.2.2鏈接去重 134
6.2.3廣告識別 136
6.2.4網站地圖 139
6.2.5非網頁數據獲取 140
6.2.6網頁去重 141
6.2.7鏈接提取 145
6.2.8爬蟲協議 146
6.3網頁結構化 148
6.3.1網頁的編碼信息 148
6.3.2網頁的正文信息 149
6.3.3網頁的關鍵詞信息 153
6.3.4網頁的標題 153
6.3.5網頁的發佈時間 155
6.3.6網頁的語言檢測 155
6.3.7其他結構化數據 156
6.4網頁抓取策略 157
6.5爬蟲權限應對 158
6.6深網抓取 161
6.7抓取更新策略 162
6.8本章小結 164
第7章大數據構建知識圖譜 165
7.1概述 165
7.1.1 開放知識圖譜 165
7.1.2 知識圖譜與認知智能 167
7.1.3 圖數據庫:Neo4j 168
7.1.4 資源描述框架:RDF 172
7.2搜索引擎與知識圖譜 174
7.3可靠數據源選擇 176
7.4實體抽取 177
7.5關係抽取 178
7.5.1關係抽取概述 179
7.5.2隱藏關係抽取 180
7.5.3結構化確定關係抽取 183
7.5.4非結構化確定關係抽取 185
7.6知識圖譜檢測 190
7.6.1實體關係修正 190
7.6.2實體對齊 191
7.6.3實體歧義分析 193
7.7知識推理與知識計算 194
7.7.1知識推理 194
7.7.2知識計算 195
7.8知識聚類 198
7.9智能搜索實現 200
7.9.1模式匹配 200
7.9.2知識拆解 201
7.9.3合併求解 203
7.10智能搜索擴展 205
7.10.1常識性智能搜索 205
7.10.2實時信息智能搜索 206
7.10.3可交互式智能搜索 207
7.11 知識圖譜應用 208
7.11.1 問答系統 208
7.11.2 情報分析 211
7.11.3 智慧醫療 214
7.11.4 推薦系統 215
7.12本章小結 217
第8章索引構建機制 218
8.1倒排索引 218
8.1.1倒排索引概述 219
8.1.2索引結構 220
8.1.3構建過程 222
8.1.4排序規則 223
8.1.5索引壓縮 224
8.1.6更新策略 230
8.2分佈式存儲 230
8.2.1存儲劃分方式 231
8.2.2存儲平衡策略 232
8.3存儲索引 237
8.3.1二叉搜索樹 238
8.3.2B樹 239
8.3.3B+樹 241
8.3.4B+樹與文件索引 242
8.4字典樹索引 244
8.4.1字典樹索引概述 245
8.4.2字典樹索引構建 247
8.4.3字典樹查詢優化 249
8.5本章小結 250
第9章搜索服務構建 251
9.1概述 251
9.1.1體系結構 251
9.1.2七何分析法 252
9.1.3搜索語法 253
9.1.4相關性排序 255
9.1.5不安全信息過濾 259
9.2大數據分佈式緩存 263
9.2.1緩存結構設計 263
9.2.2緩存更新策略 264
9.3文本糾錯算法 265
9.3.1中文文本糾錯 265
9.3.2英文文本糾錯 269
9.4結果顯示算法 270
9.4.1動態摘要 271
9.4.2關鍵詞高亮算法 274
9.4.3網頁快照 278
9.5搜索智能提示 278
9.6網頁排序 282
9.6.1基於PageRank的網頁重要性評價 282
9.6.2基於HITS算法的網頁權威性評價 285
9.6.3HillTop算法 287
9.6.4網頁作弊評價 288
9.6.5網頁排序調試 291
9.7個性化搜索 292
9.7.1個性化搜索示例 292
9.7.2BP神經網絡與個性化搜索 293
9.7.3地理位置搜索 294
9.8圖片搜索 299
9.8.1基於內容的圖片搜索 299
9.8.2基於文本的圖片搜索 300
9.9搜索與廣告 302
9.9.1廣告投放策略 303
9.9.2基於User-Based協同過濾的廣告投放 303
9.9.3基於Item-Based協同過濾的廣告投放 305
9.9.4基於混合模式的廣告投放 306
9.9.5廣告投放評價 307
9.10搜索引擎評價 310
9.10.1搜索引擎評價概述 310
9.10.2基於準確率、召回率及F值評價 311
9.10.3歸一化折扣累計增益 313
9.11本章小結 316
第10章基於用戶日誌的反饋學習 318
10.1基於用戶搜索詞語的分析 318
10.1.1發現搜索詞的價值 319
10.1.2發現不明意圖下的用戶行為 320
10.2基於用戶點擊日誌的分析 321
10.2.1時間與搜索意圖的關係 321
10.2.2地理位置與搜索意圖的關係 322
10.2.3點擊日誌與同義詞 324
10.2.4點擊日誌與詞語權重 325
10.2.5點擊日誌與新詞分類 326
10.2.6點擊日誌與知識圖譜 328
10.2.7點擊日誌與網頁重排序 329
10.2.8點擊日誌與網頁評價 331
10.3基於用戶的特徵分析 332
10.3.1用戶跟踪 333
10.3.2用戶群體特徵 334
10.3.3用戶個體特徵 336
10.4本章小結 337
致謝 338
 

搜索引擎本身作為一門綜合性的互聯網技術,在行業中一直具備較高的關注度。隨著近幾年大數據的發展,人們對於搜索引擎的關注度越來越高,原因在於搜索引擎技術是大數據應用的前沿領域,也是最容易產生價值的大數據應用。大數據存儲、大數據計算都是從搜索引擎中衍生出來的新領域。目前,搜索引擎技術的發展不僅以大數據為基礎,還利用分佈式實時計算對數據進行高性能處理,以及利用機器學習將數據變得更具價值,在行業中吸引了搜索研發工程師、算法研發工程師、大數據分析工程師、自然語言處理工程師、計算平台架構師、數據挖掘工程師等各類精英的關
 
 

詳細資料

  • ISBN:9787121352454
  • 規格:平裝 / 356頁 / 16k / 23.8 x 16.8 x 2.4 cm / 普通級 / 單色印刷 / 初版
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 高木直子新作《便當實驗室開張》!跟著高木直子一起回憶屬於她的便當記憶
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 翦商作者新作79折
  • 針灸匠張寶旬
  • 浪漫小說精選3本72折