客服公告:2026年春節期間各項服務說明。詳情

新到貨新春促案
大數據架構和算法實現之路:電商系統的技術實戰
5
(1)

大數據架構和算法實現之路:電商系統的技術實戰

  • 定價:474
  • 優惠價:87412
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

本書介紹了一些主流技術在商業項目中的應用,包括機器學習中的分類、聚類和線性回歸,搜索引擎,推薦系統,用戶行為跟蹤,架構設計的基本理念及常用的消息和緩存機制。在這個過程中,我們有機會實踐R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系統。本書大的特色就是,從商業需求出發演變到合理的技術方案和實現,因此根據不同的應用場景、不同的數據集合、不同的進階難度,我們為讀者提供了反復溫習和加深印象的機會。

機器學習和大數據挖掘領域的技術專家和管理者。在上海交通大學獲得計算機科學與工程博士學位,先后在微軟亞洲研究院,eBay中國研發中心,1號店和飛牛網工作。「微軟學者獎」獲得者,IBM中國首屆「ExtremeBlue天才孵化計划」成員。有超過10年的學術創新和實際研發的經驗,成功孵化了10多項關鍵算法,發表了20多篇國際學術論文,擁有10多項國際專利及申請。目前是《計算機工程》雜志的特邀審稿專家,參與撰寫的互聯網圖書《玩轉電商》已經於2014年出版。
 

目錄

推薦序
前言
引子

第一篇 支持高效的運營
第1章方案設計和技術選型:分類
1.1分類的基本概念
1.2分類任務的處理流程
1.3算法:朴素貝葉斯和K最近鄰
1.3.1朴素貝葉斯
1.3.2K最近鄰
1.4分類效果評估
1.5相關軟件:R和Mahout
1.5.1R簡介
1.5.2Mahout簡介
1.5.3Hadoop簡介
1.6案例實踐
1.6.1實驗環境設置
1.6.2中文分詞
1.6.3使用R進行朴素貝葉斯分類
1.6.4使用R進行K最近鄰分類
1.6.5單機環境使用Mahout運行朴素貝葉斯分類
1.6.6多機環境使用Mahout運行朴素貝葉斯分類
1.7更多的思考
第2章方案設計和技術選型:聚類
2.1聚類的基本概念
2.2算法:K均值和層次型聚類
2.2.1K均值聚類
2.2.2層次型聚類
2.3聚類的效果評估
2.4案例實踐
2.4.1使用R進行K均值聚類
2.4.2使用Mahout進行K均值聚類
第3章方案設計和技術選型:因變量連續的回歸分析
3.1線性回歸的基本概念
3.2案例實踐
3.2.1實驗環境設置
3.2.2R中數據的標准化
3.2.3使用R的線性回歸分析

第二篇 為顧客發現喜歡的商品:基礎篇
第4章方案設計和技術選型:搜索
4.1搜索引擎的基本概念
4.1.1相關性
4.1.2及時性
4.2搜索引擎的評估
4.3為什麼不是數據庫
4.4系統框架
4.4.1離線預處理
4.4.2在線查詢
4.5常見的搜索引擎實現
4.5.1Lucene簡介
4.5.2Solr簡介
4.5.3Elasticsearch簡介
4.6案例實踐
4.6.1實驗環境設置
4.6.2基於Solr的實現
4.6.3基於Elasticsearch的實現
4.6.4統一的搜索API

第三篇 為顧客發現喜歡的商品:高級篇
第5章方案設計和技術選型:NoSQL和搜索的整合
5.1問題分析
5.2HBase簡介
5.3結合HBase和搜索引擎
5.4案例實踐
5.4.1實驗環境設置
5.4.2HBase的部署
5.4.3HBase和搜索引擎的集成
第6章方案設計和技術選型:查詢分類和搜索的整合
6.1問題分析
6.2結合分類器和搜索引擎
6.3案例實踐
6.3.1實驗環境設置
6.3.2構建查詢分類器
6.3.3定制化的搜索排序
6.3.4整合查詢分類和定制化排序
第7章方案設計和技術選型:個性化搜索
7.1問題分析
7.2結合用戶畫像和搜索引擎
7.3案例實踐
7.3.1用戶畫像的讀取
7.3.2個性化搜索引擎
7.3.3結果對比
第8章方案設計和技術選型:搜索分片
8.1問題分析
8.2利用搜索的分片機制
8.3案例實踐
8.3.1Solr路由的實現
8.3.2Elasticsearch路由的實現
第9章方案設計和技術選型:搜索提示
9.1問題分析
9.2案例實踐:基礎方案
9.2.1Solr搜索建議和拼寫糾錯的實現
9.2.2Elasticsearch搜索建議和拼寫糾錯的實現
9.3改進方案
9.4案例實踐:改進方案
第10章方案設計和技術選型:推薦
10.1推薦系統的基本概念
10.2推薦的核心要素
10.2.1系統角色
10.2.2相似度
10.2.3相似度傳播框架
10.3推薦系統的分類
10.4混合模型
10.5系統架構
10.6Mahout中的推薦算法
10.7電商常見的推薦系統方案
10.7.1電商常見的推薦系統方案
10.7.2相似度的計算
10.7.3協同過濾
10.7.4結果的查詢
10.8案例實踐
10.8.1基於內容特征的推薦
10.8.2基於行為特征的推薦

第四篇 獲取數據,跟蹤效果
第11章方案設計和技術選型:行為跟蹤
11.1基本概念
11.1.1網站的核心框架
11.1.2行為數據的類型
11.1.3行為數據的模式
11.1.4設計理念
11.2使用谷歌分析
11.3自行設計之Flume、HDFS和Hive的整合
11.3.1數據的收集——Flume簡介
11.3.2數據的存儲——HadoopHDFS回顧
11.3.3批量數據分析——Hive簡介
11.3.4Flume、HDFS和Hive的整合方案
11.4自行設計之Flume、Kafka和Storm的整合
11.4.1實時性數據分析之Kafka簡介
11.4.2實時性數據分析之Storm簡介
11.4.3Flume、Kafka和Storm的整合方案
11.5案例實踐
11.5.1數據模式的設計
11.5.2實驗環境設置
11.5.3谷歌分析實戰
11.5.4自主設計實戰之Flume、HDFS和Hive的整合
11.5.5自主設計實戰之Flume、Kafka和Storm的整合
11.6更多的思考
后記
 

詳細資料

  • ISBN:9787111569695
  • 規格:425頁 / 普通級 / 1-1
  • 出版地:中國

會員評價

5
1人評分
|
1則書評
|
立即評分
user-img
Lv.7
5.0
|
2021/02/27

工作上是管理大數據平台和建置其上的個人化推薦系統,目前在系統設計、開發和維運算是得心應手。不過資訊技術進展一日千里,為此我總會買些以大數據、推薦系統的專書來溫故知新。翻閱過數本推薦系統的好書後,和本書作者黃申在序中出提的想法一樣,這些專論推薦系統的書目分別處於理論和技術的兩個極端。不是純粹介紹理論、演算法、數學公式和學術進程,像是一本大學院校的教科書,另一種是過於微觀地介紹單一技術工具、框架,從安裝設定到開發、操作步驟,像是常見的Hadoop實戰、Spark入門等。

「大數據架構和算法實現之路」的作者以全然不同的角度切入「推薦系統」這主題,用電商營運中的大數據資訊處理需求當主軸貫穿全書,在各子章節中詳述設計思維、系統架構,並提供可實際運作的完整程式碼,讓讀者「知其然,又知其所以然」。隨著章節進行,範例程式逐步演進變成強大的運算模組,完成度極高的程式碼,徹底揭開大數據技術如何落地實作的神秘面紗。

這一兩年有關心IT產業動向的人,應該能感受到先前刮起的機器學習/人工智慧風潮開始消褪。我認為原因有二,一是資本市場和資訊同業的大舉投入,讓AI技術以十倍速成長而達到高原期,相關工具、框架汗牛充棟、舉手可得。同時AWS、GCP等IT領頭羊也極積推廣AI雲端服務,這些因素造成AI技術平價化,喪失成為公司營運上做為技術壁壘的優勢。其次,在僅扮演AI供應商的角色,無法獲取高利潤的情況下(AI普及化的負作用),目前又缺乏能將AI技術在市場中變現的商業模式。不論是強調未來能降低人力成本,或是主打可以提升既有服務的精準度,都無法直接對業績帶來顯著的高成長,因此從投資者/市場的觀點來看,AI技術是言過其實。

相對地,雖然大數據早先AI已步入高原期,已是十分普及的資訊技術。但它具體回應電商在不同層面所遭遇的問題,改善它們在營運管理中的痛點。推出推薦系統、精準行銷和網站追蹤等資訊服務,今日也都成為各大電商平台的系統標準配備。AI和大數據在商業價值上反映的此消彼長,如同波紋般擴散到資訊書市。開始有專書在講述如何運用機器學習/深度學習打造出電商的推薦引擎。在在證明,雖然商品推薦系統不如人臉/聲音辨識那般具有話題性,卻是電商運用資訊科技促進業務成長的最佳實踐做法。

「大數據架構和算法實現之路:電商系統的技術實戰」一書分成四部份,包含大數據、搜尋引擎、機器學習和網站行為追蹤。而前三項技術恰好吻合我在打造電商推薦系統過程中,獨自摸索、拼湊找到的核心組件。我認為一個完善的推薦引擎,必然是倚靠在大數據、搜尋引擎和機器學習這三根基柱上。雖然和書中節章順序略有不同,但看到自己一路來的領略心法,是從他人之筆成為篇篇書頁,不免讓我拍案叫絕,對黃申有千里遇知音的感觸。

書中先介紹機器學習在電商的應用,從分類、分群再到迴歸分析。全書先以故事中角色的互動帶出技術需求,再說明理論、架構,展示完整的程式碼,後續各章的綱要都是如此。雖然本章用的是較早期的Apache Mahout開源框架,但只要舉一反三,讀者可以自行改用其它開源框架(例如Apache Spark)。迴歸分析的部份,點出了機器學習如何用來進行商品銷售預測。能正確預測未來的銷售數字是個大問哉,實務上不會像書中描述地這麼簡單,但畢竟它還是成功破題,讓有志於此課題的讀者,能對技術實踐有個粗略的印象,用來踏出第一步。

全書花了近半的篇幅講解搜尋引擎的核心和應用,包括最基本的逆排索引觀念到進階的分散式搜尋架構,同時一併介紹了各據半邊天的開源Solr和ElasticSearch。當然後續重心是放在如何整合大數據分析和機器學習算法,用來優化搜尋結果頁的排序,最終達成個人化搜尋。光是這些內容,「大數據架構和算法實現之路」就能充當為一本搜尋技術專書,可見黃申在搜尋領域的專精與經驗。

在錙銖必較網頁回應效率的電子商務,推薦系統一方面要滿足特定演算法的需求,另外也得遵守整體網站訂定的系統回應速度。為此絕大多數的推薦系統都會導入搜尋引擎做為核心模組。武斷地說,想打造大數據導向的個人化推薦系統,必須具備可以靈活使用搜尋引擎的技術力。換個角度看,推薦系統就像是個不需要消費者主動輸入關鍵字的商品搜尋引擎,可見得兩者有多相似,關係有多密切。

在推薦系統的章節,意料之中地提到了耳熟能詳的協同過瀘法,這個算法已經是每書必提、婦孺皆知。令人驚豔的是,黃申居然使用搜尋引擎來實作此算法,而不是採用開源的機器學習框架。他活用了TF/IDF和逆排索引的特性,以開創的做法,簡單、迅速地完成了基於物和基於人的協同推薦服務。黃申描述的個人化商品推薦,和我這些年摸索打造的推薦引擎不謀而合,是藉由大數據的運算能力,混合群眾和會員個人的商品偏好,即時呈現給消費者最感興趣的商品。

電商經營不可或缺的數據追蹤,本書當然沒有遺漏。它先比較第三方方案(例如GA)和自行打造平台的優缺點,再具體而微地展示利用大數據技術該怎麼打造出客製的網站行為追蹤系統。裡面採用的Apache Storm也是我目前採用的開源框架,再一次讓我直呼好巧。

在建置推薦系統時累積的許多想法和技術巧門,曾經動心起念要書寫成冊。畢竟推薦系統這個主題涵蓋大數據、搜尋引擎和機器學習三個當下十分火紅的資訊領域,而且還能跨足數位行銷的範疇,也是行銷資料科學中一個重要的應用。在實務操作中,除了滿足算法需求,得克服效能瓶頸,更要關注消費心理學,與公司商業策略相互呼應。

「大數據架構和算法實現之路:電商系統的技術實戰」的內文,很多和我個人的體悟如出一轍,其中還有不少目前我還未嘗試過的設計。有幸翻閱本書,一來感嘆資訊科技萬變不離其宗,自身的領悟與心法非舉世所罕見,已有行家立著成冊,不勞我費心落筆分享。二來慶幸,自己一路走來琢磨、堆積而成的推薦系統,在設計思維和整體架構上,和對岸名人大腕的做法相比也毫不遜色。可以說是「德不孤,必有鄰」嗎?
展開

最近瀏覽商品

 

相關活動

  • 【自然科普、電腦資訊】AI時代的職場生存術:打開職場新思維,打造新世代職場競爭力,電子書85折起
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約21~30個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 古籍精選3本72折
  • 百大2本75折