大數據基礎與應用

作者：趙國生
出版社：機械工業出版社
出版日期：2019/10/01
語言：簡體中文

定價：354元
優惠價：87折308元

運送方式：
臺灣與離島
海外

可配送點：台灣、蘭嶼、綠島、澎湖、金門、馬祖
可取貨點：台灣、蘭嶼、綠島、澎湖、金門、馬祖

載入中...

我要評鑑

分享

內容簡介

共分為12章，章介紹了大資料產生的背景、大資料的結構與特徵、大資料相關概念、大資料視覺化、大資料相關工具與發展前景。第2~9章為基礎知識部分，介紹了大資料的生態系統全貌，重點對計算平臺Hadoop、分散式檔案系統HDFS、計算框架MapReduce、開來源資料庫HBase、典型工具NoSQL、集群計算Spark、流計算Storm和分散式協調系統Zookeeper等相關技術進行了詳細介紹，通過實例使讀者具備解決實際問題的能力。第~12章為典型應用案例部分，介紹了大資料分析應用系統的開發過程，涵蓋了資料獲取、資料分析、資料轉換和結果顯示的整個互動式大資料處理和分析流程。

《大資料基礎與應用》內容豐富、條理清晰、示例指導性強，讀者可以通過章後的習題對所學內容作進一步鞏固，熟練掌握大資料基本原理、工程應用場景及實驗分析技巧。

《大資料基礎與應用》適合作為大中專院校資料科學與大資料專業、電腦類專業的教材，也可以作為讀者自學或者科研技術人員的參考書。

前言

第1章初識大數據
1.1大資料產生的背景
1.2大資料的結構與特徵
1.2.1大資料的結構
1.2.2大資料的特徵
1.3大資料相關概念
1.3.1大資料關鍵技術
1.3.2資料類型與資料管理
1.3.3資料倉庫
1.3.4資料採擷
1.4大數據視覺化
1.4.1什麼是數據視覺化
1.4.2資料視覺化的工具與方法
1.4.3數據視覺化的建模
1.4.4資料視覺化分類
1.5大資料相關工具
1.5.1Hadoop
1.5.2R語言
1.5.3Python語言
1.5.4RapidMiner
1.5.5Tableau
1.6大數據時代的新機遇
1.6.1資料價值
1.6.2應用價值
1.6.3發展前景
1.7本章小結
1.8習題

第2章大資料處理架構Hadoop
2.1Hadoop簡介
2.2Hadoop發展史及特點
2.3Hadoop體系結構
2.3.1HDFS體系結構
2.3.2MapReduce體系結構
2.4配置Linux環境
2.4.1安裝VMware12虛擬機器
2.4.2部署CentOS 64位元作業系統
2.4.3配置網路
2.4.4Linux終端
2.5Hadoop環境搭建
2.5.1JDK安裝和測試
2.5.2Hadoop安裝和配置
2.5.3SSH免密碼配置
2.6Hadoop關鍵元件
2.6.1HDFS
2.6.2HBase
2.6.3MapReduce
2.6.4Hive
2.6.5Pig
2.6.6Mahout
2.6.7ZooKeeper
2.6.8Flume
2.6.9Sqoop
2.6.10Ambari
2.7本章小結
2.8習題

第3章分散式檔案系統HDFS
3.1HDFS概念
3.1.1HDFS簡介
3.1.2HDFS相關概念
3.2HDFS體系結構
3.3HDFS檔存儲機制
3.4HDFS的資料讀寫過程
3.4.1讀數據的過程
3.4.2寫資料的過程
3.5HDFS應用實踐
3.5.1HDFS常用命令
3.5.2HDFS的Web介面
3.5.3HDFS常用Java API及應用實例
3.6本章小結
3.7習題

第4章計算系統MapReduce
4.1MapReduce概述
4.1.1MapReduce簡介
4.1.2MapReduce 資料類型與格式
4.1.3資料類型Writable介面
4.1.4Hadoop序列化與反序列化機制
4.2MapReduce架構
4.2.1數據分片
4.2.2MapReduce的集群行為
4.2.3MapReduce作業執行過程
4.3MapReduce介面類別
4.3.1MapReduce輸入的處理類
4.3.2MapReduce輸出的處理類
4.4MapReduce應用案例——單詞計數程式
4.4.1WordCount代碼分析
4.4.2WordCount處理過程
4.5本章小結
4.6習題

第5章分散式資料庫HBase
5.1初識HBase
5.1.1HBase的來源
5.1.2HBase的特點
5.1.3HBase的系統架構
5.2HBase安裝與配置
5.2.1HBase運行模式分類
5.2.2Hbase的安裝
5.2.3HBase基本API實例
5.2.4HBase Shell工具使用
5.3Hbase的存儲結構
5.3.1存儲結構中重要模組
5.3.2HBase物理存儲和邏輯視圖
5.3.3資料座標
5.4HBase的實現原理
5.4.1Hbase的讀寫流程
5.4.2表和Region
5.4.3Region的定位
5.5HBase表結構設計
5.5.1列族定義
5.5.2表設計原則
5.5.3Rowkey設計
5.6本章小結
5.7習題

第6章NoSQL資料庫
6.1NoSQL簡介
6.1.1NoSQL的含義
6.1.2NoSQL的產生
6.1.3NoSQL的特點
6.2NoSQL技術基礎
6.2.1一致性策略
6.2.2數據分區與放置策略
6.2.3資料複製與容錯技術
6.2.4資料的緩存技術
6.3NoSQL的類型
6.3.1鍵值存儲
6.3.2列存儲
6.3.3面向文檔存儲
6.3.4圖形存儲
6.4NoSQL典型工具
6.4.1Redis
6.4.2CouchDB
6.5本章小結
6.6習題

第7章集群計算Spark
7.1深入理解Spark
7.1.1Spark簡介
7.1.2Spark與Hadoop差異
7.1.3Spark的適用場景
7.1.4Spark成功案例
7.2Spark的安裝與配置
7.2.1安裝模式
7.2.2Spark的安裝
7.2.3啟動並驗證Spark
7.3Spark程式的運行模式
7.3.1Spark on Yarn-cluster
7.3.2Spark on Yarn-client
7.4Spark程式設計實踐
7.4.1啟動Spark Shell
7.4.2Spark RDD基本操作
7.4.3Spark應用程式
7.5Spark的三個典型應用案例
7.5.1詞頻數統計
7.5.2人口的平均年齡
7.5.3搜索頻率最高的K個關鍵字
7.6本章小結
7.7習題

第8章流計算Storm
8.1流計算概述
8.1.1流計算的概念
8.1.2流計算與Hadoop
8.1.3流計算框架
8.2開源流計算框架Storm
8.2.1Storm簡介
8.2.2Storm的特點
8.2.3Storm的設計思想
8.2.4Storm的框架設計
8.3即時計算處理流程
8.3.1資料即時採集和計算
8.3.2資料查詢服務
8.4典型的流引擎Spark Streaming
8.4.1Spark Streaming
8.4.2Storm和Spark Streaming框架
對比
8.5流計算的應用案例——電商
即時銷售額的監控
8.5.1技術架構
8.5.2技術實現
8.5.3項目預案
8.6本章小結
8.7習題

第9章分散式協調系統ZooKeeper
9.1ZooKeeper概述
9.1.1ZooKeeper簡介
9.1.2ZooKeeper資料模型
9.1.3ZooKeeper特徵
9.1.4ZooKeeper工作原理
9.2ZooKeeper的安裝和配置
9.2.1安裝ZooKeeper
9.2.2配置ZooKeeper
9.2.3運行ZooKeeper
9.3ZooKeeper的簡單操作及步驟
9.4ZooKeeper Shell操作
9.4.1ZooKeeper服務命令
9.4.2ZooKeeper用戶端命令
9.5ZooKeeper API操作
9.6ZooKeeper應用案例——Master選舉
9.6.1使用場景及結構
9.6.2編碼實現
9.7本章小結
9.8習題

第10章銷售資料分析系統
10.1資料獲取
10.1.1在Windows下安裝JDK
10.1.2在Windows下安裝Eclipse
10.1.3將WebCollector項目導入Eclipse
10.1.4在Windows下安裝MySQL
10.1.5連接JDBC
10.1.6運行爬蟲程式
10.2在HBase集群上準備數據
10.2.1將數據導入到MySQL
10.2.2將MySQL表中的資料導入到HBase表中
10.3安裝Phoenix仲介軟體
10.3.1Phoenix架構
10.3.2解壓安裝Phoenix
10.3.3Phoenix環境配置
10.3.4使用Phoenix
10.4基於Web的前端開發
10.4.1將Web前端項目導入Eclipse
10.4.2安裝Tomcat
10.4.3在Eclipse中配置Tomcat
10.4.4在Web流覽器中查看執行結果
10.5本章小結
10.6習題

第11章互動式資料處理
11.1數據預處理
11.1.1查看數據
11.1.2資料擴展
11.1.3數據過濾
11.1.4數據上傳
11.2創建資料倉庫
11.2.1創建資料倉庫的基本命令
11.2.2創建Hive區分表
11.3資料分析
11.3.1基本統計
11.3.2用戶行為分析
11.3.3即時資料
11.4本章小結
11.5習題

第12章協同過濾推薦系統
12.1推薦演算法概述
12.1.1基於人口統計學的推薦
12.1.2基於內容的推薦
12.1.3基於協同過濾的推薦
12.2協同過濾推薦演演算法分析
12.2.1基於用戶的協同過濾推薦
12.2.2基於物品的協同過濾推薦
12.3Spark MLlib推薦演算法應用
12.3.1ALS演算法原理
12.3.2ALS的應用設計
12.4本章小結
12.5習題
附錄課後習題答案
參考文獻

看更多

詳細資料

ISBN：9787111637974
規格：平裝 / 288頁 / 16k / 19 x 26 x 1.44 cm / 普通級 / 單色印刷 / 1-1
出版地：中國

本書分類：電腦資訊> 資料庫

主題活動

閱讀媒合所｜寫書評送25元E-Coupon

購物說明

溫馨提醒您：若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍，建議與其他商品分開下單，以避免等待時間過長，謝謝。

大陸出版品書況：因裝幀品質及貨運條件未臻完善，書況與台灣出版品落差甚大，封面老舊、出現磨痕、凹痕等均屬常態，故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外，其餘所有商品將正常出貨。

請注意，部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

調貨時間：若您購買海外庫存之商品，於您完成訂購後，商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間，建議您將簡體書與其它商品分開訂購，以利一般商品快速出貨。

若您具有法人身份為常態性且大量購書者，或有特殊作業需求，建議您可洽詢「企業採購」。

退換貨說明

會員所購買的商品均享有到貨十天的猶豫期（含例假日）。退回之商品必須於猶豫期內寄回。

辦理退換貨時，商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性，切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者，恐將影響退貨權益或需負擔部分費用。

訂購本商品前請務必詳閱商品退換貨原則。