這是一本系統剖析Greenplum開源大數據平台的書籍,也是大數據戰略制定與落地的實戰型指導書!本書圍繞數字原生和雲計算、大數據、人工智慧驅動的企業數字化轉型的核心訴求,從商業和技術實戰視角分享了業界領先企業大數據戰略的深刻思考,並提供了大數據戰略從制定到落地的全面指導。既有高階數字化戰略高度對大數據的解讀,又有技術實戰角度對使用Greenplum大數據和機器學習平台實現大數據戰略的實踐指南。本書作者來自Greenplum核心研發團隊,致力於以開源、開放的理念和先進的技術推進大數據產業生態,助力企業以更低的成本、更高的效率實現數字化轉型,並基於Greenplum開源社區培養大數據產業更多人才。
本書分為四個部分。第一部分介紹大數據戰略。其中,第1章將分享作者對於人工智慧、大數據和雲計算之間關係的理解以及對人和人工智慧的思考。第2章將介紹進取型企業為什麼需要大數據戰略以及如何建立大數據戰略。第二部分介紹大數據平台。其中,第3章將以數據平台演進歷史和未來趨勢為主題,描述三次整合的背景及影響,介紹選擇大數據平台需要考慮的因素,以及為什麼Greenplum是理想的大數據平台。第4章將介紹Greenplum資料庫快速入門指南。第5章將介紹Greenplum架構的主要特點和核心引擎。第6章將介紹數據載入、數據聯邦和數據虛擬化。第7章將介紹Greenplum的資源管理以及對混合負載的支持。第三部分介紹機器學習。其中,第8章介紹Greenplum的各種過程化編程語言(用戶自定義函數),用戶可以使用Python、R、Java等實現用戶自定義函數,還可以通過容器化技術實現自定義函數的安全性和隔離性。第9章將介紹Greenplum內建的機器學習庫MADlib,數據科學家可以使用內建的50多種機器學習演算法用SQL對數據進行高級分析,並介紹如何擴展MADlib以實現新演算法。第10章和第11章將分別介紹Greenplum如何對文本數據和時空數據(GIS)進行存儲、計算和分析。第12章將介紹Greenplum豐富的圖計算能力。第四部分介紹運維管理和數據遷移。其中,第13章會介紹各種監控和管理工具及相關企業級產品。第14章介紹資料庫備份和恢復。第15章和第16章將分別介紹如何從Oracle和Teradta遷移到Greenplum。
馮雷(RayFeng),Pivotal中國常務董事(ManagingDirector)兼研發中心總經理。Pivotal中國成立至今,馮雷主持了近十億人民幣投資的中國運營和研發體系。作為Pivotal全球產品關鍵領導人,為Pivotal公司的數字化理念建立及其對應的CloudFoundry和Greenplum產品提供戰略輸入。馮雷于2010年從美國矽谷歸國,在世界500強公司EMC旗下組建了Pivotal中國。在歸國之前,馮雷曾在500強企業甲骨文(Oracle)總部從事雲計算產品研發。作為雲計算最早的一批從業人員,幫助甲骨文雲計算資源調度領域成為意見領袖。擁有多項雲計算專利。姚延棟,Pivotal中國研發中心副總裁,在Pivotal公司全球範圍內為Greenplum技術發展路線提供戰略輸入。聯合創建了Pivotal中國研發中心,發起了Greenplum中國開源社區,奠定了包括阿里雲、騰訊雲和百度雲在內的廣大開源Greenplum用戶群。在Pivotal中國招募並建設了Greenplum和HAWQ團隊成為大數據和機器學習的意見領袖,培養團隊成員同時成為Apache和Greenplum代碼提交者。在創建Greenplum/Pivotal中國之前,曾在SunMicrosystem與Symantec系統和存儲部門工作多年。擁有多項國內外雲計算和大數據專利。高小明,Pivotal中國研發中心Greenplum產品總監,先後參與和負責數據分析協作平台Chorus、開源PaaS雲平台CloudFoundry、MPP資料庫Greenplum等產品的開發、運維和技術推廣。目前著重關注PaaS雲平台與大數據平台支撐下的數字化轉型、微服務架構以及容器化與混合負載給數據產品帶來的機遇和挑戰。楊瑜,Pivotal中國研發中心Greenplum工程技術總監,長期從事Greenplum內核的研發和管理工作,先後參與和負責基於Greenplum內核的機器學習庫MADlib的研發、Greenplum內核和PostgreSQL內核持續歸併等工作,並參與組建Greenplum文本挖掘引擎GPText團隊,有豐富的一線內核研發經驗。