內容簡介

本書系統介紹對抗樣本的基本原理，從相關的背景知識開始，包含搭建學習對抗樣本的軟硬體環境、常用工具，帶領讀者快速上手實踐。本書作者在安全領域有多年實踐經驗，對業界常見的方法做了系統的歸納總結，包含大量案例，深入淺出，實踐性強。

主要內容包括：·對抗樣本相關的深度學習背景知識，如梯度、優化器、反向傳遞等。·如何搭建學習對抗樣本的軟硬體環境。·對抗樣本領域的一些常見圖像處理技巧。·常見的白盒攻擊演算法與黑盒攻擊演算法。·對抗樣本在目標檢測領域的應用。·對抗樣本的常見加固演算法。·常見的對抗樣本工具以及如何搭建NIPS對抗樣本競賽環境。·如何站在巨人的肩膀上，快速生成自己的對抗樣本，進行攻防對抗。

作者介紹

兜哥，百度安全實驗室AI模型安全負責人，具有10餘年安全從業經歷，曾任百度基礎架構安全負責人、Web安全產品線負責人。主要研究方向為對抗樣本、生成對抗網路。著有AI安全暢銷書籍《Web安全之機器學習入門》《Web安全之深度學習實戰》《Web安全之強化學習與GAN》。著名開源AI安全工具箱AdvBox的作者，Free Buf、雷鋒網、安全客特邀專欄作家，知名安全自媒體「兜哥帶你學安全」主編。

序一
序二
自序
前言
第1章　深度學習基礎知識 1
1.1　深度學習的基本過程及相關概念 1
1.1.1　數據預處理 1
1.1.2　定義網路結構 2
1.1.3　定義損失函數 6
1.1.4　反向傳遞與優化器 7
1.1.5　範數 12
1.2　傳統的圖像分類演算法 13
1.3　基於CNN的圖像分類 14
1.3.1　局部連接 14
1.3.2　參數共用 15
1.3.3　池化 17
1.3.4　典型的CNN結構 18
1.3.5　AlexNet的結構 19
1.3.6　VGG的結構 19
1.3.7　ResNet50 20
1.3.8　InceptionV3 20
1.3.9　視覺化CNN 20
1.4　常見性能衡量指標 30
1.4.1　測試資料 30
1.4.2　混淆矩陣 31
1.4.3　準確率與召回率 31
1.4.4　準確度與F1-Score 32
1.4.5　ROC與AUC 33
1.5　集成學習 34
1.5.1　Boosting演算法 35
1.5.2　Bagging演算法 37
1.6　本章小結 39

第2章　打造對抗樣本工具箱 40
2.1　Anaconda 41
2.2　APT更新源 45
2.3　Python更新源 45
2.4　Jupyter notebook 45
2.5　TensorFlow 49
2.6　Keras 50
2.7　PyTorch 51
2.8　PaddlePaddle 52
2.9　AdvBox 52
2.10　GPU伺服器 52
2.11　本章小結 55

第3章　常見深度學習平臺簡介 56
3.1　張量與計算圖 56
3.2　TensorFlow 58
3.3　Keras 62
3.4　PyTorch 64
3.5　MXNet 67
3.6　使用預訓練模型 70
3.7　本章小結 76

第4章　影像處理基礎知識 77
4.1　圖像格式 77
4.1.1　通道數與圖元深度 77
4.1.2　BMP格式 80
4.1.3　JPEG格式 81
4.1.4　GIF格式 81
4.1.5　PNG格式 81
4.2　圖像轉換 81
4.2.1　仿射變換 81
4.2.2　圖像縮放 83
4.2.3　圖像旋轉 85
4.2.4　圖像平移 85
4.2.5　圖像剪切 86
4.2.6　圖像翻轉 87
4.2.7　亮度與對比度 88
4.3　圖像去噪 89
4.3.1　高斯雜訊和椒鹽雜訊 90
4.3.2　中值濾波 91
4.3.3　均值濾波 93
4.3.4　高斯濾波 93
4.3.5　高斯雙邊濾波 94
4.4　本章小結 96

第5章　白盒攻擊演算法 97
5.1　對抗樣本的基本原理 97
5.2　基於優化的對抗樣本生成演算法 100
5.2.1　使用PyTorch生成對抗樣本 102
5.2.5　使用TensorFlow生成對抗樣本 106
5.3　基於梯度的對抗樣本生成演算法 109
5.4　FGM/FGSM演算法 110
5.4.1　FGM/FGSM基本原理 110
5.4.2　使用PyTorch實現FGM 111
5.4.3　使用TensorFlow實現FGM 112
5.5　DeepFool演算法 115
5.5.1　DeepFool基本原理 115
5.5.2　使用PyTorch實現DeepFool 117
5.5.3　使用TensorFlow實現DeepFool 122
5.6　JSMA演算法 124
5.6.1　JSMA基本原理 124
5.6.2　使用PyTorch實現JSMA 126

看更多

序

生活中的深度學習
深度學習自2006年產生之後就受到科研機構、工業界的高度關注。最初，深度學習主要用於圖像和語音領域。從2011年開始，穀歌研究院和微軟研究院的研究人員先後將深度學習應用到語音辨識，使識別錯誤率下降了20%～30%。2012年6月，穀歌首席架構師Jeff Dean和斯坦福大學教授Andrew Ng主導著名的Google Brain項目，採用16萬個CPU來構建一個深層神經網路，並將其應用於圖像和語音的識別，最終大獲成功。

2016年3月，AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰，以4比1的總比分獲勝；2016年年末2017年年初，該程序在中國棋類網站上以“大師”（Master）為註冊帳號與中日韓數十位圍棋高手進行快棋對決，連續60局無一敗績；2017年5月，在中國烏鎮圍棋峰會上，它與排名世界第一的圍棋世界冠軍柯潔對戰，以3比0的總比分獲勝。AlphaGo的成功更是把深度學習的熱潮推向了全球，成為男女老少茶餘飯後關注的熱點話題。

現在，深度學習已經遍地開花，在方方面面影響和改變著人們的生活，比較典型的應用包括智慧家居、智慧駕駛、人臉支付和智慧安防。

深度學習的脆弱性

深度學習作為一個非常複雜的軟體系統，同樣會面對各種駭客攻擊。駭客通過攻擊深度學習系統，也可以威脅到財產安全、個人隱私、交通安全和公共安全（見圖0-1）。針對深度學習系統的攻擊，通常包括以下幾種。

1. 偷取模型
各大公司通過高薪聘請AI專家設計模型，花費大量資金、人力搜集訓練資料，又花費大量資金購買GPU設備用於訓練模型，最後得到深度學習模型。深度學習模型的最終形式也就是從幾百KB到幾百MB不等的一個模型檔。深度學習模型對外提供服務的形式也主要分為雲模式的API，或者私有部署到使用者的移動設備或資料中心的伺服器上。針對雲模式的API，駭客通過一定的遍歷演算法，在調用雲模式的API後，可以在本地還原出一個與原始模型功能相同或者類似的模型；針對私有部署到使用者的移動設備或資料中心的伺服器上，駭客通過逆向等傳統安全技術，可以把模型檔直接還原出來供其使用。偷取深度學習模型的過程如圖 0-2所示。

2. 數據投毒
針對深度學習的資料投毒主要是指向深度學習的訓練樣本中加入異常資料，導致模型在遇到某些條件時會產生分類錯誤。如圖0-3所示。早期的資料投毒都存在於實驗室環境，假設可以通過在離線訓練資料中添加精心構造的異常資料進行攻擊。這一攻擊方式需要接觸到模型的訓練資料，而在實際環境中，絕大多數情況都是公司內部在離線資料中訓練好模型再打包對外發佈服務，攻擊者難以接觸到訓練資料，攻擊難以發生。於是攻擊者把重點放到了線上學習的場景，即模型是利用線上的資料，幾乎是即時學習的，比較典型的場景就是推薦系統。推薦系統會結合使用者的歷史資料以及即時的訪問資料，共同進行學習和判斷，最終得到推薦結果。駭客正是利用這一可以接觸到訓練資料的機會，通過一定的演算法策略，發起訪問行為，最終導致推薦系統產生錯誤。

3. 對抗樣本
對抗樣本由Christian Szegedy等人提出，是指在資料集中通過故意添加細微的干擾所形成的輸入樣本，這種樣本導致模型以高置信度給出一個錯誤的輸出。在正則化背景下，通過對抗訓練減少原有獨立同分佈的測試集的錯誤率，在對抗擾動的訓練集樣本上訓練網路。

簡單地講，對抗樣本通過在原始資料上疊加精心構造的人類難以察覺的擾動，使深度學習模型產生分類錯誤。以圖像分類模型為例，如圖0-4所示，通過在原始圖像上疊加擾動，對於肉眼來說，擾動非常細微，圖像看起來還是熊貓，但是圖像分類模型卻會以很大的概率識別為長臂猿。

下面以一個圖像分類模型為例，更加直接地解釋對抗樣本的基本原理。通過在訓練樣本上學習，學到一個分割平面，在分割平面一側的為綠球，在分割平面另外一側的為紅球。生成攻擊樣本的過程，就是在資料上添加一定的擾動，讓其跨越分割平面，從而把分割平面一側的紅球識別為綠球，如圖0-5所示。

對抗樣本按照攻擊後的效果分為Targeted Attack（定性攻擊）和Non-Targeted Attack（無定向攻擊）。區別在於Targeted Attack在攻擊前會設置攻擊的目標，比如把紅球識別為綠球，或者把麵包識別為熊貓，也就是說在攻擊後的效果是確定的；Non-Targeted Attack在攻擊前不用設置攻擊目標，只要攻擊後，識別的結果發生改變即可，可能會把麵包識別為熊貓，也可能識別為小豬佩琪或者小豬喬治，如圖0-6所示。

對抗樣本按照攻擊成本分為White-Box Attack（白盒攻擊）、Black-Box Attack（黑盒攻擊）和Real-World Attack/Physical Attack（真實世界/物理攻擊）。

White-Box Attack（見圖0-7）是其中攻擊難度最低的一種，前提是能夠完整獲取模型的結構，包括模型的組成以及隔層的參數情況，並且可以完整控制模型的輸入，對輸入的控制細微性甚至可以到比特級別。由於White-Box Attack前置條件過於苛刻，通常作為實驗室的學術研究或者作為發起Black-Box Attack和Real-World Attack/Physical Attack的基礎。
Black-Box Attack相對White-Box Attack攻擊難度具有很大提高，Black-Box Attack完全把被攻擊模型當成一個黑盒，對模型的結構沒有瞭解，只能控制輸入，通過比對輸入和輸出的回饋來進行下一步攻擊，見圖0-8。
Real-World Attack/Physical Attack（見圖0-9）是這三種攻擊中難度最大的，除了不瞭解模型的結構，甚至對於輸入的控制也很弱。以攻擊圖像分類模型為例（見圖0-10），生成的攻擊樣本要通過相機或者攝像頭採集，然後經過一系列未知的預處理後再輸入模型進行預測。攻擊中對抗樣本會發生縮放、扭轉、光照變化、旋轉等。

常見檢測和加固方法
1. 深度學習脆弱性檢測
檢測深度學習脆弱性的過程，其實就是發起攻擊的過程，常見的白盒攻擊演算法列舉如下。
ILCM(最相似反覆運算演算法)
FGSM(快速梯度演算法)
BIM(基礎反覆運算演算法)
JSMA(顯著圖攻擊演算法)
DeepFool(DeepFool演算法)
C/W(C/W演算法)
常見的黑盒攻擊方法列舉如下。
Single Pixel Attack(單圖元攻擊)
Local Search Attack(本地搜索攻擊)
2. 深度學習脆弱性加固
針對深度學習脆弱性進行加固的常見方法主要包括以下幾種，我們將重點介紹Adversarial training。
Feature squeezing(特徵凝結)
Spatial smoothing(空間平滑)
Label smoothing(標籤平滑)
Adversarial training(對抗訓練)
Virtual adversarial training (虛擬對抗訓練)
Gaussian data augmentation (高斯資料增強)
Adversarial training如圖0-11所示，其基本思路是，常見的對抗樣本生成演算法是已知的，訓練資料集也是已知的，那麼可以通過常見的一些對抗樣本工具箱，比如 AdvBox 或者FoolBox，在訓練資料的基礎上生成對應的對抗樣本，然後讓深度學習模型重新學習，讓它認識這些常見的對抗樣本，這樣新生成的深度學習模型就具有了一定的識別對抗樣本的能力。
與Adversarial training思路類似的是Gaussian data augmentation。Gaussian data augmentation的基本原理是，對抗樣本是在原始資料上疊加一定的擾動，這些擾動非常接近隨機的一些雜訊。Adversarial training雖然簡單易於實現，但是技術上難以窮盡所有的攻擊樣本。Gaussian data augmentation直接在原始資料上疊加高斯雜訊，如圖0-12所示，k為高斯雜訊的係數，係數越大，高斯雜訊越強，其他參數分別表示高斯雜訊的均值和標準差。Gaussian data augmentation把訓練資料疊加了雜訊後，重新輸入給深度學習模型學習，通過增加訓練輪數、調整參數甚至增加模型層數，在不降低原有模型準確度的情況下，讓新生成的深度學習模型具有了一定的識別對抗樣本的能力。

對抗樣本領域的最新進展
對抗樣本是AI安全研究的一個熱點，新的攻擊演算法和加固方法層出不窮，而且攻擊場景也從實驗室中的簡單圖像分類，迅速擴展到智慧音箱、無人駕駛等領域。百度安全實驗室的最新研究報告《感知欺騙：基於深度神經網路（DNN）下物理性對抗攻擊與策略》成功入選BlackHat Europe 2018。報告展現了讓物體在深度學習系統的“眼”中憑空消失，在AI時代重現了大衛·科波菲爾的經典魔法。針對深度學習模型漏洞進行物理攻擊可行性研究有著廣泛的應用前景，在自動駕駛領域、智慧安防領域、物品自動鑒定領域都有重要的實際意義。

如圖0-13所示，在時間t0的時候，當在車後顯示器中顯示正常logo時，YOLOv3可以正確識別目標車輛，而在t1時，切換到擾動後的圖片時，它可以立刻讓目標車輛在YOLOv3面前變得無法辨識；在t2時，如圖0-14所示切換回正常的圖片，YOLOv3重新可以識別目標車輛。這是首次針對車輛的物理攻擊的成功展示，與以往的學術論文相比，在攻擊目標的大小、解析度的高低以及物理環境的複雜性等方面，在影響和難度上都是一個巨大提升。

Kan Yuan和Di Tang等人在論文《Stealthy Porn: Understanding Real-World Adversarial Images for Illicit Online Promotion》中介紹了黑產如何通過單色化、加雜訊、增加文字、仿射變化、濾波模糊化和遮蓋等方式讓違規圖片繞過目前主流的圖片內容檢測服務。這也標誌著對抗樣本技術已經從實驗室環境真正進入了網路對抗實戰。

國內安全人員在對抗樣本領域的研究成果得到了國際的普遍認可。朱軍等人指導的清華大學團隊曾在NIPS 2017對抗樣本攻防競賽中奪冠，紀守領老師所在的 NESA Lab提出了一種新型的對抗性驗證碼，能防範來自打碼平臺等黑產的破解。

看更多