讀書日
內容連載 頁數 1/4
1-1 何謂大數據
 
大數據 (Big Data) 一詞最早出現在 2012 年 Viktor Mayer-Schönberger&Kenneth Cukier 兩位的著作《大數據時代:生活、工作與思維的大變革》當中,書裡提到所謂大數據指的是 4V 數據特性,包含數量龐大 (volume)、產生速度快 (velocity)、形式多樣 (variety) 且具有價值 (value) 的資料。茲將此四大特性說明如下:
 
數量龐大 (volume)
 
Volume 原意為一個有形物體或容器內的空間容量,例如:某一輛汽車的油箱容量為 60 公升,若能夠將油箱擴大,那麼就可以存放更多的汽油來延長汽車續航力。在大數據世界裡,volume 卻屬於一個抽象概念,好比一個沒有刻度的量杯一樣,並無具體資料容量上限。試想,在這個世界上有幾個網站呢?而在這龐大網站量中流竄的全球網路流量又有多少呢?答案想必是非常驚人!在大數據裡,volume 其實就是指數量龐大的網路資料。
 
以傳統電子商務時代而言,或許網路資料僅局限於來自網站的流量,然而近年來受惠於行動網路普及,由行動裝置所產生的網路流量不約而同的加入貢獻 volume 的行列,甚至是近年流行的物聯網也不例外,在萬物皆可連網情況下,儼然扮演額外的網路流量供應者,因此我們也可以把大數據的數量龐大(volume) 特性視為「浩瀚網路容器中的無垠數據」。再舉一個生活中常見的龐大數量 (volume) 案例,大家平常在使用手機上網的時候可能會遇到一種情況,那就是上網流量超過電信業者合約中的限額。以 1G 流量限額來說,若將流量使用完畢,等同於自己在智慧型手機上閱讀了上千本電子書的內容,然而實際上的流量限額不只有 1G,甚至有不少人是使用吃到飽方案,那麼在沒有限制的情境下比喻成電子書閱讀數量恐怕更難以計算。
 
產生速度快 (velocity)
 
大數據的產生可以說是一年三百六十五天、一天二十四小時不斷的發生著。若以資料在網上流動的速度而言,不妨試著想想看在簡單的 LINE 對話過程裡 (傳訊方是上傳、收訊方是下載),自己一天當中發生過幾次一來一往的傳送與接收訊息呢?如果將此單一個人每天傳訊的流動頻率放眼至全世界的LINE 用戶的話,LINE 公司的伺服器主機一天當中又得服務多少用戶傳送與接收訊息需求呢?然而這只是眾多大數據資料流動的一個小案例,在人們日常生活中,只要所從事的活動涉及到網路,就等同於隨時產生資料流動,也就是達到資料即時性 (real-time)。
41 2 3 4 下一頁 跳到