2013年6月5日 星期三

大數據



汽車烤漆的顏色能告訴你,這輛二手車的故障率高低嗎?市政府要怎樣清查,才能迅速找出有致命危險的人孔蓋?從谷歌的搜尋字眼,怎麼預測流感疫情的蔓延?要回答這些問題,關鍵就在於巨量資料(俗稱大數據)。

「巨量資料分析」是一門新興科技,能夠解讀和預測無數的現象,包括預測機票的價格、好萊塢新片的票房、你家裡的青少年是否未婚懷孕!也能協助診斷早產兒的健康情況,探查收入高低與幸福快樂的相關程度,幫忙規劃快遞的送貨路線、電動車的充電站應該設置在哪裡,還能用來發展自動導航的無人駕駛汽車、以及「從駕駛人的臀部形態判斷是否為車主」的防盜系統,也能夠快速進行多種語文的互譯……

過去認為資料是靜態、靜止的,一旦完成原本蒐集的目的(例如飛機已降落、或谷歌完成了一次搜尋),便不再有用處。但現在,資料是新的商業生產原料、重要的經濟資源投入,可以創造出新形式的經濟價值。如果心態正確,就能巧妙重複運用資料,不斷帶來創新和不同的服務。只要夠謙卑、有意願、也有工具傾聽,資料就能讓種種祕密躍然眼前。 

如果想知道現在這場資訊革命已經發展到什麼地步,你可以從整體社會的觀點出發。我們的數位宇宙正在不斷擴張。以天文學來舉例,史隆數位巡天計畫(Sloan Digital Sky Survey, SDSS)始於2000年,計畫用的望遠鏡位於美國新墨西哥州,計畫開始不過幾星期,所蒐集的資料量就已超過了過去所有天文學歷史的總和。到了2010年,這個計畫蒐集的資訊已經堂堂超越140TB1 terabyte約等於1,000 gigabyte)。但是接檔的新計畫——位於智利、2016年上線的「大型綜合巡天望遠鏡」(Large Synoptic Survey Telescope, LSST),只要五天,就會得到這個資料量。 

這種天文數字,讓人也覺得負擔沉重。2003年,科學家首次破解人類基因組密碼,當時足足花了十年時間全力投入,才完成三十億個鹼基對(base pair)的定序。而在十年後的今天,單一機構只要花上一天,就能完成同樣數量的DNA定序。 

就金融領域而言,美國股市每天大約會成交七十億股,其中有大約三分之二,是由電腦用數學模型分析大量資料後自動交易,一方面預測獲利、一方面也試著降低風險。 

網路公司特別會碰上這種問題。像是谷歌,每天就得處理超過24 PB的資料(1 petabyte大約等於1,000 terabyte),是美國國會圖書館所有紙本資料量的數千倍。臉書(Facebook)這家十年前還不存在的公司,現在使用者每小時就會上傳超過一千萬張新照片。每天,臉書所有使用者會按「讚」或留言超過三十億次,從這些使用紀錄,就能讓臉書追蹤使用者的喜好。 

同時,谷歌旗下的YouTube服務也有八億名用戶,每秒上傳的影片總長度超過一小時。至於推特(Twitter)的訊息量也以每年200%的速度成長,到了2012年,已經突破每天四億則。 

從科學到醫療保健、從銀行到網路,涵蓋的行業各式各樣,但講的是同一件事:世界上的資料量正在迅速增長,不僅超過機器能處理的量,甚至超過我們的想像。 

有很多人希望,能把全世界的資訊量定出個明確的數字,好計算成長的速度。由於每個人看的面向不同,得到的數字也各異其趣。其中一項比較全面的研究,出自南加大安納堡傳播學院的希爾伯特(Martin Hilbert)教授。希爾伯特教授希望能把世界上所製造、儲存和流通的一切資料都定出數字,不只是書籍、繪畫、電子郵件、照片、音樂、影片(類比和數位),甚至連電玩、電話、汽車導航、紙本信件,也都包含在內;另外,還依據閱聽眾接觸率,計入了各種廣播媒體,例如電視和電台。 

在未來(而且可能比想像要早得多),許多現在依靠人腦判斷的事務,都將由電腦取代,而且不只是開車或配對,更複雜的任務也可迎刃而解。畢竟,亞馬遜(Amazon)已經能夠推薦你最想要的書,谷歌也能夠排序出最相關的網站,臉書知道我們按了什麼讚,LinkedIn則能夠猜出我們認識什麼人。同樣的科技,也將應用到診斷疾病、建議療法,甚至是在罪犯犯罪之前,就先將他們逮出來。 網路讓電腦有了「溝通」的功能,進而徹底改變了世界;巨量資料也將為人類生活帶來前所未有的量化面向,進而使生活全然改觀。

兩位最頂尖的大數據專家,真正掌握到巨量資料思維的精髓,在這本書裡,清晰曉暢的解釋了巨量資料是什麼,它將如何改變我們的生活,對經濟、社會和科學會帶來什麼影響,我們又能夠做些什麼,趕搭上這波新潮流,同時也懂得保護自己,避免個人資料和隱私受到侵害。


以上摘自《大數據》