「失控的大數據」節錄與評語

失控的大數據:當企業比你更了解你,該如何保護自己和口袋裡的錢?
http://www.books.com.tw/products/0010694854

p. 265
就實務而言,數據資料科學家發現自己花費大部分的時間「清洗」資料集,以利未來今析/重複、錯誤且虛假的數據資料會被刪除或訂正,並完成吃力不討好的格式統一工作。這種做法帶有強烈的諷刺意味,就數據資料科學當前進展而言,為了要善用分析機器令人讚嘆的能力,大量前置工作仍得靠手工完成。緊鑼密鼓的努力有其必要,其中涉及工匠般的細膩技巧。最優秀的數據資料科學家本質上仍是工匠和藝術家。

還有一個更根本的問題。數據資料畢竟是過去的紀錄,即使是即時同步的數據資料,至少也得瞬間發生才能被察覺、記錄。仔細觀察任何歷史紀錄可以導出重要的見解,或者是另一種常見的情況,即是誤解。正如統計學家所說,相關性並非因果關係,後者是我們渴望的深層知識,實際上卻是棘手的主題。

大數據自有基本限制。預測未未來事件很困難,因為還沒發生的事就不不會產生數據資料,所以無法被研究。歷史紀錄提供大量預測未來事件的資源,但並沒有完美可行之道。新現象具有此起彼伏的慣性,研究過去也無法預料未來。



我的評論:
這幾段寫的很好,對大數據這一行從業人員本質的描述可以說單刀直入。當前不是很多人有這個膽敢大聲說出來這一點。

社科終究不是,也不必投入訓練這類走技術面的大數據資料科學家,而是要訓練富有探索因果關係的興趣或至少是能問出紮實問題的厚資料科學家。現今的方法教育需要針對此作出微調,但社會上似乎還未重視「誰能補足大數據科學家視野限制」的這個問題。放眼現在似乎有很多人在鼓吹大數據,競相討好產業,鼓勵學子一股腦的搶著服侍以高薪誘人,但實際上在榨取人民所剩無幾的隱私的企業。大學的角色、使命及學生的視野便會很快被扭曲。

就我來看,不是人人都需要從事這種拿資料預測未來的行業,但大多數人需要的是跳離工匠思維、看出資料背後(正確)意義的能耐與訓練。



p.267
不過,若是認為大數據的種種限制也會限縮它的最終影響層面,那就太天真了。數據資料有趣的特性之一就是,隨著數量增加,由此衍生而出的知識會增加得更快。我們或許無法解釋萬有引力或為何消費者要買牙膏,但當我們用電子方式監看幾百萬顆蘋果即時同步掉下來,或幾百萬名消費者買牙膏,就會得到超越一般人力觀察的深度知識。把每一管牙膏放進事件背景裡,在數據資料世界裡選一王個特定地點與時間,由於這裡以全觀視角記錄每一件存在或正在發生的事,所以會反映出非常深刻的見解。如果有充分的數據資料和運算能力,因果關係的奧祕會變成純粹的統計問題,時間一久就能迎刃而解。

尤有甚者,科技穩步改進。隨著越來越多的數據資料可供選擇、更多運算資源可以取得,過往無法得到的答案終將唾手可得。如果當前趨勢繼續發展,數據資料龍頭從自身正在蒐集的數據資料中獲取額外知識,僅是時間早晚的問題。


我的評論:
這兩段寫得又太大頭症了。看到大量的數據就會產生新的知識?也許,但作者把話說得太滿。若知識是探索來的,那麼所謂大數據就只是個知識產出的最前階段,也就是透過觀察發現問題的階段。若是說知識的生產只能透過這個方法,或是數據持續累積之知識就能讓因果關係成為「純粹的統計問題」,那真是太天真了。