fyi: 資料分析十年來的改變與不變
Published by 劉正山,
資料分析十年來的改變與不變
- 數位版文章
- |
- 2017/7/14

我在修訂以資料與策略為主題的著作時學到的事。
十年前,我和珍妮.哈瑞斯(Jeanne Harris)合著《靠分析取勝》(Competing on Analytics: The New Science of Winning, HBP, 2007,繁體中文版書名為《魔鬼都在數據裡》),最近,我們才剛完成本書的更新,預訂於9月出版。我們決定著手修訂的一個主因,是分析技術在過去十年有了重大變化,我們書中探討那些主題的章節早已大幅過時。因此,修訂這本書,讓我們有機會了解過去十年資料分析的變化。
當然,不是一切都改變了,有一些十年前就有的技術目前仍廣泛使用,我在本文也會說明這些技術。在分析領導力、變革管理與文化方面,情況一直變得更加穩定,而在很多情況下,這些依然是最棘手的問題。但本文要談的是技術。以下簡短總結過去十年的變化。
當然,過去十年是大數據的時代。新的資料來源,像是網路點擊流,需要有建置在組織內部和雲端的各種新的硬體產品,主要是分散式運算(也就是橫跨多個標準型伺服器的分析計算),或是專門的資料裝置。這類機器通常分析「儲存在記憶體」的資料,這可以大幅縮短回答時間。雲端分析讓組織能以低廉的價格,取得在短期內使用的大量運算能力。即使小型企業也可以這麼做,而大型企業對這類工具的運用,已不再局限於大數據,也用於傳統小型、結構化的資料。
伴隨硬體的進步,需要用新的方式來儲存與處理大數據,因而促進產生一整套開放原始碼軟體,像是Hadoop,以及腳本語言(scripting language)。Hadoop用來儲存大數據,並進行基本的處理;通常類似的資料量,Hadoop會比資料倉庫便宜許多。今日,很多組織都運用Hadoop的數據湖(data lake),把各種不同類型的數據以它們原本的格式儲存在裡面,直到需要進行結構化與分析為止。
很多大數據較缺乏結構,因此,資料科學家透過新的(與舊的)腳本語言,像是Pig、Hive和Python,來創造各種方法,把大數據結構化,以便進行統計分析。更專門的開放原始碼工具,像是用於串流數據的Spark,以及用於統計數據的R,也受到廣泛使用。對根基穩固的企業來說,取得和使用開放原始碼軟體本身,就是個重大改變。
我到目前為止提到的分析技術,基本上是獨立於其他類型的系統,但今日有很多組織,希望且必須把資料分析整合到本身的生產應用上。例如,它們可能利用顧客關係管理系統的數據,來評估顧客終身價值,或是基於供應鏈系統裡的現有庫存資料,來進行最適定價。為了整合這些系統,採用以元件為基礎或「微服務」(microservice)方法的分析技術,會很有幫助。這就是把一小部分編碼或應用程式介面請求執行(API call),內建在系統中,以提供小量、內含的分析結果;開放原始碼軟體已強化了這個趨勢。
這種內建的做法,現在用來促進「邊緣分析」或「串流分析」。例如,在公司內部的微處理器上運作的小型分析程式,能分析傳送自一座油井鑽頭感測器的數據,告訴鑽頭該加速或減速。隨著物聯網數據在許多產業都變得相當普及,分析靠近資料來源的數據會變得愈來愈重要,特別是在偏遠地區,通訊設備落後恐怕會妨礙數據集中處理。
分析技術整體情況的另一個關鍵變化,與自主分析(autonomous analytics)有關,這是人工智慧或認知技術的一種形式。過去,資料分析是為人類決策者做的,決策者考量分析結果之後,做出最後決定。但現在機器學習技術可以進行下一步,實際做出決定,或是採取建議的行動。大多數的認知技術都是以統計為核心基礎,它們可大幅改善資料分析的生產力與效能。
當然,如同以往資訊科技中常見的情況,先前的分析科技沒有完全消失,畢竟,大型主機電腦仍在許多公司內運轉著。企業仍使用統計套裝軟體、試算表、資料倉庫和資料超市、視覺化分析法和商業智慧工具。大多數大型組織正開始探索開放原始碼軟體,但它們也依然使用大量的專有分析工具。
例如,取得專門的分析解決方案,像是銀行用的反洗錢分析,比自己用開放原始碼軟體打造解決方案更容易。在資料儲存方面,也有類似的開放軟體與專利軟體的結合。以行列組成的結構化資料需要安全與存取權限的控管,依然能保留在資料倉庫裡,而未結構化/預先結構化的資料則儲存在數據湖。當然,開放原始碼軟體是免費的,但是,能使用開放原始碼工具的人,可能比能使用專有技術的人還要貴。
分析技術的變化始終快速而廣博。當前的分析技術顯然比前一世代的技術更強大、更便宜,它讓企業能儲存與分析更多資料,以及許多不同類型的資料。分析和建議更快產出,在很多情況下趨近於即時產出。簡單來說,分析技術全面提升。
然而,這些新的工具也更複雜,在很多情況下,需要更高程度的專業知識才能使用。過去十年,數據資料分析的重要性持續提高,組織為追求卓越而必須投注在資料分析的心力,也跟著提高。有這麼多企業已理解到,資料分析對公司的成功極為重要,因此,企業有了新科技,不見得就更容易成為資料分析競爭者,並保持這個地位。使用最先進的分析技術,是成功的先決條件,但這些技術普遍容易取得,因此強化了非技術因素的重要性,例如分析領導力、文化和策略等。(劉純佑譯)

美國貝伯森學院(Babson College)管理與資訊科技特聘教授、麻省理工學院數位經濟計畫(MIT Initiative on the Digital Economy)研究員、德勤分析(Deloitte Analytics)資深顧問。他著有十餘本管理書籍,最新著作為《下一個工作在這裡》(Only Humans Need Apply: Winners and Losers in the Age of Smart Machines)。