FYI: 揭開資料科學家的神祕面紗


揭開資料科學家的神祕面紗

What Data Scientists Really Do, According to 35 Data Scientists
雨果.邦尼–安德森 Hugo Bowne-Anderson
瀏覽人數:281
35位資料科學家告訴你,他們的工作可不只是「深度學習」而已。

現代資料科學崛起於科技產業,從優化Google搜尋排名和LinkedIn建議,到影響Buzzfeed編輯的頭條新聞,都包括在內。但現在,資料科學可能會改變所有產業,從零售、電信、農業,到健康、貨運和司法懲罰制度。然而,「資料科學」和「資料科學家」這些詞,有時不是很容易理解,而且被用來描述很廣泛的資料相關工作。

資料科學家到底做些什麼?我身為資料科學課程網站DataCamp的播客DataFramed主持人,有幸和超過三十位資料科學家交流,他們分屬眾多不同產業和學門。我曾詢問他們許多問題,其中也包括他們的工作內容。

資料科學確實是很多樣化的領域。我訪談過的資料科學家,從許多不同的角度來進行我們的談話。他們描述了各式各樣的工作,包括:為Booking.com和Etsy的產品開發,而制定大規模網路實驗架構;為Buzzfeed優化標題的多臂式吃角子老虎機式的問題(multi-armed bandit;編按:指分配有限資源以便在多個選項當中創造最大預期效益),規畫一些方法來找出解決方案;探究機器學習對於Airbnb的商業決策有什麼影響。最後一個例子,是我訪談Airbnb資料科學家羅伯.張(Robert Chang,音譯)時談到的。羅伯.張先前在推特(Twitter)任職時,公司專注於成長。目前他在Airbnb的工作,是讓機器學習模型產品化(productionized)。資料科學的運用方式五花八門,不只取決於產業,也和公司業務及目標有關。

儘管存在這些差異,這些談話中仍出現許多共同的主題,包括:

資料科學家做些什麼

現在我們已知道資料科學怎麼運作,至少我們知道科技產業的情況。第一,資料科學家奠定扎實的資料基礎,以便執行可靠的分析。第二,他們運用線上實驗和其他方法,來實現可持續的成長。第三,他們建立機器學習的工作流(pipeline),以及個人化的資料產品,以便更深入了解自己的業務和顧客,以及做出更好的決策。換句話說,在科技業,資料科學包含基礎設施、測試、用來決策的機器學習,以及資料產品。

在科技以外的產業,正在取得重大進展

我和運輸公司Convoy的資料科學家班.斯克林卡(Ben Skrainka),談到該公司如何利用資料科學,徹底改革北美卡車運輸業。Flatiron Health的珊迪.葛利菲(Sandy Griffith)告訴我們,資料科學開始對癌症研究造成的影響。我和德魯.康維(Drew Conway)討論他的公司Alluvium「運用機器學習和人工智慧,把工業營運作業產生的大量資料流,轉化為深入的見解。」現任優步(Uber)自駕車主管的麥可.塔米爾(Mike Tamir),討論如何與Takt公司合作以促進《財星》五百大企業善用資料科學,包括他在星巴克(Starbucks)推薦系統方面的工作。這份未盡完善的清單,說明資料科學革命正襲捲眾多不同的層面。

產出的不只是自駕車和人工智慧而已

我的許多受訪者,對於主流媒體對人工智慧的盲目崇拜,都抱持懷疑的態度,例如,科技媒體VentureBeat的標題「2042年將出現一個人工智慧上帝,它將編寫自己的聖經。你會信仰它嗎?」;而對於有關機器學習和深度學習的熱門話題,那些受訪者同樣感到懷疑。當然,機器學習和深度學習是強大的技術,也有重要的應用,但就像面對所有的最新熱門話題一樣,對它們也會有健康的懷疑。幾乎我所有的受訪者都明白,資料科學家賴以維生的工作內容包括:資料收集和清理、建立儀表板和報告、資料視覺化、統計推斷、把結果傳達給主要利害關係人、說服決策者相信他們資料工作的結果。

資料科學家需要的技能正持續演變(深度學習經驗不是最重要的)

我採訪喬納森.諾利斯(Jonathan Nolis)的時候,提出一個問題,「對資料科學家來說,哪種技能更重要:使用最複雜的深度學習模型的能力,或是製作好的PowerPoint投影片的能力?」諾利斯是美國西雅圖地區的一位資料科學領導人,服務對象為《財星》五百大企業。他提出好理由認為後者較重要,因為溝通傳達工作結果,仍然是資料工作中的關鍵部分。

另一個一再出現的主題是,今日必備的這些技能,可能會在相當短的時間內發生變化。我們看到兩種工具都有快速的發展,一種是可用來進行資料科學工作的開放原始碼工具生態系統,另一個是商業化、產品化的資料科學工具;同時我們也看到,許多辛苦乏味的資料科學工作,自動化程度愈來愈高,像是資料清理和資料準備。一個常用的比喻是,資料科學家把80%寶貴的時間,用來尋找、清理和組織資料,只有20%的時間實際用於執行分析。

但這樣的情況不太可能持續下去。目前有大量的機器學習和深度學習都已自動化。告訴我們這一點的是Life Epigenetics首席資料科學家藍道.奧森(Randal Olson),他參加我們有一集以自動化的機器學習為主題的播客時,提到這個現象。

這種快速變化帶來的結果之一,就是絕大多數的來賓告訴我們,資料科學家的關鍵技能,不是建立和運用深度學習基礎設施的能力,而是即時學習和溝通的能力,以便回答業務問題,向非技術背景的利害關係人解釋複雜的結果。然後,有抱負的資料科學家應該更關注問題,而不是技術,因為新技術來來去去,但批判性思考和針對特定領域的量化技能,永遠都需要具備。

專精化變得更重要

雖然資料科學家沒有明確界定的職涯發展路徑,而且對資淺的資料科學家幾乎沒有什麼支持做法,但我們開始看到一種形式的專精化。艾蜜莉.羅賓森(Emily Robinson)說明了A型和B型資料科學家的差異:「A型是分析,類似傳統的統計學家,B型是建立機器學習模型。」

喬納森.諾利斯把資料科學拆解成三個部分:(1)商業智慧(business intelligence),主要是「取得公司擁有的資料,提供給適當的人員」,呈現的形式是儀表板、報告和電子郵件;(2)決策科學,就是「取得資料,用來協助公司做決定」;(3)機器學習,這是有關「我們可以如何採用資料科學模型,並持續讓它們運作。」雖然現在有很多資料科學家都是通才,上述三項工作都做,但我們觀察到不同的職涯路徑浮現,就像機器學習工程師的情況。

道德是該領域面臨的最大挑戰之一

你可能已猜到,這個職業為從業人員帶來很大的不確定性。我在第一集節目中曾詢問希拉莉.梅森(Hilary Mason),資料科學界是否面臨任何其他重大挑戰,她說:「你認為當前不精確的道德規範、沒有實務標準、缺乏一致的詞彙,這些挑戰還不夠嗎?」

這三者都是很關鍵的面向,尤其是前兩個,幾乎我們節目的所有來賓都會立刻提到它們。今日我們與世界的許多互動,都是由資料科學家開發的演算法來決定,而在這樣的時代裡,道德扮演什麼角色?就像GitHub公司的資深機器學習資料科學家歐茉吉.米勒(Omoju Miller)在接受我們訪談時說的:

我們必須了解道德,必須接受相關訓練,我們需要有類似「醫師誓詞」那樣的東西。而且,我們需要實際擁有適當的證照,以便在有人真的做了一些不道德的事情時,或許會受到某種懲罰,或是取消資格,或者需要某種行動方針,讓我們可以說這不是這個產業該做的事,然後找出方法,來糾正那些行為偏差的人,因為這些人沒有受過訓練,不知道不該這麼做。

一個一再出現的主題,是資料科學可能產生的嚴重、有害和不道德的後果,例如,根據ProPublica的報導,「被全美各地用來預測未來罪犯」的「COMPAS累犯風險評分」,其實「對黑人有偏見」。

我們逐漸達成共識,認為道德標準也應來自資料科學界內部,而不只是來自立法者、基層運動和其他利害關係人。這個運動的一部分,是要重新強調模型中的可解釋性,而不是黑箱作業的模型。也就是說,我們建立的模型,必須要能解釋它為什麼做出它所做的預測。深度學習模型很擅長做很多事情,但它們出了名的無法解釋。許多盡心盡力、聰明的研究人員、開發人員和資料科學家,正陸續透過各種工作來推動這件事,像是Lime專案,目標是要解釋機器學習模型在做什麼。

涵蓋各個產業和整個社會的資料科學革命才剛剛開始。資料科學家是否仍能保有「21世紀最誘人工作」的頭銜,或是變得更加專精化,還是成為大多數專業工作人士必備的技能,這一切都還不清楚。就像希拉莉.梅森告訴我的:「十年後我們還會不會有資料科學這個領域?過去不存在資料科學的世界還歷歷在目,就算日後資料科學像『網站管理員』這個職稱一樣沒落了,我也不會感到驚訝。」

(劉純佑譯)



雨果.邦尼–安德森 Hugo Bowne-Anderson

博士,資料科學課程網站DataCamp的資料科學家和教育人員,也是播客DataFramed的主持人。