世界頂尖數據科學家採訪實錄——《紐約時報》首席數據科學家

出品 | CDA數據分析研究院
來源 | 《Data Scientists at Work》

本系列整理對世界頂尖數據科學家們的訪談記錄。讓我們一起來領略他們對數據科學的理解和看法。

採訪的第一位嘉賓是Chris Wiggins

Chris Wiggins是《紐約時報》的首席數據科學家,哥倫比亞大學應用數學副教授。

Chris Wiggins在《紐約時報》工作期間,正在創建一個機器學習小組,分析記者製作的內容、讀者消費文章所產生的數據,以及更廣泛的讀者導航模式所產生的數據,其首要目標是更好地傾聽《紐約時報》消費者的聲音,並重新思考未來100年的新聞業將會是什麼樣子。

在哥倫比亞大學,Chris Wiggins專注於將機器學習技術應用於生物大數據研究。這包括對自然發生的網絡的分析,應用於生物時間序列數據的統計推斷,以及計算生物學中的大規模序列信息學。作爲他在哥倫比亞大學工作的一部分,他是該大學數據科學與工程研究所(IDSE)和系統生物學系的創始成員。以下是採訪Chris Wiggins的對話整理內容。

您在哪裏工作?

我在哥倫比亞大學(Columbia University)和《紐約時報》(New York Times)之間度過了一段時間。我在哥倫比亞大學擔任應用數學副教授,在《紐約時報》擔任首席數據科學家。

我可以長時間地談論每個機構。作爲背景,我對紐約有着長久的愛。上世紀80年代,我作爲一名本科生來到紐約上哥倫比亞大學。我認爲哥倫比亞大學本身就是一個偉大的實驗,看看你能否在紐約市的實驗中培養一個常春藤盟校的教育和一個強大的科學研究社區,紐約市充滿了興奮、分心和變化,最重要的是,充滿了人性。哥倫比亞大學是一個非常令人興奮和充滿活力的地方,充滿了非常具有顛覆性的學生和校友,包括我自己,而且已經有幾個世紀了。

《紐約時報》也有上百年的歷史。這是一家有着163年曆史的公司,我認爲它也代表了一套我堅信的價值觀,而且與我非常喜歡的紐約有着非常緊密的聯繫。每當我想到《紐約時報》,我就會想到托馬斯·傑斐遜(Thomas jefferson)所表達的一種觀點:如果你可以在經營良好的民主與經營不良的媒體之間做出選擇,或者在經營良好的媒體與經營不良的民主之間做出選擇,他寧願選擇經營良好的媒體。你們需要一個經營良好的新聞媒體和一個良好的新聞文化,以培育和確保民主的存續。

數據科學如何與您的工作相適應?

我想說,在數據科學、學術界和《紐約時報》工作是一個令人興奮的時刻。數據科學現在已經成爲一個學術領域。你可以在計算統計學家比爾•克利夫蘭(Bill Cleveland) 2001年的一項提議中找到它的學術根源。顯然,你也可以在職位描述中找到數據科學家的根源,最著名的例子是LinkedIn的帕蒂爾(DJ Patil)和facebook的傑夫•哈默巴赫(Jeff Hammerbacher)。然而,在某些方面,知識分子的根源可以追溯到1962年統計學家約翰•圖基(John Tukey)的著作。

半個世紀以來,學術界一直在醞釀着這樣一種現象:統計學作爲一個越來越多的數學領域,與世界每時每刻都在產生越來越多的數據、計算能力隨着時間呈指數增長這一現實之間的脫節。越來越多的字段有興趣嘗試從數據中學習。

我在哥倫比亞大學(Columbia university)過去10年或更長時間裏的研究一直是我們現在所說的“數據科學”——我過去常稱之爲“應用於生物學的機器學習”,但現在可能被稱爲“自然科學中的數據科學”。“我們的目標是與具有領域專長的人合作——甚至沒有必要——非常定量的或數學領域的專長——這些專長是在數十年的實踐中積累起來的,涉及生物學工作中一些實際問題,這些問題很複雜,但肯定不是隨機的。處理這些問題的社區發現自己越來越被數據淹沒。

所以這裏有一個智力上的挑戰並不完全是機器學習的智力上的挑戰。更大的智力挑戰是嘗試使用機器學習來回答來自真實世界領域的問題。很長一段時間以來,在生物學領域的研究一直很令人興奮。

能在《紐約時報》工作也令人興奮,因爲《紐約時報》是規模更大、經濟更穩定的出版商之一,同時捍衛民主,並在歷史上爲新聞誠信設置了很高的標準。他們通過幾十年甚至幾百年強烈的自我反省來做到這一點。他們不怕質疑公司的原則、選擇,甚至是領導層,我認爲這創造了一種非常健康的知識文化。

與此同時,儘管作爲出版商,它的經濟實力很強,但過去兩個世紀左右的出版商業模式在過去10年裏已經完全消失;超過70%的平面廣告收入直接蒸發了,最急劇的蒸發發生在2004年2月左右。因此,儘管這棟大樓裏擠滿了非常聰明的人,但就如何定義可持續新聞的未來而言,它正在經歷一場明顯的鉅變。

目前的領導層,一直到記者,都非常好奇“數字”。這意味着:當你把新聞與傳播媒介分離開來時,它會是什麼樣子?甚至“報紙”這個詞都不會涉及到報紙。報紙對《紐約時報》來說仍然非常重要,不僅是事物的組織方式,甚至是日常日程的組織方式,而且在概念上也是如此。與此同時,我認爲這裏有很多非常有遠見的人,包括記者和技術人員,他們開始使《紐約時報》傳播新聞的方式多樣化。

要做到這一點,你需要不斷地做實驗。如果你在做實驗,你需要測量一些東西。

在2014年,你衡量事物的方式,是通過人們對產品的投入程度。因此,從weblog到每次有人與移動應用程序交互的活動,這家公司都能獲得大量的數據來弄清楚:讀者想要什麼?他們看重的是什麼?當然,這個答案可能是動態的。有可能,2014年讀者想要的與2013年或2004年截然不同。因此,我們在數據科學小組中要做的就是從《紐約時報》收集的大量數據中學習,並使之有意義。

您是什麼時候意識到想以數據科學爲職業?

有一天,我在研究生院和其他一些研究生一起吃午飯的時候。

一名研究生走進布拉哈德,他的基因組是第一個自由測序的活體。這是一種100年前就被發現的病原體。但是,把某樣東西按順序排列意味着,你從有它的圖片,或者你把東西倒在上面,然後它可能變成藍色的實驗,到有了電話簿上有價值的信息。不幸的是,這些信息是用我們沒有選擇的語言寫的,只是一個四個字母的字母表。

這就引出了一個統計和科學的問題:你如何理解這些豐富的信息?

我們有數據。我們已經用了100年了。我們知道它的作用,現在我們面對的是一種完全不同的方式來理解數據。

上世紀90年代初,當我開始攻讀博士學位時,我正在研究物理學家的建模風格,即尋找簡單的問題,在這些問題中,簡單的模型可以揭示洞察力。物理學和生物學之間的關係在不斷髮展,但在性質上卻受到了限制,因爲物理學家建模的風格通常是試圖確定一個問題,這個問題是關鍵要素,是關鍵的簡化描述,它允許基本的建模。突然把電話簿放在桌上,然後說“讓他有意義”,這是一種完全不同的理解方式。在某種程度上,它與物理學家所推崇的基本模型背道而馳。那就是我開始學習學習的時候。

幸運的是,物理學家也很擅長進入其他領域。我有很多文化經紀人,我可以以其他物理學家的形式去找他們,他們勇敢地投身於計算神經科學或其他領域,在這些領域,科學領域與如何理解數據之間已經建立了良好的關係。事實上,機器學習中最傑出的會議之一叫做nipand, N代表“神經科學”。在基因組學出現之前,這個羣體就已經在嘗試我們現在所說的“數據科學”,也就是用數據來回答科學問題。

上世紀90年代末,當我完成我的博士學位時,我對這個不斷增長的關於人們提出生物學統計問題的文獻非常感興趣。不能把小麥從穀殼中分離出來,真使我惱火。當我讀這些論文的時候,真正把小麥和穀殼區分開來的唯一方法就是自己動手寫論文,試着找出哪些是可行的,哪些是不可行的。學術界有時在揭示什麼是小麥,什麼是穀殼方面進展緩慢,但最終它做得非常好。論文數量激增,幾年後,人們意識到哪些東西是金子,哪些東西是傻瓜的金子。我認爲現在有一個潮流就是,人們使用機器學習來回答科學問題。

對您來說,數據科學中最令人興奮的事情是什麼?

對我來說最令人興奮的事情不是新事物。

對我來說最令人興奮的事情是意識到每個人都認爲的新事物實際上是舊事物。

關於這個叫做“數據科學”的新事物有很多令人興奮的地方。“我認爲去看那些比Tukey還要古老的統計數據真的很有趣。例如,Sewall Wright在20世紀20年代使用圖形化的遺傳學模型。真正讓我興奮的不是新奇的東西。它特別圍繞着思想,而不是太多的東西,因爲,再說一遍,人,思想,和事物的順序。改變的事情。當我們認爲自己有了一個新想法時,這是很有趣的,但通常我們隨後意識到這個想法實際上是非常古老的。你對此有所瞭解,這就非常棒。

例如,隨機優化和隨機梯度下降,在過去的5年裏取得了巨大的成功,但是它們來自於羅賓斯和蒙羅在1951年1月12日寫的一篇論文,這是一個好主意,但事實上,我認爲這是一個好主意意味着很久以前有人用鉛筆在紙上仔細思考過。試着通過數據和你的電腦來了解這個世界是個好主意。這就是爲什麼圖基在1962年寫了一篇關於統計的文章,當時他命令每個人重新定位統計學作爲一門專業學科。1962年,他寫了一篇名爲《數據分析的未來》(The Future of Data Analysis)的文章。

上世紀90年代,里奧•佈雷曼(Leo Breiman)一直在給他的統計學家社區寫信,“讓我們用數據,統計社區!”上世紀90年代末,他在寫論文,告訴他所有的同事們開始研究數據科學——這就像他走進荒野,回來後對伯克利的每個人說,伯克利是最早的數理統計學院之一,“你們需要醒過來,因爲它着火了。你們還在證明定理。外面着火了。醒醒!”

我認爲人們有一個傳統,那就是通過數據來理解世界是多麼的強大,多麼的不同。

“數據至上”是伯克利大學的一位數理統計學家在很久以前就用過的一個詞,伯克利大學強調的這種根深蒂固的傳統是通過2001年從約翰·圖基到里奧·佈雷曼再到比爾·克利夫蘭的這種極端思想而延續下來的。他們中的一些人認爲自己是正統的統計學家,儘管他們是相當極端的人。因爲統計學每五年就會在數學上翻一番,因爲數學的起源使統計學成爲一個真正的領域。

這就是我認爲最令人興奮的事情——不要被今天的事情分心,而要找到那些比你年長得多的人和他們的世界觀。

數據科學的未來會是什麼樣子?

數據科學的未來,這是一個很大的話題,是它的形式?還是它的內容呢?還是去使用它的人呢?他們的未來都是不一樣的。

我認爲數據科學沒有理由不像其他許多領域那樣遵循同樣的過程,因爲它在學術界找到了歸宿,這意味着它成爲一種認證功能,尤其是在專業領域。你將獲得碩士學位和博士學位。該領域將具有意義,但也將具有專門性。您已經看到人們使用“數據工程”和“數據科學”這兩個短語作爲分隔符。我在《紐約時報》的團隊是數據科學組,它是數據科學與工程更大團隊的一部分。人們開始理解數據科學團隊如何涉及數據科學、特徵工程、數據可視化和數據體系結構。

數據還不是一種產品,但如果你看一下,比如說,數據科學是如何在linkedin發生的——數據科學是如何通過產品層次結構報告出來的。在其他公司,數據科學通過業務報告;或者it通過工程報告。現在我身處《紐約時報》的工程部門,獨立於產品,獨立於營銷,獨立於廣告。不同的公司在不同的部門定位數據科學。

所以我認爲會有資格認證,我認爲會有專業化。紐菲爾德誕生了——我不會一直這麼說,因爲按照現實世界的標準,學術界從來沒有發生過什麼事情——但大學裏每隔幾年就會誕生新的院系。它發生的方式是創建新字段的一部分。我已經長大了,我有幸目睹了,比如說,系統生物學作爲一個領域誕生,合成生物學作爲一個領域誕生,甚至納米科學作爲一個領域誕生。我在20世紀80年代的第一個研究項目是在一片混亂中進行的,而那個時候正是一個新的領域誕生的時候。詹姆斯·格萊克(James Gleick)當時爲《紐約時報》撰寫了一本關於這方面的著名著作,名爲《混亂:創造新科學》(Chaos:Making a New science)。只是和現實世界的節奏相比,它實在是太慢了,我認爲這是最好的。年輕人的未來危在旦夕,所以我認爲情況其實沒那麼糟。

因此,我認爲數據科學的未來是成爲學術界的一部分,這意味着不同大學之間就什麼是真正的數據科學展開激烈而有爭議的對話。你已經開始看到這方面的工作了。例如,在哥倫比亞大學,我的一位名叫馬特·瓊斯的同事,他是一位歷史學家,正在寫一本關於機器學習和數據科學歷史的書。所以你已經開始看到人們意識到數據科學並不是在2008年從真空中誕生的。從智力上講,我們所有的數據科學都已經意識到——也就是說,在統計和機器學習之間存在鴻溝,還有一些其他的東西。所以我認爲人們會更加欣賞歷史。

當一個領域成爲一個學術領域時,會發生三件主要的事情——

  • 設置一個學術標準,
  • 啓動一個認證過程,
  • 歷史研究提供了該領域的背景。

學術經典是一組我們認爲是該領域核心知識分子的課程。最後,通過對歷史的研究,我們可以瞭解當時的背景:這些想法從何而來?

當人們使用的名稱和短語變得更有意義時,你就有了專業化的可能性,因爲我們現在所擁有的是,當人們說“數據科學”時,他們可能意味着許多事情。

它們可能意味着數據可視化、特徵工程、數據科學、機器學習或其他一些東西。隨着技術本身的使用更加細化,我認爲您你會看到團隊更加高效的專門化。你不可能有這樣一個足球隊,每個人都說:“我是一個鄉巴佬。”“有人需要成爲定位球手,有人需要成爲持球手,有人需要成爲後衛。當人們開始專業化的時候,你就可以通過了。你可以與人進行有意義的合作,因爲人們知道他們的角色和“完成的任務”是什麼樣子的。

現在,我認爲未來數據科學究竟是什麼樣子還有待觀察,但是能確定的是走向專業化的細分。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章