Data Science 到底是什麼?

最近被問到了一個問題:Data Science是幹什麼的?

儘管一直在說Data Science,但是還真的沒有深入的、認真的研究過它的起源。

Data Science,數據科學,一般的解釋是:

數據科學僅是一種概念,它結合了統計學、數據分析、機器學習及其相關方法,旨在利用數據對實際現象進行“理解和分析”

簡單來講:數據科學是一門將數據變得有用的學科。

看看IBM的描述:https://www.ibm.com/analytics/data-science

What is data science, and why does it matter?

 

Data science is the process of using algorithms, methods, and systems to extract knowledge and insights from structured and unstructured data. It uses analytics and machine learning to help users make predictions, enhance optimization, and improve operations and decision making.

Today’s data science teams are expected to answer many questions. Business demands better prediction and optimization based on real-time insights backed by tools for ModelOps and cloud data science.

The data science lifecycle starts with gathering data from relevant sources, cleaning it and putting it in formats that machines can understand. In the next phase, statistical methods and other algorithms are used to find patterns and trends. Then models are programmed and built to predict and forecast; finally, results are interpreted.

Advances in AI, machine learning and automation have raised the standards of data science tools for business. The result is the formation of data science teams — expert data scientists, citizen data scientists, programmers, engineers and business analysts — that extend across business units.

The opportunity here is massive. The automation of tedious data science tasks such as data preparation, and the empowerment of analysts without coding experience (00:21) to build models, keeps business agile and innovative. Automating the data science lifecycle frees expert data scientists to address the more interesting and innovative aspects of the field. Human intelligence — combined with data science technology and automation — helps a business extract greater value from data.

什麼是數據科學,爲什麼它重要?


數據科學是使用算法、方法和系統從結構化和非結構化數據中提取知識和見解的過程。它使用分析和機器學習來幫助用戶進行預測,增強優化,並改進操作和決策。

今天的數據科學團隊預計將回答許多問題。業務需要更好的基於實時洞察的預測和優化,這些洞察得到了ModelOps和雲數據科學工具的支持。

數據科學的生命週期始於從相關來源收集數據、清理數據並將其轉換爲機器可以理解的格式。在下一階段,統計方法和其他算法被用來尋找模式和趨勢。然後編程並建立模型進行預測和預測,最後對結果進行解釋。

人工智能、機器學習和自動化的進步提高了商業數據科學工具的標準。其結果是數據科學團隊的形成——專家數據科學家、公民數據科學家、程序員、工程師和業務分析師——擴展到業務部門。

這裏的機會是巨大的。繁瑣的數據科學任務(如數據準備)的自動化,以及在沒有編碼經驗的情況下(00:21)賦予分析師構建模型的能力,保持了業務的敏捷性和創新性。數據科學生命週期的自動化使專家數據科學家能夠處理該領域更有趣和創新的方面。人類智能與數據科學技術和自動化相結合,幫助企業從數據中獲取更大的價值。

在 University of Minnesota 的課程頁面上可以看到: https://datascience.umn.edu/

The University of Minnesota offers both undergraduate and graduate programs in data science. The links at the top of the page provide information for prospective and currently enrolled students.

The amount of data being generated is increasing at a rapid rate with more than 90% of the data in the world being created in just the last few years. This trend is universal and covers every aspect of today’s social, economic, scientific, engineering, civic, and artistic activities. This data holds valuable information that can be used to improve all these activities by either solving existing problems better or leading to new discoveries, new technologies, and new services. Due to its ability to power innovations, our world today considers data to be the new oil.

Data science majors possess an extensive set of analytical, computational, and software engineering skills along with strong verbal, written, and visual communication skills in order to realize the value hidden in this vast amount of data, and effectively communicating their findings and solutions.

At the heart of the data scientist is a passion to improve things by leveraging the patterns and information that is often hidden in large amounts of data. Data scientists often start by conceiving a new data-driven solution to an existing problem or an entirely new data-driven service. They proceed to identify the data sources or create new data collection systems in order to obtain the required relevant data. This often involves working with cloud-based “Big Data” infrastructures, designing data collection processes, developing data access APIs, and creating sophisticated data cleaning, extraction, and selection algorithms and processes. Then they use their analytical and programming expertise to explore the space of possible solutions in order to select the appropriate data analysis approaches, implement them on large-scale cloud-based data analysis computing systems, and design robust ways to assess their validity and performance. This often requires close collaboration and ongoing communication with domain-experts, the end-users of their solutions, and managers.

明尼蘇達大學提供數據科學的本科和研究生課程。頁面頂部的鏈接爲未來和當前註冊的學生提供信息。

正在生成的數據量正以快速的速度增長,在過去幾年中,世界上90%以上的數據都是在生成的。這一趨勢是普遍的,涵蓋了當今社會、經濟、科學、工程、公民和藝術活動的方方面面。這些數據包含有價值的信息,可以用來改進所有這些活動,或者更好地解決現有的問題,或者導致新的發現、新的技術和新的服務。由於其推動創新的能力,我們今天的世界認爲數據是新的石油。

數據科學專業擁有廣泛的分析、計算和軟件工程技能,以及強大的口頭、書面和視覺溝通技能,以實現隱藏在海量數據中的價值,並有效地傳達他們的發現和解決方案。

數據科學家的核心是通過利用通常隱藏在大量數據中的模式和信息來改進事物。數據科學家通常從構思一個新的數據驅動解決方案或一個全新的數據驅動服務開始。他們繼續確定數據源或創建新的數據收集系統,以獲得所需的相關數據。這通常涉及到使用基於雲的“大數據”基礎設施、設計數據收集流程、開發數據訪問api,以及創建複雜的數據清理、提取和選擇算法和流程。然後,他們利用自己的分析和編程專業知識來探索可能的解決方案空間,以便選擇合適的數據分析方法,在大規模基於雲的數據分析計算系統上實現這些方法,並設計健壯的方法來評估其有效性和性能。這通常需要與領域專家、解決方案的最終用戶和管理者進行密切協作和持續溝通。

 

數據科學的主要工作?

分爲四部分:歸納問題、準備探索數據、模型訓練檢驗調整、報告和產品。 

1. 歸納問題 

客戶給公司的任務,或者頭頭給分析師的任務,不是一個具體的任務(用 xx 模型來做 xx 數據),而是一個具體的商業問題。比如,上個季度爲什麼盈利下降了。這就是一個歸納問題的環節,需要有專業知識幫助我們找到方向。 

2. 準備探索數據 

歸納問題結束之後,會產生很多假設,這就需要尋找數據驗證假設。 

尋找數據一般是竭盡所能,比如收入不好與市場推廣有關,就會去尋找廣告商的數據。 

尋找數據以後,要檢查數據質量,是否有異動、缺失等等。數據質量能夠決定模型的準確率所以花在“清洗整理”數據上的時間要佔到總時間的 60% 甚至更多,有時候也需要跟客戶進行交流。 

檢查完質量以後,做一些探索性分析。 

3. 模型訓練檢驗調整 

先確定模型基本類型(迴歸、聚類等),選取比較合適的模型進行搭建,用 test 對模型進行檢驗。檢驗的同時再去尋找模型最優的參數配置,對模型進行預測,如果預測結果很好的話,建模過程就結束了。 

4. 報告和產品 

在諮詢公司中,模型做完以後,會和客戶進行交流,看是否符合實際。在科技公司中,模型往往會發展成一個產品。放在公司平臺上測試,或者發佈到網上。 


Data Scientist

簡單的說,Data Scientist 需要具備的能力:

(1)業務領域的知識

         Data Scientist 是不能脫離業務領域的,需要具備所研究問題的業務領域的知識。

(2)程序開發和大數據分析處理的能力

          一般來說,數據科學專業大多要求具備編程、計算機科學相關的專業背景。簡單來說,就是對處理大數據所必需的Hadoop、Mahout等大規模並行處理技術與機器學習相關的技能。

(2)數學、統計、數據挖掘的能力

         除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟件的技能。其中,面向統計分析的開源編程語言和環境,如:R 和 Python等都是非常流行的。

(3)數據可視化能力

         信息的質量很大程度上依賴於其表達方式。對數字羅列所組成的數據中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果可視化,這是對於數據科學家來說十分重要的技能之一。

 

與 Data Science 相關的職位可能有很多種不同的叫法,不同公司根據不同的背景,有以下叫法: 

Data Scientist:科技公司中用的比較多,很多要求 PhD 的學歷。 

Data Analyst:金融業用的比較多。 

Risk Manager / Risk Management:金融公司裏用的比較多。 

Business Analyst:與 Data Analyst 類似,但更加註重商業,技術方面的要求相對較低。 

Data Engineer:一般是科技公司採用這個職位,偏向 CS 專業,需要負責數據存儲、實時處理的工作,對系統、programming 的要求更多。 

Statistician:如 Google。偏向統計,要求較爲深入地理解概率統計。 

Statistic Scientist:如亞馬遜。 

Research Scientist:與 Data Analyst 相關。 


發展過程

這裏:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 給出了 Drew Conway 畫的一幅維恩圖,來說明 Data Science:

這裏指出了數據科學需要具備的能力:黑科技能、數學和統計的知識、其它實際性的業務知識。

我們再看看麥肯錫是怎麼說的。

在2011年的時候,麥肯錫發表了《Big Data: the next frontier for innovation, competition, and productivity》提出了現在很多的公司已經開始往分析才能(analytical talent)中獲得競爭優勢。雖然這不是第一篇提出這個概念的公司,但是是第一次提出,數據分析能力也有助於商業公司去發現潛在的機會,而不僅僅只對技術公司有效。接着麥肯錫認爲到了2018年,美國大約會有190,000的項目缺少“深度分析能力(Deep Analytical Talent)”,而這些深度分析能力,是由大數據(big data)驅動的。至此,麥肯錫將”商業分析”進一步形容爲”深度分析能力”。

點擊鏈接:https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/big-data-the-next-frontier-for-innovation

接着DJ Patil和Jeff Hammerbacher在其寫的《Building Data Science Teams》,將麥肯錫的“深度分析能力”稱爲了“數據科學家(data scientists)”。他們在文中提到:

商業分析師(business analyst)看起來太侷限了,數據分析師(data anlyst)是他們的競爭者,但是我們還是覺得這個稱呼太侷限了。....我們認爲最好的稱呼應該是”數據科學家(data scientist)”,因爲這些人需要同時使用數據(data)和科學(science)去創造一些新的東西。

緊接着,DJ Patil加了一些關鍵特點用於去尋找一個數據科學家(data scientist):

  1. 專業技術(Technical expertise): 最好的數據科學家需要有關於某些科學學科的深度專業知識(deep expertise)。
  2. 好奇心(Curiosity): 一個優秀的數據科學家需要有挖掘潛在關係,解決問題和證明假說的強烈好奇心和渴望。
  3. 講故事的能力(Storytelling): 能用數據講一個生動的故事的能力,它能使交流更加有效。
  4. 聰明(Cleverness): 能夠創造性地解決問題的能力。

隨後,數據科學家這個概念纔開始被廣爲流傳。

點擊鏈接:http://radar.oreilly.com/2011/09/building-data-science-teams.html

 

Data Scientist 需要的能力

查看鏈接:https://oralytics.com/2012/06/13/data-science-is-multidisciplinary/

事實是,一個數據科學家的技能集會大得多。俗話說“萬事通,一事無成”。當你成爲一名數據科學家時,你需要有點像這樣,但也許更好的說法是“萬事通,萬事通”。

我把下面的圖表放在一起,其中包括了大多數技能和一些更基本的技能。正是這種技能的外環纔是成爲數據科學家的基礎。圖表內部的技能是大多數人在其中一個或多個方面都有一定經驗的技能。其他的技能可以隨着時間的推移而發展和學習,這都取決於你是什麼樣的人。

Data Science其實是多領域的結合,Data Scientist 需要多種領域的綜合知識和能力。

再來看一張圖:

來源於:https://www.linkedin.com/pulse/20140625043146-111366377-data-science-bridging-the-business-it-gap

隨着每一次迭代,數據科學家開始越來越像獨角獸,而不像“深度分析人才”。

具有諷刺意味的是,數據科學家們不斷擴大的期望是他們自身成功的產物。向管理人員提供建議、深入瞭解技術問題、進行溝通的能力(插入無止境的列表)表明,企業領導人將數據科學家視爲一座橋樑,最終能夠以更持久、更高效的方式將IT和業務聯繫起來。

不幸的是,許多專注於技術的專業人士認爲,開發業務技能的義務是一項微不足道的、不必要的任務。不過,這不一定!

本質上,這是解決業務問題的基本框架。雖然它不會讓你成爲戰略專家,但它將有助於推進對話,使你的目標與業務保持一致。

總結一下:

Data Science 涉及多個領域,而一名 Data Scientist 也需要多方面的技能,並不是簡單的瞭解和掌握:統計學知識、數據知識、數據挖掘知識或者機器學習知識就夠了。

參考文章中的內容:

These might look something like this:

Core Skills

 Basic CS, Software Development, Tools
 Data Engineering (Distributed Computing, etc.)
 Scientific Training, Mathematics, Modeling, Theory
 Focus Areas

 Machine Learning
 Business Analytics
 Graph Mining / Network Intelligence
 Text Mining / Information Retrieval
 Data Visualization
 etc.
 Domain Expertise

 Finance
 Consumer Internet
 Oil & Gas
 Bioinformatics
 Physics
 Advertising
 etc.


數據挖掘 VS. 機器學習 VS. 人工智能

數據挖掘 (data mining): 有目的地從現有大數據中提取數據的模式(pattern)和模型(model)

數據挖掘是從現有的信息(existing information)中提取數據的模式(pattern)和模型(model),即精選出最重要的信息,以用於未來機器學習和AI的數據使用。

其核心目的是找到數據變量之間的關係。其發展出來的主要原因是大數據的發展,用傳統的數據分析的方式已經無能處理那麼多大量的看似不相關的數據的處理,因此需要數據挖掘技術去提取各種數據和變量之間的相互關係,從而精煉數據。

數據挖掘本質上像是機器學習和人工智能的基礎,他的主要目的是從各種各樣的數據來源中,提取出超集(superset)的信息,然後將這些信息合併讓你發現你從來沒有想到過的模式和內在關係。這就意味着,數據挖掘不是一種用來證明假說的方法,而是用來構建各種各樣的假說的方法。數據挖掘不能告訴你這些問題的答案,他只能告訴你,A和B可能存在相關關係,但是它無法告訴你A和B存在什麼相關關係。

當然,數據挖掘會使用大量機器學習的算法,但是其特定的環境和目的和機器學習不太一樣。

機器學習(machine learning): 自動地從過往的經驗中學習新的知識。

機器學習其實是人工智能很重要的一部分,因爲目前,在實踐過程中,大多數的人工智能處理的任務,其實是用機器學習的方式完成的。機器學習可以用程序和算法自動地學習,只要被設計好了,這個程序可以進行自我優化。同時,機器學習需要一定數量的 訓練數據集(training data set),用於構建來自過往經驗的“知識” 。

機器學習目前在實踐中最重要的功能便是 預測 結果。比如機器學習已經學習結束了,現在有一個新的數據集x,需要預測其分類,機器學習算法會根據這個新數據與學習後的“知識”相匹配(實際上,知識指的是學習後的數學模型),然後將這個數據集x分類某類C去。再比較常見的機器學習,比如amazon的推薦系統。

人工智能(AI): 一個廣泛的概念,本質是用數據和模型去爲現有的問題(existing problems)提供解決方法(solutions).

人工智能是一個與機器學習和數據挖掘相對不同的概念,人工智能的目的是爲了去創造有智力的電腦(不知道怎麼翻譯好,可以假設其爲機器人)。在實踐中,我們希望這個電腦可以 像有智力的人一樣處理一個任務。因此,理論上人工智能幾乎包括了所有和機器能做的內容,當然也包括了數據挖掘和機器學習的內容,同時還會有監視(monitor)和控制進程(process control)的內容

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章