數據科學思維:打造健康數據驅動組織的 6 條原則

本文要點

  • 大多數組織都難以解鎖數據科學以優化其操作流程,讓數據科學家、分析師和業務團隊採用一致的語言:不同的團隊和數據科學流程常常是形成摩擦的根源。
  • 健康的數據科學組織框架是一系列方法論、技術和資源的組合,它們將幫助你的組織(從業務理解、數據生成和獲取、建模,到模型部署和管理)變得更爲數據驅動。
  • 爲了成功地將願景和業務目標轉化爲切實有效的結果,建立清晰的績效指標非常重要。
  • 組織需要更有機地考慮其端到端的數據流和體系結構,它們將是數據科學解決方案的支撐。
  • 基於Azure機器學習服務,團隊構建了一個人員部署推薦方案,爲新項目推薦最優的員工組合和具有對口經驗和專業知識的人員。

在過去的幾年裏,來自無數不同來源的數據變得更加可用和可消費,許多組織都在開始尋找使用最新數據分析技術的方法,以滿足他們的業務需求和尋求新的機會。除了數據變得更加可用和可訪問外,還出現了大量工具和應用程序,使團隊有能力構建複雜的數據分析解決方案。鑑於以上種種,組織越來越多地圍繞數據科學的職能組建團隊。

數據科學是一個結合數學、編程和可視化技術的領域,它將科學方法應用於特定的業務領域或問題,如預測未來的客戶行爲、規劃空中交通路線或識別語音模式等。但是,成爲一個數據驅動的組織究竟意味着什麼呢?

通過本文,業務和技術領導者將學到一些評估他們的組織是否是數據驅動的方法,以及對其數據科學成熟度進行基準測試的方法。此外,通過現實世界中已經應用過的用例,他們將學習如何使用健康的數據科學組織框架在組織內培養健康的數據科學思維。作爲一名數據科學家,我基於自身的經驗創建了這個框架,我正在從事端到端數據科學和機器學習解決方案的工作,與許多不同類型行業的外部客戶合作,包括能源、石油和天然氣、零售、航空航天、醫療保健和職業勞務。該框架提供了一個構建數據科學項目的開發生命週期。這個生命週期概述了項目在運行時從開始到結束要遵循的步驟。

理解健康的數據科學組織框架

成爲一個數據驅動的組織意味着要嵌入數據科學團隊,以充分參與業務,並調整公司的運營骨架(技術、流程、基礎設施和文化)。健康的數據科學組織框架是一系列方法論、技術和資源的組合,如果正確使用,這些方法論、技術和資源將幫助你的組織(從業務理解、數據生成和獲取、建模,到模型部署和管理)變得更爲數據驅動。這個框架包括六個關鍵原則,如圖1所示:

  1. 瞭解業務和制定決策的過程
  2. 建立績效指標
  3. 構建端到端解決方案
  4. 構建你的數據科學技巧工具箱
  5. 統一組織的數據科學願景
  6. 讓人類參與其中

圖1 健康的數據科學組織框架

考慮到該領域的快速發展,組織通常需要指導如何應用最新的數據科學技術來滿足其業務需求或尋求新的機會。

原則1:瞭解業務和制定決策的過程

對於大多數組織來說,缺乏數據並不是問題。事實恰恰相反:通常在制定決策時手裏掌握太多的信息。有這麼多的數據需要分類,組織需要充分定義一個策略在以下各方面對業務加以闡述:

  • 數據科學如何幫助企業做業務轉變,更好地管理成本,並驅動更卓越的運營?
  • 組織對想要完成的事情是否有一個明確定義並予以清晰表達的目標和願景?
  • 組織如何獲得C級管理人員和涉衆的支持,以實現數據驅動的願景,並推動它貫穿至業務的各個部分?

簡而言之,公司需要對其業務決策過程有一個清晰的理解,以及一個更好的數據科學策略來支持該過程。有了正確的數據科學思維,以往大量不同的信息就變成了一個簡單清晰的決策點。推動轉型需要公司對他們想要實現的事情有一個明確定義並予以清晰表達的目標和願景。它通常需要c級主管的支持,以實現該願景,並推動它貫穿至業務的各個部分。

組織必須從正確的問題着手。該問題應該是可度量的、清晰的、簡潔的,並與他們的核心業務有直接的關聯。在此階段,設計問題就特定業務問題或機會的潛在解決方案加以限定(或取消限定)非常重要。例如,從一個明確定義的問題開始:一家零售公司的成本正在不斷上升,無法再向客戶提供有競爭力的價格。要解決這一業務問題,可能會引出許多的問題,其中之一可能是:公司能否在不影響質量的情況下減少運營?

要回答這類問題,組織需要解決兩項主要任務:

  • 定義業務目標:數據科學團隊需要與業務專家和其他涉衆合作,以理解和識別業務問題。
  • 提出正確的問題:公司需要提出明確的問題,定義數據科學團隊可以瞄向的業務目標。

去年,Azure機器學習團隊爲一家職業勞務公司開發了一個基於推薦的員工分配解決方案。通過使用Azure機器學習服務,我們開發並部署了一個人員部署推薦解決方案,該方案爲新項目推薦最優的員工組合和具有對口經驗和專業知識的個人員工。我們這個解決方案的最終業務目標是提高客戶的利潤。

當時,項目人員配置是由項目經理手工完成的,他基於的是員工的可用性和其個人過去業績的先驗知識。這個過程非常耗時,而且結果往往並不理想。利用歷史數據和先進的機器學習技術可以更有效地完成這個過程。
爲了將這個業務問題轉化爲切實可行的解決方案和結果,我們幫助客戶提出了正確的問題,例如:

  1. 我們如何預測新項目的員工構成?例如,一名高級項目經理、一名首席數據科學家和兩名會計助理。
  2. 我們如何計算新項目的員工適合度評分?我們將員工適合度得分定義爲度量項目員工適合度的指標。

我們這個機器學習解決方案的目標是根據員工的可用性、地理位置、項目類型經驗、行業經驗和以前項目產生的小時貢獻邊際,爲新項目推薦最合適的員工。Azure和無數的基於雲計算的工具,可以幫助該組織制定成功的勞動力分析解決方案,爲具體的行動計劃和人力資源投資提供基礎:使用Azure雲,更容易獲得無與倫比的生產力,它具有端到端的開發工具和監控、管理和保護雲資源的管理工具。此外,Azure機器學習服務提供了一個基於雲的環境,組織可以使用它來準備數據、培訓、測試、部署、管理和跟蹤機器學習模型。Azure機器學習服務還包括自動生成模型和調優的功能,以幫助你輕鬆、高效並準確地創建模型。這些解決方案可以解決組織人員分配中需要克服的偏差或低效,從而得到更好的業務結果。組織可以通過使用勞動力分析來優化人力資本的使用,從而獲得競爭優勢。在接下來的幾個章節,我們將一起了解如何爲客戶構建這個解決方案。

原則2:建立績效指標

爲了成功地將這個願景和業務目標轉化爲切實有效的結果,下一步是建立清晰的績效指標。在第二步中,組織需要從分析層面關注定義數據解決方案管道的以下兩個關鍵方面(如圖2):

  • 解決該業務問題並得出準確結論的最佳分析方法是什麼?
  • 如何將這一願景轉化爲能夠改善業務的切實有效的結果?

圖2 數據解決方案流水線

這一步分爲三個子步驟:

  1. 決定度量什麼

我們以預測性維護爲例,這是一種用於預測在役機器何時會發生故障的技術,它使你能夠對其維護提前很好地進行規劃。事實證明,這是一個非常廣泛的領域,有着各種各樣的最終目標,比如預測故障的根本原因、哪些部件需要更換以及故障發生後何時提供維護建議等等。

許多公司正在嘗試進行預測性維護,以及從各種傳感器和系統中獲得大量數據。但是,通常情況下,客戶並沒有足夠的故障歷史數據,這使得預測維護非常困難。畢竟,爲了預測未來的故障事件,需要基於此類故障歷史數據對模型進行培訓。因此,儘管爲任何分析項目制定願景、目的和範圍很重要,但是從收集合適的數據開始才至關重要。用於預測維護的相關數據源包括但不限於:故障歷史、維護/維修歷史、機器操作條件、設備元數據。讓我們假定有一個車輪故障用例:訓練數據應該包含與車輪操作相關的特徵。如果問題是預測牽引系統的故障,訓練數據必須包含牽引系統的所有不同部件。第一個案例針對特定的組件,而第二個案例針對較大子系統的故障。一般的建議是設計關於特定組件的預測系統,而不是更大的子系統。

給定上述數據源,預測維護領域中觀察到的兩種主要數據類型是:1)暫態數據(如操作遙感、機器條件、工作指令類型、記錄時具有時間戳的優先級代碼)。故障、維護/修理和使用歷史記錄也將有與每個事件相關聯的時間戳);2)靜態數據(機器特徵和操作員特徵一般是靜態的,因爲它們描述了機器或操作員屬性的技術規格。如果這些特徵隨着時間的推移而改變,那麼它們也應該具有與之相關聯的時間戳)。預測器和目標變量應該根據使用的算法進行預處理/轉換爲數值、分類和其他數據類型。

2.決定如何度量它

考慮組織如何度量數據也同樣重要,尤其是在數據收集和攝入階段之前。這一子步驟的關鍵問題包括:

  • 時間是什麼時候?
  • 度量單位是什麼?
  • 應該包括哪些因素?

此步驟的中心目標是確定分析需要預測的關鍵業務變量。我們將這些變量稱爲模型目標,並使用與它們關聯的度量來確定項目的成功。針對這類目標,舉兩個例子爲銷售預測或預測是欺詐性訂單的可能性。

3、定義成功指標

在標識關鍵業務變量之後,將業務問題轉換爲數據科學問題並定義界定項目是否成功的度量標準非常重要。組織通常使用數據科學或機器學習來回答以下五類問題:

確定公司正在詢問哪些問題,以及如何回答這些問題,這樣才能實現業務目標,並能夠對結果進行度量。在這一點上,通過提出和精煉相關的、具體的、明確的尖銳問題來重新審視項目目標是很重要的。例如假設,一家公司想要實現客戶流失率的預測,需要精確到在一個爲期三個月的項目結束時達到“x”%。有了這些數據,公司就可以爲客戶提出減少客戶流失率的促銷活動了。

以我們的職業勞務公司爲例,我們決定解決的第一個業務問題是,如何預測一個新項目的員工組合,例如一名高級會計師加兩名會計助理。對於這種客戶參與,我們使用了近五年個人級別的每日曆史項目數據。我們刪除了任何有負邊際貢獻或負總小時數的數據。我們首先從測試數據集中隨機抽取了1000個項目,以加速參數調優。在確定了最優參數組合後,我們對測試數據集中的所有項目進行了相同的數據準備。

以下是我們爲這次業務構建的數據類型和解決方案流(如圖3所示):

圖3 數據類型和解決方案流

我們使用了一種聚類方法:K最近鄰(KNN)算法。KNN是一種簡單、易於實現的監督機器學習算法。KNN算法假設相似的事物具有很近的距離,從而在訓練數據中找到最相似的數據點,並根據它們的分類進行有根據的猜測。該方法雖然易於理解和實現,但在推薦系統、語義搜索和異常檢測等領域也得到了廣泛的應用。

在第一步中,我們使用KNN來預測一個新項目的人員組成,也就是說,使用歷史項目數據預測每種人員分類/職務的數量。我們根據不同的項目屬性,如項目類型、總賬款、行業、客戶、收入範圍等,找出與新項目相似的歷史項目。我們根據業務規則和標準爲每個項目屬性分配了不同的權重。我們還刪除了任何有負邊際貢獻(利潤)的數據。對於每一種人員分類,通過計算同類歷史項目對應人員分類的人員數量加權和來預測人員數量。最後將這些權值規格化,使所有權值的和爲1。在計算加權和之前,我們剔除了10%的過高異常值和10%的過低異常值。

我們要解決的第二個業務問題是,如何計算新項目的員工適合度得分,我們決定使用基於內容的自定義過濾方法:具體來說,我們實現了一個基於內容的算法來預測員工的經驗與項目需求的匹配度。在基於內容的過濾系統中,通常是根據用戶對條目的歷史評分來計算得出用戶配置文件。這些用戶配置文件描述了用戶的品味和偏好。爲了預測員工對新項目的適合度,我們使用歷史數據爲每個員工創建了兩個員工檔案向量:一個向量基於的是一個小時數,它代表員工在不同類型項目上的經驗和專業技能;另一個向量基於的是每小時貢獻利潤率(CMH),它代表員工在不同類型項目上的盈利能力。新項目的員工適合度評分是通過計算這兩個員工輪廓向量和代表項目重要屬性的二進制向量之間的內積來計算的。

我們使用Azure機器學習服務實現了這個機器學習步驟。使用主流的Python SDK和用於Azure機器學習的Data Prep SDK,我們在Azure機器學習服務工作區中構建我們的機器學習模型,並對其展開訓練。這個工作區是爲該服務準備的頂級資源,它爲我們提供了一個集中的地方來處理這個項目創建的所有工件。

爲了創建一個工作區,我們確定了以下配置項:

屬性 描述
Workspace name (工作區名稱) 輸入標識工作區的唯一名稱。該名稱在整個資源組中必須惟一。建議使用一個易於記起和有別於他人創建的工作區的名稱。
Subscription (訂閱) 選擇你想要使用的Azure訂閱。
Resource group (資源組) 在訂閱中使用現有資源組,或輸入名稱來創建新的資源組。資源組是一個容器,它包含Azure解決方案的相關資源。
Location (位置) 選擇離用戶和數據資源最近的位置。此位置是創建工作區的位置。

當我們創建一個工作區時,會自動添加以下Azure資源:

該工作區保存了一個計算目標列表,你可以使用這些目標訓練你的模型。它還保存執行訓練的歷史記錄,包括日誌、指標、輸出和腳本快照。我們使用這些信息來確定哪個訓練運行生成了最佳模型。

之後,我們將模型註冊到工作區中,並使用註冊的模型和計分腳本創建用於部署的鏡像(爲此用例構建端到端體系結構的相關更多細節將在下面討論)。工作區的概念和機器學習流程如圖4所示:

圖4 工作區概念和機器學習流程

原則3:構建端到端解決方案

在大數據時代,越來越多的數據的積累和分析,往往是非結構化的,它們來自於應用程序、Web環境和各種各樣的設備。在第三步中,組織需要更有機地考慮支持其數據科學解決方案的端到端數據流和體系結構,並問問自己以下問題:

  • 他們真的需要這麼多數據嗎?
  • 他們如何確保它的完整性和可靠性?
  • 他們應該如何存儲、處理和操作這些數據,以回答我的問題?
  • 最重要的是,他們如何將這個數據科學解決方案整合到他們自己的業務和運營中,以便隨着時間的推移仍能成功地使用它?

數據體系結構是規劃數據收集的過程,包括對所要收集的信息的定義、用於結構化數據的標準和規範以及用於提取、存儲和處理此類數據的工具。

對於任何執行數據分析的項目來說,這個階段都是基礎,因爲它保證了將來所要研究的信息的可用性和完整性。爲此,你需要了解數據將如何存儲、處理和使用,以及項目需要哪些分析。就這一點,可以說項目的技術願景和戰略願景是交叉的,因爲這個計劃任務的目的是保持數據提取和操作過程與業務目標保持一致。

在定義了業務目標(原則1)並將它們轉換爲有形的度量標準(原則2)之後,現在必須要做的是選擇正確的工具,以使組織能夠實際構建端到端數據科學解決方案。考慮諸如數據量、數據種類以及數據生成和處理的速度等因素,對公司確定應該使用哪種類型的技術會很有幫助。在現有的各類工具中,必須考慮:

  • 數據收集工具,如Azure Stream Analytics 和Azure Data Factory,這些工具將幫助我們提取和組織原始數據。
  • 存儲工具,如Azure Cosmos DBAzure Storage:這些工具以結構化或非結構化的形式存儲數據,並且可以以集成的方式聚集來自於多個平臺的信息
  • 數據處理和分析工具,如Azure Time Series InsightsAzure Machine Learning Service Data Prep,有了這些,我們可以使用存儲和處理的數據創建可視化邏輯,使分析、研究和報告成爲可能,從而支持運營和戰略決策的制定。
  • 模型操作化工具,如 Azure Machine Learning service 和Machine Learning Server:在公司擁有一組運行良好的模型之後,它們可以將這些模型操作化,供其他應用程序使用。根據業務需求來看,可以實時預測,也可以批量預測。爲部署模型,公司需要使用一個開放的API接口來暴露它們。各類的應用程式可以通過該接口輕鬆使用這個模型,例如:
    • 在線網站
    • 電子表格
    • 儀表板
    • 企業重要流程線(LoB)應用程序
    • 後端應用程序

這些工具可以根據業務的需要予以調整,但在理想情況下應該提供它們之間集成的可能性,從而使數據可以在任意選擇的平臺上使用,而不需要手工處理。這種端到端架構(如圖5)還將爲公司提供一些關鍵的優勢和價值,例如:

圖5 端到端體系結構的示例
  • 加速部署和降低風險:集成的端到端體系結構可以極大地降低組裝端到端解決方案所需的成本和精力,從而進一步減少部署用例的時間
  • 模塊化:使公司能夠從端到端體系結構的任何部分開始切入,並確保已經集成了關鍵組件,且可以良好地配合
  • 靈活性:可以在任何地方運行,包括多雲或混合雲環境
  • 端到端分析和機器學習:支持從邊緣到雲的端到端分析,能夠將機器學習模型回推到邊緣進行實時決策
  • 端到端數據安全性和依從性:預集成了跨基礎設施的安全性和可管理性,包括訪問、授權和身份驗證
  • 支持開源創新:基於開源項目和確保開放標準的充滿活力的社區創新模型

之於我們職業勞務公司,我們的解決方案架構由以下組件組成(如圖6):

圖6 由微軟Azure ML團隊開發的端到端架構
  1. 數據科學家使用Azure機器學習和HDInsight集羣來訓練模型。Azure HDInsight是一種面向企業的管理、全頻譜、開源的分析服務。HDInsight是一種雲服務,它使海量數據的處理變得簡單、快速和划算。模型被裝箱並放入Azure容器註冊表。Azure容器註冊表使你可以爲所有類型的容器部署構建、存儲和管理鏡像。對於這個特定的客戶參與,我們使用Azure CLI創建了一個Azure容器註冊表實例。然後,使用Docker命令將容器鏡像推入註冊表,最後從註冊表中拉出並運行鏡像。Azure CLI是一個命令行工具,爲管理Azure資源提供了很好的體驗。CLI旨在簡化腳本編寫、查詢數據、支持耗時操作等等。
  2. 該模型通過離線安裝程序部署到Azure棧上的Kubernetes集羣。Azure Kubernetes Service (AKS)簡化了Kubernetes的管理,它通過Azure CLI等工具簡化了集羣的供應,並通過自動化的升級和擴展簡化了集羣的維護。此外,創建GPU集羣的能力使AKS能夠用於高性能服務和機器學習模型的自動擴展。
  3. 最終用戶提供的數據是根據模型評分的。將預測模型應用於一組數據的過程稱爲對數據進行評分。一旦建立了模型,就可以將模型規格說明保存在一個文件中,該文件包含重構模型所需的所有信息。然後你可以使用該模型文件在其他數據集中生成預測分數。
  4. 從評分中獲得的洞見和異常將被存儲起來供以後上傳。Azure Blob storage 用於存儲所有項目數據。Azure機器學習服務與Blob存儲集成在一起,以便用戶不必在計算平臺和Blob存儲之間手動移動數據。從該工作負載所需的性能來看,Blob存儲也是非常划算的。
  5. 在全局應用程序中,全局相關和兼容性的洞見可供使用。Azure App Service是一種託管Web應用程序、REST API和移動後端的服務。App Service不僅爲你的應用程序添加了Microsoft Azure的強大功能,比如安全性、負載平衡、自動縮放和自動化管理,還爲你提供了DevOps能力,例如Azure DevOps、GitHubDocker Hub以及其他來源的持續部署,包管理、準生產環境、自定義域和SSL證書。
  6. 最後,利用邊緣評分數據對模型進行改進。

原則4:構建數據科學技巧工具箱

在爲我們的職業勞務公司開發基於推薦的人員分配方案時,我們立刻意識到他們的時間有限,並且沒有無限的計算資源。組織如何組織他們的工作以保持最高的生產力呢?

我們與客戶的數據科學團隊緊密合作,幫助他們開發了一組不同的技巧,以優化他們的工作,縮短生產時間,例如:

  • 首先,不要在你擁有的整個數據集進行培訓,而應在一個小得多的子集上:一旦數據科學團隊清楚地瞭解了他們需要實現的功能、損失函數、度量標準和超參數值之後,再進行擴展。
  • 重用以前項目中獲得的知識:許多數據科學問題都是彼此想通的。從其他數據科學家過去解決過的類似問題中重用超參數或特徵提取器的最佳值,這將爲組織節省大量時間。
  • 設置自動報警,通知數據科學團隊某個特定的實驗已經結束:假使實驗時有些東西出錯了,這麼做將節省數據科學團隊的時間。
  • 使用Jupyter筆記本進行快速原型設計:數據科學家可以在對結果滿意之後再將代碼重寫爲Python包/類。
  • 將實驗代碼保存在版本控制系統中,比如GitHub
  • 使用雲中的預配置環境進行數據科學開發:這些是虛擬機鏡像(如Windows虛擬機Azure數據科學虛擬機),使用一些常用的工具進行預安裝、配置和測試,這些工具通常在數據分析和機器學習培訓會用得到。
  • 在運行實驗時,列出要做哪些事情:數據收集、清理、註釋;閱讀新的數據科學主題,嘗試新的算法或框架。所有這些活動都會對你未來項目的成功有所助益。建議可參考這幾個數據科學網站:數據科學中心KDnuggetsRevolution Analytics

原則5:統一組織的數據科學願景

從開始數據科學過程的第一天起,數據科學團隊就應該與業務夥伴進行交互。數據科學家和業務夥伴不經常接觸解決方案。業務夥伴希望遠離技術細節,數據科學家也是想遠離業務。然而,爲了理解並行模型的實現以構建模型,他們之間保持持續交互是非常重要的。大多數組織都難以解鎖數據科學以優化其操作流程,讓數據科學家、分析師和業務團隊採用一致的語言:不同的團隊和數據科學流程常常是形成摩擦的根源。這種摩擦定義了新的數據科學鐵三角,它基於的是數據科學、IT運營和業務運營的協調配合。

爲了與客戶共同完成這項任務,我們實施了以下步驟:

  • 要求C級別高管的支持採納這一願景,並將其推動至其他不同業務部分:哪裏有清晰的目標,願景和支持,就在哪裏先試點,最初的成功或勝利,會刺激大家進一步試驗和探索,這經常會導致多米諾效應,讓大家產生積極的轉變。
  • 營造一種實驗文化:即使有了明確的目標,但通常僅憑這一點也不會帶來成功的業務轉型。在許多組織中,一個重要的障礙是員工沒有足夠的權力來實現變革。向員工充分授權有助於讓員工參與進來,並讓他們積極地爲共同的目標做出貢獻。

讓每個人都參與到溝通中來:達成共識會增強績效表現。如果數據科學家在沒有其他人蔘與的情況下孤立地工作,組織將缺乏共同承擔的願景、價值觀和共同的目標。跨多個團隊的組織的共同願景和共同目標,能帶來協作的提升。

原則6:讓人類參與其中

成爲一家數據驅動型公司,更多的是一種文化轉變,而不僅僅是數字化:因此,任何數據科學解決方案的結果都應讓人類參與評估,這很重要。人類-數據科學的團隊合作將會得到比任何一個單獨的團隊更好的結果。

例如,在我們的客戶案例中,我們結合數據科學與人類經驗,幫助他們構建、部署和維護了一個人員部署推薦解決方案,爲新項目建議最優的人員組合和具有對口經驗和專業知識的人員,這常常會直接帶來經濟價值。在我們部署瞭解決方案之後,我們的客戶決定與幾個項目團隊進行試點。他們還創建了一個數據科學家和業務專家的v-Team,目的與機器學習解決方案並行開展工作,從兩個試點團隊使用Azure機器學習解決方案前後比較機器學習在項目完成時間、收入、員工、客戶滿意度等方面得出的結果。這種由一組數據和業務專家進行的線下評估對項目本身非常有益,這主要有兩個原因:

  1. 驗證了該機器學習解決方案能夠爲每個項目提高約4%到5%的貢獻邊際;
  2. 該v-Team能夠測試這個解決方案並創建一個可靠的即時反饋機制,使他們能夠不斷地監控結果並改進最終的解決方案。

在這個試點項目之後,客戶成功地將我們的解決方案集成到了他們的內部項目管理系統中。
在開始這種數據驅動的文化轉變時,公司應該牢記以下幾點準則:

  • 並肩工作:業界領先的公司越來越認識到,當技術能夠助力人類,而不是取代人類時,它們纔是最有效的。理解數據科學和人類爲不同類型的工作和任務帶來的獨特能力將是至關重要的,因爲這樣重點就從自動化轉向了對工作的重新設計。
  • 對人類接觸的認知:重點是要記住,即使高度電腦化的工作不得不保持在面向服務的層面,並由像數據科學家和開發人員這些角色來解釋公司的成功,但仍需要創造力、同理心、溝通能力和解決複雜問題等必要的人類技能。
  • 投資於勞動力的發展:對勞動力的發展、學習和職業模式予以重新關注也很重要,要不吝爲其注入創造力。也許最關鍵的是對做有意義的工作的需求——儘管他們與智能機器有了新的合作,但人類將熱切地擁抱這些工作。

在數據科學需要額外的目前昂貴得令人望而卻步的基礎設施(例如巨大的知識圖譜),以在每個領域中提供上下文和替代人類經驗的情況下,人類組件將特別重要。

結論

通過在數據分析過程中應用健康數據科學組織框架中的這六個原則,組織可以針對他們的業務做出更好的決策,他們的選擇將得到可靠的數據收集和分析的支持。

我們的客戶能夠實現一個成功的人員部署推薦解決方案,該方案爲新項目推薦最優的員工組合和具有對口經驗和專業知識的個人員工。通過將員工經驗與項目需求結合起來,我們幫助項目經理更好更快地進行人員分配。

通過實踐,數據科學過程將變得更快、更準確,這意味着組織將做出更好、更明智的決策,從而最有效地運營。

以下是一些可能會用到的附加資源,可幫助你學習如何培養健康的數據科學思維,建立一個成功的數據驅動組織:

作者簡介

Francesca Lazzeri博士(推特:@frlazzeri)是微軟雲計算倡導團隊的高級機器學習科學家,也是大數據技術創新和基於機器學習的解決方案在現實問題中的應用方面的專家。她是《時間序列預測:機器學習方法》(O 'Reilly Media, 2019)一書的作者,她定期在美國和歐洲的大學教授應用分析和機器學習課程。在加入微軟之前,她是哈佛商學院商業經濟學研究員,她在那裏的技術和運營管理部門進行統計和計量分析。她還是麻省理工學院博士和博士後的數據科學導師,並在學術和行業會議上發表主題演說和專題演講,在會上,她分享了她對人工智能、機器學習和編碼的知識和激情。

查看英文原文:The Data Science Mindset: Six Principles to Build Healthy Data-Driven Organizations

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章