0012-什麼是數據科學工作臺?爲什麼數據科學家需要它?

溫馨提示:要看高清無碼套圖,請使用手機打開並單擊圖片放大查看。

數據科學本質上是一個探索和創新的過程,因爲通常對於現在的問題沒有明確的答案,也沒有獲得答案的確定的途徑。數據科學家用數據和他們的經驗研究問題,探索數據,創建模型,然後通過這些再來決定選擇哪些參數和過程來處理手頭的具體問題。這使得分享與協作變得非常重要,因爲需要數據科學家團隊裏的每個人都能共享彼此的研究和知識,並最終產生最佳的結果。

數據科學隨着大數據的技術一起發展,新的技術一直都在出現。這種變化從一些公司的數據科學家的背景和技能就就看得出來。數據科學家使用各種語言和工具包,包括開源的軟件比如R,Python,Spark,以及商業軟件比如SAS和SPSS,對於商業工具他們可能受過專門的培訓也會非常擅長。爲了讓數據科學取得成功,各個公司都會讓數據科學家高效的工作,讓他們用最好的技術來解決手頭的問題,而不受其背景的限制。

關於這點,數據科學工作臺能提高數據科學家的工作效率和產出。數據科學工作臺是一個應用程序,它允許數據科學家在本地環境或者部分企業環境下選擇他們自己喜歡的技術,語言和庫來工作。數據科學工作臺,可以讓數據科學家訪問存儲在其機器和公司中的工具。例如數據科學工作臺可以給數據科學家提供Jupyter或者Zeppelin這種notebook,同時也提供R或者Python這種廣泛使用的統計語言的開發環境。

數據科學家需要花大量的時間和精力來搭建他們的分析環境。這個搭建過程包括識別數據,從大量數據源收集數據並且導入到數據分析平臺上,然後開始分析。通過工作臺,數據科學家只需要最簡單的設置就可以直接連接到數據湖裏的數據源。一旦連接到數據源後,數據科學家就可以用工作臺提供的notebook,使用Spark或者其他機器學習技術連接到集羣並開始工作。

對於數據科學家來說一件很重要的事就是和同行或者同事交流意見和想法。數據科學工作臺提供了一個交流分享的可視化環境,這樣數據科學家可以和不同技術領域的專家一起交流分享他們的研究成果。團隊成員不僅可以分享代碼,還可以把整個包括數據集的可恢復的研究環境打包分享出去,這樣團隊的其他成員可以直接開始研究而不需要繁瑣的設置。工作臺提供的協作模式不僅可以促進學習交流和思想碰撞,還可以讓不同技術領域的專家們一起預測模型。使用來自不同團隊的條件和用例來測試模型,提高了預測模型的魯棒性和預測能力。同時,在研究問題的過程中,數據科學家會發現代碼,手冊或者操作教程都可以有效的解決手頭上的問題。市場上一些領先的工作臺還可以讓數據科學家們把這些都整合到當前的項目中。

數據工作臺的所有這些因素,使得數據科學家可以自給自足,提高建模效率,更重要的是,加快了預測和分析。

參考英文原文:https://zh.hortonworks.com/blog/data-science-workbench-data-scientists-need-one/

醉酒鞭名馬,少年多浮誇! 嶺南浣溪沙,嘔吐酒肆下!摯友不肯放,數據玩的花!
溫馨提示:要看高清無碼套圖,請使用手機打開並單擊圖片放大查看。
0012-什麼是數據科學工作臺?爲什麼數據科學家需要它?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章