2019年關於數據科學、機器學習和人工智能的五大預測

總結：以下是我們對2019年關於數據科學、機器學習和人工智能的五大預測。我們還會回顧一下我們去年的預測情況。

每年的這個時候，我們都會回顧過去，展望未來。對於數據科學、機器學習和人工智能來說，則是看看什麼趨勢會加快、什麼事情會真正發生、什麼事情在未來一年不會發生。

我們一整年都在觀察和報道這些趨勢，並且我們搜索了網絡，諮詢了我們的一些專家以瞭解其他人的想法。

以下是我們對去年預測的快速回顧。

我們曾預測：模型製作和數據準備都將變得越來越自動化。更大的數據科學操作將彙集到單個平臺上（有很多可用的平臺）。這兩個趨勢都是對追求效率和效益的響應。簡而言之，就是少數幾名數據科學家可以做許多科學家的工作。

預測正確。無代碼數據科學正在崛起，高級分析平臺中端到端的集成也是如此。

我們曾預測：數據科學將越來越專業化，這意味着神話般的“全棧”數據科學家將消失。

預測正確。現在談論更多的是數據工程師而非數據科學家。數據工程師是讓數據科學模型在現實世界中工作的那些人。

我們曾預測：非數據科學家將比數據科學家做更多相當複雜的分析工作。

預測正確。數據可視化和可視化分析技術的流行，讓非數據科學家可以從複雜的數據科學工具中獲取更多價值。

我們曾預測：深度學習是複雜且艱難的。沒有很多數據科學家專長於此領域，這將阻礙人工智能的應用，直到深度學習平臺明顯地得到簡化和產品化。

微軟和谷歌都於2018年推出了自動化深度學習平臺。這些平臺都是從遷移學習開始，但在向着全面AutoDL的方向發展。還有一些整合了AutoDL平臺的初創企業。今年早些時候，我們考察了具有全面AutoML和AutoDL平臺的OneClick.AI。Gartner最近提名DimensionalMechanics爲具有AutoDL平臺的“5大酷公司”之一。

我們曾預測：儘管有炒作，但人工智能和深度學習在更廣闊市場的滲入比我們想象的更有限而且速度也更慢。

除了聊天機器人的出現，真正的人工智能在企業中的應用是有限的。它們在實現的路上，但還未完成。我所見過的最全面的研究表明，只有1/5或1/3的大型企業在“大規模”地實施人工智能，這意味着他們在實施全場緊逼戰術，給對手以最大的壓力。在規模小一點的公司中，這樣的公司所佔的比例要小得多。我們也不能真正確定它們是否意味着“真正的”人工智能。

我們曾預測：公衆（和政府）將會認真看待人工智能對社交和隱私的影響，包括有意和無意的影響。

只要看看新聞和報道，那些頂級社交媒體的高管們被政府和歐盟召喚去參加聽證會。開始看起來像遊街示衆。政府將開始監管，如果不在聯邦政府層面，那麼會更加混亂，每個州各行其是，如即將生效的加州隱私規定或澳洲的強制性反加密要求。

因此，我們去年的6個預測都實現了。儘管去年的很多預測對明年來說也有效，但是，我們打算做得更具體些。

以下是我們對2019年的趨勢預測。

預測1：數據變得比算法更重要

無論是在深度學習還是在經典機器學習領域，我們已經有1年多時間沒有取得任何重大突破。有一些漸進的改進，比如，利用時間卷積網絡（Temporal Convolutional Nets，簡稱TCN）而不是RNN來減少NLP中的延遲，但是沒有重大創新。性能最好的算法都是衆所周知的算法，或者利用自動機器學習很容易發現。

隨着各個企業踏上數字化轉型之旅，擁有更多更好的數據是成功的關鍵，而我們正處於這樣的時期。實際上，這給向不同方向發展的數據相關的解決方案提供了競爭機會。

一方面，獲取準確標記的圖像或文本訓練數據仍然相當昂貴和耗時。像Figure Eight這樣專注於標記數據的公司正在推廣智能成本效益策略，如：主動學習，它讓客戶決定標記數據和模型準確性之間的最佳權衡。這涉及添加人工標記或機器標記數據，然後重新訓練，通過多次迭代以找到最佳權衡。

另一方面是對第三方數據的訪問。像DymstData這樣的服務公司已經進入了該領域，作爲數百種附加數據的結算機構。他們還承擔着保護敏感PII這個任務繁重的角色，其用戶能夠基於角色以訪問在金融和健康服務領域特別重要的敏感信息。

第三個方面是自動跟蹤和記錄模型中所用的數據源。特別地，當集成來自很多數據源並隨着時間而變化的流數據時，瞭解數據的來源以及如何使用數據，對準確性和合規性都至關重要。Tibco和其他一些分析平臺正在引入這個功能。

圍繞數據的服務產品今年今年有望大幅增長。

預測2：隨着人工智能/機器學習從分析平臺轉移到特定於行業或流程的應用程序，一切都將變得更容易。

縱觀人工智能/機器學習初創企業的世界，就能看出競爭正在轉向特定於行業或流程的應用程序。這些應用程序或迷你平臺專注於解決行業中特定的業務問題，如市場營銷、B2B銷售、醫療保健、金融科技以及其他大約十幾個已經明確定義的領域。要想有一個快速地瞭解，請參考下圖（CB Insights年度人工智能100家優勝者）以及他們按行業或流程進行分類的方式。

這些新的應用程序專注於嵌入式人工智能/機器學習，因此，用戶所在的組織就不需要一大組內部數據科學家的支持，並且可以依賴這些開發人員繼續提供更新和改進。

有些人把這稱爲人工智能/機器學習的商品化，但是，把它們稱爲人工智能/機器學習的專業化更準確。

如果你一直從事類似的工作，那麼你可能還記得90年代後期從再造工程（Reengineering）到ERP的轉變，現在的情況和當時非常相似。最初，再造工程要求企業用複雜的定製IT解決方案來改進流程，因爲當時不存在標準解決方案。這迅速促成了大型綜合性ERP興起，其中包括甲骨文、PeopleSoft、SAP和其他一些公司，也爲像CRM這樣的專業應用程序打開了大門。我們的行業目前正在經歷同樣的變化。

這些新供應商都致力於在他們特定的利基市場提供廣泛的解決方案，但是最終會少於大而全的ERP規模的平臺。看看這些行業分類中開發商的整合浪潮吧。

還要注意在中小型企業中人工智能/機器學習採用的加速情況，這些企業不再必須擁有大型數據科學家團隊，或者完全依賴定製開發的模型。

預測3：數據工程師和數據分析師的興起

這個世界並沒有拋棄數據科學家。還遠遠沒有。但是，當缺乏擁有某種技能的人才時，市場會用另外的方式來填補，以減輕由此帶來的痛苦。

其中一種方式是通過我們前面討論過的特定於行業和流程的智能應用程序來解決問題，這些應用程序不需要大量的內部數據科學家。

第二個就是所有主流分析平臺正在做的事和快速涌現的數十個自動機器學習（AML）平臺。那就是在數據科學中更有效率，也就是說，只需要較少的數據科學家就可以做很多工作。

由於模型的數量沒有減少，事實上是在增加，這就把工作負荷轉移到了數據工程師身上，他們主要做兩件事情。

首先，他們要能夠創建數據科學所需的基礎設施，如數據湖或Spark實例。

其次，他們拿到那些模型並在業務系統中實現它們，同時跟蹤準確性並進行模型更新。

有些數據工程師還負責數據操作，以提供乾淨整潔並經過預處理的數據流。

分析平臺的另一個演進是可視化分析和數據可視化工具的增長。這些工具現在大多數和數據科學工具集完全集成到一起，並允許數據分析師和LOB經理提取更多價值，甚至指導分析工作。它們不會取代數據科學家。它強化了團隊方面正在形成的高級分析。

預測4：神經晶片：人工智能來到物聯網邊緣

有兩種不同的技術正在同時達到半成熟狀態，它們可以解決一個長期存在的問題。這個問題就是延遲問題。

考慮一下這個例子，當你想用移動設備自動把文本或圖像中的外文翻譯成英語時，你的設備實際上是把這些信號發回到在雲上運行的應用程序，翻譯工作是在那裏進行的，然後把譯文發送回你的設備。

谷歌和其他提供即時翻譯服務的公司已經從RNN轉換到稱爲時間卷積網絡的專用CNN結構，原因是RNN不能很好地適應MPP，但CNN可以。這種轉換減少了延遲，但是信號仍然需要完成整個往返。

解決該問題的兩種技術中的第1種是5G網絡。你可能知道5G速度更快，但其真正的優點是其可以承載的流量密度。這真正打開了讓你生活中的一切在互聯網上傳播的大門。這其中有多少是值得的還有待於觀察。

第2種解決方案是引入更好的新型神經晶片（又稱spiking neural networks，脈衝神經網絡）。我們希望這些全新的神經網絡架構可以成爲實現人工通用智能（Artificial General Intelligence，簡稱AGI）的途徑。這還有很長的路要走。但是，主要的芯片製造商和一些初創企業正在發佈脈衝神經晶片，專門針對芯片上CNN和RNN類模型進行了優化（沒有信號往返）。其中一些還爲了獲得極低的能耗進行了優化。

這些功能放在一起，很適合把深度學習轉移到真正位於網絡邊緣的芯片上。藉助這些新功能，物聯網和其他流數據應用程序有望在今年開始爆發。

預測5：不同的人工智能框架之間開始交互

現在，文本、語音、圖像和視頻模型正在成爲主流，我們碰到了意想不到的障礙。在一個框架（Caffe2、PyTorch、Apache MXNet、微軟Cognitive Toolkit和TensorFlow）上構建的模型無法輕鬆地移植到不同的框架。我們可以翻譯語音，但我們用的是名副其實的巴別塔。

幸運的是，這樣的痛點推動了創新。AWS、臉書和微軟合作構建了開放式神經網絡交換（Open Neural Network Exchange，簡稱ONNX），使模型可在不同的框架上互操作。

隨着在開發人員、應用程序和設備之間共享的模型的數量變得越來越多，ONNX正在成爲未來一年的關鍵技術。

這就是今年的情況。請繼續關注我們，明年來看看我們今年的預測準不準。

作者簡介

Bill是Data Science Central的編輯總監。他還是Data-Magnum的總裁兼首席數據科學家。自2001年以來，他一直從事數據科學家的工作。請通過[email protected]或[email protected]和他聯繫。

閱讀英文原文：5 Predictions about Data Science, Machine Learning, and AI for 2019，https://www.datasciencecentral.com/profiles/blogs/5-predictions-about-data-science-machine-learning-and-ai-for-2019

2019年關於數據科學、機器學習和人工智能的五大預測

以下是我們對去年預測的快速回顧。

以下是我們對2019年的趨勢預測。

預測1：數據變得比算法更重要

預測2：隨着人工智能/機器學習從分析平臺轉移到特定於行業或流程的應用程序，一切都將變得更容易。

預測3：數據工程師和數據分析師的興起

預測4：神經晶片：人工智能來到物聯網邊緣

預測5：不同的人工智能框架之間開始交互

作者簡介

情境智能NLP助手：AI的下一個重大技術挑戰

ODE網絡：一場顛覆RNN的革命即將到來

2019年關於數據科學、機器學習和人工智能的五大預測

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結