展望2019 | 數據科學、機器學習和人工智能領域的五大預測

作者：William Vorhies
CDA數據分析研究院原創作品, 轉載需授權

2018年剛剛結束，在2019年到來之際，讓我們一起展望在今年數據科學、機器學習和人工智能領域會有怎樣的發展趨勢。

首先讓我們快速回顧一下，去年我們曾做出了哪些預測。

2018年預測回顧

預測1

模型生產和數據準備都將越來越自動化。

大型的數據科學操作將集中在一個平臺上。這兩種趨勢都是爲了提高效率，從而讓更少的數據科學家完成更多工作。

結果

預測正確。無代碼數據科學和端對端集成平臺都處於上升發展階段。

預測2

數據科學將繼續專業化，意味着全棧型數據科學家將消失。

結果

是的。如今比起數據科學家，數據工程師更受關注。數據工程師是那些讓數據科學模型在現實中發揮作用的人。

預測3

非數據科學家將比數據科學家執行更多複雜的分析。

結果

這是真的。Data Viz和Visual Analytics等技術作爲橋樑，讓非數據科學家能夠從複雜的數據科學工具中獲取更多價值。

預測4

深度學習很複雜。很少有數據科學家掌握剛領域的技能，這將阻礙人工智能的應用，直到深度學習平臺得到更爲簡化和產品化。

結果

微軟和谷歌都在2018年推出了自動化深度學習平臺。這些平臺從轉移學習開始，但正朝着完整自動化深度學習發展。同時也還有一些集成自動深度學習平臺。OneClick.AI有完整的自動化機器學習和自動化深度學習平臺。

預測5

儘管有大肆宣傳和炒作，但人工智能和深度學習在各大市場中滲透的速度和廣度都比你想象更慢更窄。

結果

除了聊天機器人的出現，人工智能在商業中的實際應用非常有限。他們來了，但還沒有。在我知道最全面的研究表明，在大型公司中，只有五分之一到三分之一的公司在大規模實施人工智能。在較小的公司中，這個比例要小得多。而且我們不確定哪些是否是“真正的”人工智能。

預測6

政府將開始認真看待人工智能對社會和隱私的影響，無論是有意的還是無意的。

結果

只要看到這方面的新聞就會發現，政府在針對這方面出臺相關的監管機制。對人工智能設計的隱私等方面進行規定。

我們隊2018年的預測基本正確，當中有些預測趨勢也可以用於新的一年，下面繼續看到對2019年數據科學、機器學習和人工智能領域的預測。

2019年預測

預測1：

數據變得比算法更重要

我們已經有一年多美元在深度學習和機器學習方面取得任何重大突破了。當中也有一些漸進式的改進，比如使用時間卷積網（TCN）而不是RNN來減少NLP的延遲，但沒有很大的新創新。性能最佳的算法很有名，或者可通過自動機器學習輕鬆發現。

目前，隨着公司開始實現數字化轉型，擁有更多更好的數據是成功的關鍵。實際上，這爲同時想多個方向提供數據相關解決方案的提供了競爭機會。

一個方面，獲得準確標記的圖像或文本的訓練數據仍然非常昂貴且耗時。Figure Eight這樣專注於標記數據的公司正在推廣智能的成本效益策略，比如Active Learning，讓你在標記數據和模型準確性之間取得最佳權衡。這涉及多次迭代，添加人工標記或機器標記的數據，然後重新訓練以找到最佳方案。

第二個方面是訪問第三方數據。像DymstData這樣的服務公司已經進入該領域，作爲數百種附加數據的結算方。他們還承擔着確保敏感PII受到保護等服務，這些信息在金融和醫療服務中尤爲重要。

第三個方面是自動跟蹤並記錄模型中使用數據的來源。特別是當不同來源的流數據被集成，且隨時間變化時，知道其來源以和使用方式對準確性和合規性都是至關重要的。Tibco和其他分析平臺正在整合此功能。

圍繞數據的服務產品在今年將大幅擴展。

預測2：

隨着人工智能和機器學習從分析平臺轉移到行業或流程特定應用，一切將變得更容易。

縱觀人工智能和機器學習創業公司，可以看到競爭正在轉向行業或流程特定的應用。這些應用程序或小型平臺主要解決市場營銷、B2B銷售、醫療保健、金融技術等行業特定問題。

這些新應用程序專注於嵌入人工智能和機器學習，從而企業在進行更新和改進時，只需依賴這些開發人員，而無需大型內部數據科學家團隊。

有人將這稱之爲人工智能和機器學習商品化，但更準確地說，你可以將其視爲人工智能和機器學習的專業化。

如果你熟悉90年代後期從流程再造(Reengineering)到企業資源計劃(ERP)的過渡，其實這是一回事。最初，流程再造呼籲公司使用複雜的定製IT解決方案來改進流程，因爲當時還不存在標準化解決方案。這爲Oracle、PeopleSoft、SAP等採用集成ERP的企業帶來了機遇。我們的行業目前正在經歷同樣的變化。

這些新的企業都致力於在各自特定領域提供廣泛的解決方案，但不可避免地最終得到不太大的ERP規模平臺。

還要注意中小型公司中人工智能和機器學習的採用率，這些公司不再需要大型數據科學團隊，而可以完全依賴定製的開發模型。

預測3：

數據工程師和數據分析師的崛起

這並不是說數據科學家以及不受歡迎了，遠非如此。當你缺乏某種技能時，市場會以不同的方式填補這種短缺。

一種方法是通過上文討論的行業和流程特定智能應用，這些應用程序不需要大量的內部數據科學家。

第二種方法是自動機器學習平臺在迅速涌現。這意味着效率的提高，更少的數據科學家能夠完成更多的工作。

模型的數量沒有減少，而是增加了，這將工作負荷轉移到具備兩方面技能的數據工程師上。

第一是能夠創建數據科學所需的基礎架構，如數據湖和Spark實例。

第二是採用模型，確保模型在操作系統中實現，並跟蹤模型的準確性和更新。

一些數據工程師還負責數據操作，確保數據流乾淨和預處理環節。

分析平臺的另一個發展是視覺分析和數據可視化工具的發展。如今，這些工具大多與數據科學工具集完全集成，讓數據分析師和高層能從中提取更多價值，甚至指導分析工作。他們不會取代數據科學家，但強化了高級分析中的團隊作用。

預測4：

神經形態芯片：人工智能與物聯網走向前沿

兩種不同的技術同時達到半成熟階段，從而解決長期存在的延遲問題。

例如，當你想用移動設備自動將文本或圖像外來詞翻譯成其他語言時，你的設備將信號發送到雲端進行翻譯，然後傳回設備。

谷歌等即時翻譯服務已經從RNN轉爲專門的CNN結構，稱爲時間卷積網，因爲RNN 不能很好地適應大規模並行處理，而CNN可以。這樣能夠減少延遲，但仍然保證信號的完整傳輸。

解決這個問題的兩種技術之一是5G網絡。5G速度更快，但其真正的好處是能夠承載的流量密度。這能夠讓一切信息都能在互聯網上傳輸，具體的傳輸量還有待觀察。

第二種解決方案是引入新的且更好的神經形態芯片（又稱脈衝神經網絡）。我們希望這些全新的神經網絡能夠實現通用人工智能，雖然這還有很長的路要走。

如今，主要的芯片製造商和幾家初創公司都在發佈現在正在發佈脈衝神經芯片，專門針對芯片上的CNN和RNN型號進行了優化。其中一些還針對極低功耗進行了優化。

這些特性結合在一起非常適合將深度學習轉移到網絡邊緣的芯片上。從今年開始，隨着這些新功能的出現，物聯網和其他流媒體數據應用程序將出現爆炸式增長。

預測5：

不同的人工智能框架將學會相互交流

現在，文本、語音、圖像和視頻模型已成爲主流，我們遇到了意想不到的障礙。在一個框架（Caffe2、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit和TensorFlow）上構建的模型無法輕鬆移植到不同的框架。

幸運的是，這個痛點推動了創新。AWS、Facebook和Microsoft合作構建了開放式神經網絡交換（ONNX），使模型可以在不同的框架上實現互操作。

隨着開發人員、應用程序和設備之間共享的模型數量越來越多，ONNX將成爲今年的關鍵技術。

以上就是2019年數據科學、機器學習和人工智能領域的相關預測。讓我們拭目以待，期待這些領域在今年的發展和創新。

https://www.cda.cn/?seo

展望2019 | 數據科學、機器學習和人工智能領域的五大預測

SQL優化-20231016

新的人工智能編程語言超越了深度學習

入門必備 | 大佬們推薦的 Python 書單彙總

九大人工智能發展趨勢，助你一窺未來

如何正確學習數據科學中的 python

人工智能的經濟學和效益

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結