物聯網中機器學習的挑戰和機遇

據研究報告到2020年,將有超過200億臺互聯網連接設備投入使用,這些設備每年將產生超過500個zettabytes的數據,隨着更多的技術進步,這個數字預計將繼續大幅增加。對於已經投資物聯網的70%以上的組織而言,所有這些數據自然代表了獨特的競爭優勢,並且獲得了用於開發創新AI應用程序的寶貴信息和見解的巨大機會。
事實證明,對於數據科學家和機器學習工程師而言,物聯網數據與商業領袖一樣令人興奮。從醫療保健和農業到教育和運輸,物聯網蓬勃發展的領域與其應用程序一樣多樣化,從發現新信息到決策控制。物聯網數據科學爲創建令人興奮的新數據產品打開了大門。但是,我們將在本文中研究物聯網數據科學的一些特殊性。

數據注意事項
正如我們所看到的,物聯網構成了新數據的最大來源之一。物聯網數據實際上可能被視爲大數據的縮影。如果我們查看通過一個設備生成的數據,我們通常會處理相當少量的數據(即使這也正在改變)。然而,隨着無數分佈式設備生成連續的數據流,物聯網產生了大量的數據。它的多樣性同樣令人印象深刻:物聯網設備收集各種類型的信息,從音頻到傳感器數據,並且總體上負責數據格式多樣性的奇妙爆發。因爲這些設備靠近用戶並不斷收集信息,這個生成的數據通常是高速的; 這使得物聯網數據特別適合時間序列建模。
但是物聯網數據也有一些獨特的方面,使得它的開發極具挑戰性。由於在採集和傳輸過程中發生錯誤,因此通常會產生噪聲。這使得構建,清理和驗證數據的過程成爲機器學習算法開發中的關鍵步驟。從本質上講,物聯網數據也是高度可變的,這是因爲各種數據收集組件之間的數據流存在巨大的不一致,並且由於存在時間模式。不僅如此,數據本身的價值高度依賴於底層機制,捕獲數據的頻率以及處理數據的方式。即使來自特定設備的數據被認爲是值得信賴的,我們仍然需要考慮到即使在類似條件下不同設備可能表現不同的事實。因此,在收集訓練數據時捕獲所有可能的情況在實踐中是不可行的。

半監督學習
然而,物聯網數據最顯着的特徵之一在於它的粗糙:因爲物聯網設備通過各種複雜的傳感器收集數據,它們生成的數據通常非常原始。這意味着在提取業務價值並構建強大的AI應用程序之前,必須進行大量數據處理。事實上,在構建智能物聯網應用程序時,將有意義的信號與噪聲分離並將這些非結構化數據流轉換爲有用的結構化數據是最重要但危險的步驟。
大量的物聯網應用需要使用有監督的機器學習,這是一類機器學習算法,需要在訓練模型之前標記數據。由於手動標記大型數據集是一項耗時,容易出錯且可能成本高昂的任務,因此機器學習專業人員通常會先着手標記的開源數據集開始,或者從少量數據開始標記。然而,物聯網數據的困難來自於它的特殊性:因爲這些數據通常是獨一無二的,所以不能保證現有的開源數據集是隨時可用的,因此工程師必須標記自己的數據。
但是,由於物聯網數據的可變性,標記一個小的隨機樣本可能是不夠的。考慮到這一點,這些是在監督算法訓練中利用標記和未標記數據的半監督學習策略的完美環境。特別是主動學習,其中允許算法向羣衆工作者查詢在訓練時智能選擇的訓練實例的子集的標籤,這是非常適合的方法,允許機器學習科學家獲得類似的算法精度。標籤成本的一小部分。

人羣傳感
在機器學習方面,物聯網發展的一個非常有趣的方面是人羣感知的出現。羣體感知存在兩種不同的形式:自願,當用戶自願提供信息時,以及機會主義,當沒有明確的用戶干預時自動收集數據。這是物聯網數據不僅可以爲物聯網應用的開發或改進做出貢獻的一種方式,而且還可以用作其他非物聯網應用的輸入。
物聯網實際上允許以前所未有的方式收集非常獨特的數據集。因爲每個設備生成的數據通常是人爲的,所以用戶可以標記或驗證它。

模型開發
如今,人工智能取得令人矚目的進步背後的主要因素之一是出現了更好的技術,例如GPU,可以實現更快的數據處理。物聯網的機器學習帶來了一個有趣的難題:雖然最好的模型需要接受大量數據的培訓,但大多數物聯網設備仍然受限於存儲空間和處理能力。出於這個原因,安全有效地將大量數據從設備傳輸到服務器或雲,反之亦然,這是開發AI應用程序的關鍵。在雲計算時代,一種自然的解決方案是將數據導出到開發模型的雲中,並在模型準備好使用後將模型導出回設備。這特別有吸引力,特別是因爲預計到2021年,所有生成的數據中有94%將在雲中處理,這意味着它也可以利用其他數據源,無論是歷史數據還是源自其他物聯網設備。然而,將複雜模型存儲回存儲器受限的設備本身就是一個挑戰,因爲具有大量參數的複雜模型(例如深度學習模型)本身通常非常大。另一方面,在用於推理步驟的從設備向雲上的模型發送數據的解決方案也可能是次優的,尤其是在延遲需要非常低的情況下。將複雜模型存儲回存儲器受限的設備本身就是一個挑戰,因爲具有大量參數的複雜模型(例如深度學習模型)本身通常非常大。另一方面,在用於推理步驟的從設備向雲上的模型發送數據的解決方案也可能是次優的,尤其是在延遲需要非常低的情況下。將複雜模型存儲回存儲器受限的設備本身就是一個挑戰,因爲具有大量參數的複雜模型(例如深度學習模型)本身通常非常大。
另一個挑戰來自於物聯網設備可能無法連續連接到雲,因此可能需要一些本地參考數據進行離線處理,以及獨立運行的能力。這是邊緣計算架構變得有趣的地方,因爲它使數據能夠在邊緣設備級別進行初始處理。當需要增強安全性時,這種方法特別有吸引力; 這也是有利的,因爲這種邊緣設備能夠過濾數據,降低噪聲並提高現場數據質量。
不出所料,人工智能工程師一直在努力實現兩全其美,最終開發出霧計算,這是一個分散的計算基礎設施。在這種方法中,數據,計算能力,存儲和應用程序以最合理的方式在設備和雲之間分佈,最終通過將它們更緊密地結合在一起來利用它們各自的優勢。

轉學習
我們已經看到物聯網設備能夠生成大數據,但在實踐中,使用外部歷史數據集開發物聯網智能應用程序的情況並不少見。這意味着可以依賴於由多個IoT設備的集合(通常是跨多個用戶的相同類型的設備)生成的數據,或者依賴於完全不同的數據源。應用程序越具體和獨特,現有數據集可用的可能性就越小 - 例如,當設備捕獲與開源圖像數據集沒有相似性的非常特定類型的圖像時就是這種情況比如Imagenet 。話雖如此,物聯網應用實際上是幾種現有現有模型的巧妙融合,這是很常見的。這使得轉移學習很好地適應了物聯網環境中智能應用的發展。
轉移學習範例包括在數據集上訓練模型(通常是金標準模型)並使用它來對另一個數據集進行推斷。或者,可以使用在生成此模型期間計算的參數作爲在實際數據集上訓練模型的起點,而不是將模型初始化爲隨機值。在這種情況下,我們將原始模型稱爲“預訓練”模型,我們對特定於應用程序的數據進行微調。這種方法可以將訓練階段加速幾個數量級。使用相同的範例,可以使用由最終用戶直接生成的數據來訓練一般模型,然後根據具體情況對其進行細化和優化。

安全和隱私問題
由於互聯網連接設備技術通過提供物理和網絡世界之間的連接來擴展當前的互聯網,因此它生成的數據非常通用,但也是導致嚴重隱私問題的原因。事實上,參與物聯網的大約50%的組織認爲安全是物聯網部署的最大障礙。考慮到大約三分之二的物聯網設備在消費者領域,以及個人的一些共享數據是如何,很容易理解爲什麼。這些問題加上與頻繁數據傳輸到雲上的預期風險相結合,解釋了用戶爲何要求保護其數據的保證。
然而,當這些物聯網應用程序由“聯合”數據(即多個用戶生成的數據)提供支持時,事情變得更加陰險:用戶數據不僅可以直接泄露,還可以通過旁道攻擊間接暴露,當惡意代理反向工程機器學習算法的輸出以推斷私人信息。由於這些原因,數據保護法明顯有必要與技術和應用程序本身一起發展。

物聯網機器學習是以人爲本的機器學習
由於物聯網設備使互聯網更貼近用戶並觸及人類生活的各個方面,因此它們通常允許收集高度上下文和個人數據。物聯網數據敘述其用戶生活的故事,並使其比以往更容易理解用戶的需求,願望,歷史和偏好。這使得物聯網數據成爲構建根據用戶個性量身定製的個性化應用程序的完美數據。
而且,由於物聯網通過收集高度個性化的數據以及提供高度個性化的應用程序和服務而非常密切地觸及我們的生活,因此物聯網機器學習可以真正成爲以人爲本的機器學習。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章