物聯網、工業互聯網大數據的特點

隨着數據通訊成本的急劇下降,以及各種傳感技術和智能設備的出現,從手環、共享出行、智能電錶、環境監測設備到電梯、數控機牀、挖掘機、工業生產線等都在源源不斷的產生海量的實時數據併發往雲端。這些海量數據是社會和企業寶貴的財富,能夠幫助企業實時監控業務或設備的運行情況,生成各種維度的報表,而且通過大數據分析和機器學習,對業務進行預測和預警,幫助社會或企業進行科學決策、節約成本並創造新的價值。

Gartner 報告聯網的設備在 2019 年已經超過 142 億,預計 2021 年將達到 250 億,這是一個巨大的數量,產生海量的數據。但與現在大家所熟悉的互聯網相比,物聯網數據有其顯著不同特點,本文對其特點做一分析。

  • 數據是時序的,一定帶有時間戳:聯網的設備按照設定的週期,或受外部的事件觸發,源源不斷的產生數據,每一個數據點是在一時間點產生的,這個時間對於數據的計算和分析十分重要,必須要記錄。
  • 數據是結構化的:網絡爬蟲的數據、微博、微信的海量數據都是非結構化的,可以是文字、圖片、視頻等等。但物聯網設備產生的數據往往是結構化的,而且是數值型的,比如智能電錶採集的電流、電壓就可以用 4 字節的標準的浮點數來表示。
  • 數據極少有更新操作:聯網設備產生的數據是機器日誌數據,一般不容許而且也沒有修改的必要。很少有場景,需要對採集的原始數據進行修改。但對於一個典型的信息化或互聯網應用,記錄是一定可以修改或刪除的。
  • 數據源是唯一的:一個物聯網設備採集的數據與另外一個設備採集的數據是完全獨立的。一臺設備的數據一定是這臺設備產生的,不可能是人工或其他設備產生的,也就是說一臺設備的數據只有一個生產者,數據源是唯一的。
  • 相對互聯網應用,寫多讀少:對於互聯網應用,一條數據記錄,往往是一次寫,很多次讀。比如一條微博或一篇微信公共號文章,一次寫,但有可能上百萬人讀。但物聯網設備產生的數據不一樣,對於產生的數據,一般是計算、分析程序自動的讀,而且計算、分析次數不多,只有分析事故等場景,人才會主動看原始數據。
  • 用戶關注的是一段時間的趨勢:對於一條銀行記錄,或者一條微博、微信,對於它的用戶而言,每一條都很重要。但對於物聯網數據,每個數據點與數據點的變化並不大,一般是漸變的,大家關心的更多是一段時間,比如過去的五分鐘,過去的一個小時數據變化的趨勢,一般對某一特定時間點的數據值並不關注。
  • 數據是有保留期限的:採集的數據一般都有基於時長的保留策略,比如僅僅保留一天、一週、一個月、一年甚至更長時間,爲節省存儲空間,系統最好能自動刪除。
  • 數據的查詢分析往往是基於時間段和某一組設備的:對於物聯網數據,做計算和分析的時候,一定是指定時間範圍的,不會只針對一個時間點或者整個歷史進行。而且往往需要根據分析的維度,對物聯網設備的一個子集採集的數據進行分析,比如某個地理區域的設備,某個型號、某個批次的設備,某個廠商的設備等等。
  • 除存儲查詢外,往往需要實時分析計算操作:對於大部分互聯網大數據應用,更多的是離線分析,即使有實時分析,但實時分析的要求並不高。比如用戶畫像、可以積累一定的用戶行爲數據後進行,早一天晚一天畫不會怎麼影響結果。但是對於物聯網應用,對數據的實時計算要求往往很高,因爲需要根據計算結果進行實時報警,以避免事故的發生。
  • 流量平穩、可預測:給定物聯網數量、數據採集頻次,就可以較爲準確的估算出所需要的帶寬和流量,每天新生成的數據大小。而不是像電商,在雙 11 期間,淘寶、天貓、京東等流量是幾十倍的漲幅。不像 12306 網站,春節期間,網站流量是幾十倍的增長。
  • 數據處理的特殊性:與典型的互聯網相比,還有不一樣的數據處理需求。比如要檢查某個具體時間的設備採集的某個量,但傳感器實際採集的時間不是這個時間點,這時候往往需要做插值處理。還有很多場景,需要基於採集量,做複雜的數學函數計算。
  • 數據量巨大:以智能電錶爲例,一臺智能電錶每隔 15 分鐘採集一次數據,每天自動生成 96 條記錄,全國就有接近 5 億臺智能電錶,每天光智能電錶就生成近 500 億條記錄。一臺聯網的汽車每隔 10 到 15 秒就採集一次數據發到雲端,一臺車一天就很容易產生 1000 條記錄。如果中國 2 億輛車全部聯網,每天將產生 2000 億條記錄。五年之內,物聯網設備產生的數據將佔世界數據總量的 90% 以上。

物聯網、工業互聯網的數據是流式數據,象視頻流,而且單個數據點的價值很低,甚至丟失一小段時間的數據也不影響分析的結論,也不影響系統的正常運行。但看似簡單的事情,由於數據記錄條數巨大,導致數據的實時寫入成爲瓶頸,查詢分析極爲 緩慢,成爲新的技術挑戰。傳統的關係型數據庫、NoSQL 數據庫以及流式計算引擎由於沒有充分利用物聯網數據的特點,性能提升極爲有限,只能依靠集羣技術,投入更多的計算資源 和存儲資源來處理,系統的運營維護成本急劇上升。

面對這一高速增長的物聯網數據市場,近幾年出現一批專注時序數據處理的公司,比如美國的 InfluxData,其融資已經超過 1.3 億美元,其產品 InfluxDB 在 IT 運維監測方面有相當的市場佔有率。在工業控制領域老牌實時數據庫公司 OSIsoft 在 2017 年 5 月獲得軟銀 12 億美元的投資,期望成爲新興的物聯網領域的數據庫的領頭羊。開源社區也十分活躍,比如基於 HBase 開發的 OpenTSDB。中國國內,阿里、百度、華爲都有基於 OpenTSDB 的產品。

2017年成立的北京濤思數據科技有限公司看好這一市場,不依賴任何第三方軟件或開源軟件,在吸取衆多傳統關係型數據庫、NoSQL 數據庫、流式計算引擎、消息隊列等軟件的優點之後自主開發了 TDengine, 一個完整的時序大數據處理引擎。TDengine 的性能遠超 InfluxDB, 而且其安裝、部署、維護簡單,使用 SQL 接口,學習成本幾乎爲零,有望成爲時序數據處理市場的一匹黑馬。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章