【譯】Databricks使用Spark Streaming和Delta Lake對流式數據進行數據質量監控介紹

原文鏈接:https://databricks.com/blog/2020/03/04/how-to-monitor-data-stream-quality-using-spark-streaming-and-delta-lake.html

在這個一切都需要進行加速的時代,流數據的使用變得越來越普遍。我們經常不再聽到客戶問:“我可以流式傳輸這些數據嗎?”,更多的是問:“我們能以多快的速度流式傳輸這些數據?”,而諸如Kafka和Delta Lake之類技術的普及更突顯了這一勢頭。我們認爲傳統流式數據傳輸的一種形式是以非常快的速度到達的半結構化或非結構化(例如JSON)數據,通常情況下一批數據的量也比較小。這種形式的工作場景橫跨各行各業,舉一個這樣的客戶案例,某個證券交易所和數據提供商,他們負責每分鐘流式傳輸數十萬個數據項目,包括股票行

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章