大數據ETL工具收集

1、Flink job + sql

2、Spark streaming + sql

3、Kafka stream + ksql

4、apache NIFI/StreamSets/product-sp

5、airflow etc

 

https://cloud.tencent.com/developer/article/1078852

StreamSets由Informatica前首席產品官Girish Pancha和Cloudera前開發團隊負責人Arvind Prabhakar於2014年創立。他們成立該公司主要是應對來自動態數據(data in motion)的挑戰 - 包括數據源,數據處理和數據本身,這是一個稱爲“數據漂移“(https://streamsets.com/reports/data-drift/)的問題。StreamSets設想從頭開始管理數據流,避免已有產品和工具的缺陷,並啓用一種管理動態數據(data in motion)的新方法。

他們的第一款產品StreamSets Data Collector(https://streamsets.com/products/sdc)被數百家公司用於構建複雜的任意數據流,其中包括財富500強企業,涵蓋金融服務,製造業,醫療,媒體,製藥和技術等多個行業。

他們最新的產品StreamSets Dataflow Performance Manager,也叫DPM,主要用於構建端到端的數據流。DPM是一個運行控制中心,可以讓你映射(數據流),內置的測量和監測確保持續的數據傳輸和控制動態數據(data in motion)的性能。首先,它將你不同的數據流映射到支持你的每個關鍵業務流程的拓撲中。然後監測這些拓撲的日常運行情況,根據掌握的性能情況,以滿足應用的SLA爲目標,確保你始終提供及時和可信的數據。

StreamSets在舊金山,硅谷和巴塞羅那設有辦事處,並得到頂級硅谷風險投資公司的支持,包括Accel Partners,Battery Ventures,Ignition Partners和New Enterprise Associates(NEA)。 在大數據行業領先的合作伙伴包括Cloudera,Databricks,MapR和Microsoft。

好了,Fayson講點人話吧,StreamSets是一個大數據採集工具,數據源支持包括結構化和半/非結構化,目標源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一個拖拽式的可視化數據流程設計界面,定時任務調度等功能。舉例,它可以將數據源從Kafka+Spark Streaming連接到你的Hadoop集羣,而不需要寫一行代碼。很炫酷有木有!!!下面我們隨便看幾張截圖了再往後走。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章