hdf組件簡介

NiFi

  • 離線數據、實時數據的分佈式ETL工具。

  • 支持本地文件、ftp、hdfs、數據庫、hbase、es、hive、kafka等數據的in/out。

Streaming Analytics Manager

  • Storm實時數據處理。從kafka中消費avro數據,此數據可通過nifi接入,storm處理後寫入druid、hbase、hdfs等。

  • Storm的processor包括aggregate、join、branch、pmml、projection、rule。

Schema Registry

  • 定義kafka中avro數據格式。

Model Registry

  • 註冊機器學習模型PMML,可用於SAM實時預測。

Superset

  • 數據展現工具。

  • 支持的數據源:

database pypi package SQLAlchemy URI prefix
MySQL pip install mysqlclient mysql://、 mysql+pymysql://
Postgres pip install psycopg2 postgresql+psycopg2://
Presto pip install pyhive presto://
Oracle pip install cx_Oracle oracle://
sqlite sqlite://
Redshift pip install sqlalchemy-redshift redshift+psycopg2://
MSSQL pip install pymssql mssql://
Impala pip install impyla impala://
SparkSQL pip install pyhive jdbc+hive://
Greenplum pip install psycopg2 postgresql+psycopg2://
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章