NiFi
離線數據、實時數據的分佈式ETL工具。
支持本地文件、ftp、hdfs、數據庫、hbase、es、hive、kafka等數據的in/out。
Streaming Analytics Manager
Storm實時數據處理。從kafka中消費avro數據,此數據可通過nifi接入,storm處理後寫入druid、hbase、hdfs等。
Storm的processor包括aggregate、join、branch、pmml、projection、rule。
Schema Registry
- 定義kafka中avro數據格式。
Model Registry
- 註冊機器學習模型PMML,可用於SAM實時預測。
Superset
數據展現工具。
支持的數據源:
database | pypi package | SQLAlchemy URI prefix |
---|---|---|
MySQL | pip install mysqlclient | mysql://、 mysql+pymysql:// |
Postgres | pip install psycopg2 | postgresql+psycopg2:// |
Presto | pip install pyhive | presto:// |
Oracle | pip install cx_Oracle | oracle:// |
sqlite | sqlite:// | |
Redshift | pip install sqlalchemy-redshift | redshift+psycopg2:// |
MSSQL | pip install pymssql | mssql:// |
Impala | pip install impyla | impala:// |
SparkSQL | pip install pyhive | jdbc+hive:// |
Greenplum | pip install psycopg2 | postgresql+psycopg2:// |