DataWorks介绍

DataWorks（数据工厂，原大数据库开发套件）是阿里云数加重要的PaaS平台产品，它提供全面托管的工作流服务，一站式开发管理界面，帮助企业专注于数据价值的挖掘和探索。
它是一套基于MaxCompute（原ODPS）的DW解决方案，他集成了阿里多年的DW实施经验，提供数据集成、处理、分析和管理功能，并为代码开发、调试、发布、运维、监控和管理提供了一个高效、安全的离线数据开发环境。

全面托管的调度

强大的调度能力，千万级别的任务调度；
支持按照时间、依赖关系的任务触发机制；
支持每日任务按照DAG关系准确、准时运行；
支持分钟、小时、天、周和月多种调度周期配置；
完全托管的服务，无需关心调度服务器资源问题；
租户之间提供隔离，保证不同租户之间的任务不会互相影响。

支持多种任务类型

支持数据同步、SHELL、MaxCompute SQL、MaxCompute MR等多种任务类型，通过任务之间的相互依赖完成复杂的数据分析处理。

可视化开发

提供可视化的代码开发、工作流设计器页面，无需搭配任何开发工具，简单的拖拽和开发就可以完成复杂的数据分析任务。
只要有浏览器、有网络，便可随时随地进行开发工作。

监控告警

运维中心提供可视化的任务监控管理工具，支持以DAG图的形式展示任务运行时的全局情况；
可方便地配置短信、邮件报警，任务发生错误可及时通知相关人员，保证业务正常运行。

DataWorks产品特点

基于MaxCompute：一套基于Max Compute（原ODPS）的数据开发、数据管理工具。
清晰可见的血缘：基于统一的元数据服务提供数据资源管理视图、可视化的数据血缘分析、清晰展现数据表的输入与输出，方便追溯其处理过程。
一站式数据开发：提供数据同步、数据加工、一键发布、调度引擎等一站式大数据开发服务。
可视化开发界面：面向数据开发者、数据运维人员，项目管理者提供了可视化的开发界面。

产品优势

1、专业
解决数据同步、开发与运维问题。全面提升大数据加工的效率，降低成本。
2、易用
屏蔽云端复杂性，轻松完成云端数据同步。灵活撰写数据处理代码，极简任务管理。
3、大数据处理能力
与MaxCompute（原ODPS）完美融合，释放其处理能力。实现数据价值的深度挖掘与业务的数据化运营。

DataWorks基本概念

组织与项目空间

组织

组织是大数据平台特有概念，一个公司开通大数据平台服务就创建一个组织，一个组织内创建多个项目空间。组织之间互相隔离，一个账号只能所属一个组织。元数据按组织隔离，只能查看本组织下的表元数据。

项目空间（project）

项目空间时数据开发中最基本的组织对象，类似于传统数据库的database。数据开发的项目空间，是进行多组织隔离和访问控制的主要边界，也是用户管理表（table）、资源（resource）、自定义函数（UDF）、作业（job）、节点（node）、工作流（workflow）、权限等的基本单元。

任务（task）

任务是指定义对数据执行的操作。每个任务使用0或0个以上的数据表（数据集）作为输入，生成一个或多个数据表（数据集）作为输出。
如：
使用数据同步节点任务，将数据从RDS复制到MaxCompute。
使用MaxCompute SQL节点任务运行MaxCompute SQL来进行数据的转换。
使用工作流任务，通过内部几个不同的SQL内部节点完成一系列的数据转换。

工作流（WorkFlow）

工作流是一个DAG图（有向无环图），其描述了作业中多个节点之间的逻辑（依赖关系）和规则（运行越是）。

节点（Node）

节点属于工作流的字对象，也称为任务，是数据开发数据处理和分析过程的最基本单元，每个任务对应DAG图中的一个节点，其可以是一个SQL Query、命令和MapReduce程序。

依赖关系（Dependency）

依赖关系是描述两个或多个节点/工作流之间的语义连接关系，其中上游节点/工作流的运行状态可以影响下游节点/工作流的运行状态，反正则不成立。

实例（Instance）

在调度系统中的任务经过调度系统、手动触发运行后会生成一个实例，实例代表了某个任务在某时某刻执行的一个快照，实例中会有任务的运行时间、运行状态、运行日志等信息。

资源（Resource）

资源是数据开发的特有概念，用户可以上传本地自定义的JAR或文件作为资源，在节点运行时调用，如，在数据开发中运行MapReduce程序，需要将MapReduce生成的JAR包上传到平台后，通过节点调用所上传的资源来运行此MapReduce程序。

函数（Function）

MaxCompute提供了Java的编程接口来开发用户自定义函数。在大数据平台数据开发套件中指出Java UDF。
说明：资源与函数都是MaxCompute的概念，在DataWorks中，可以通过界面管理资源、函数。如果通过MaxCompute的其他方式进行资源、函数管理，则无法在DataWorks中进行相关的查询。

DataWorks功能框架

DataWorks是底层基于MaxCompute（原ODPS）的集成开发环境，包括数据开发、数据管理、数据分析、数据挖掘和管理控制台。其中数据分析和数据挖掘属于阿里云大数据开发平台高级组件。

大数据开发平台功能模块

组织管理

管理dataworks的项目空间。
管理dataworks的调度资源。
管理组织成员、权限、角色等

项目管理

配置项目属性，包括基本属性、数据源、计算引擎以及流程控制。
管理项目成员

数据开发

开发任务、脚本、配置调度
管理资源、函数等。

数据管理

找数据、权限管理
数据表管理

运维中心

任务管理，包括查看、编辑、运行
任务的运维和监控，包括运行日志、调度和恢复以及监控报警

DataWorks角色隔离

组织管理员

指组织的管理者，可新建计算引擎、新建项目空间、新建调度资源、添加组织成员、为组织成员赋予项目管理员角色、配置数据类目等。即阿里云云账号的角色，此角色不能赋予其他账号。

项目管理员

指项目空间的管理者，可对该项目空间的基本属性、数据源、当前项目空间计算引擎配置和项目成员等进行管理，并为项目成员赋予项目管理员、开发、运维、部署、访客角色。对应maxcompute的数据权限为project/table/fuction/resource/instance/job/volume/offlinemodel/package的所有权限，对应maxcompute的role_project_admin角色

开发

开发角色的用户能够创建工作流、脚本文件、资源和UDF，新建/删除表，同时可以创建发布包，但不能执行发布操作。maxcompute的数据权限为project/fuction/resource/instance/job/volume/offlinemodel/package/table的所有权限，对应maxcompute的role_project_dev角色

运维

运维角色的用户由项目管理员分配运维权限；拥有发布及线上运维的操作权限，没有数据开发的操作权限。maxcompute的数据权限为project/fuction/resource/instance/job/offlinemodel的所有权限，拥有volume/package的read权限和table的read/describe权限。maxcompute角色为role_project_pe.

部署

部署角色与运维角色相似，但是它没有线上运维的操作权限。默认无maxcompute的数据权限，对应maxcompute的role_project_deploy角色

访客

访客角色的用户只具备查看权限，没有权限进行编辑工作流和代码等操作。默认无maxcompute数据权限，maxcompute的角色为role_project_guest.

安全员

安全管理员仅在数据保护伞中用到，用于敏感规则配置，数据风险审计等。默认无maxcompute数据权限，maxcompute的角色role_project_security.