阿里云大数据ACP专业认证实验之12-DataWorks基本操作

一、实验概述

DataWorks (数据工场，原大数据开发套件DataIDE),是基于MaxCompute(原ODPS) 计算引擎的一站式大数据开发管理的平台，它融合了数据集成、数据开发、数据管理、运维监控、机器学习等功能，提供了海量数据的离线加工分析、数据挖掘的能力，能帮助企业快速的搭建数据中心。

二、实验目标

1）通过创建项目、同步数据、编写SQL程序、配置调度任务、运维监控等环节，实现完整的数据处理流程。

2）能对DataWorks的主要功能有所了解，能够按照实验演示内容，独立完成数据采集、数据开发、任务运维等数据岗位常见的任务。

三、实验场景

模拟RDS数据库为生产系统，实现从生产系统抽取数据到ODPS中，进行数据自动化分析处理，最后展现处理结果。

第 1 章：实验准备

1.1 申请阿里云资源

在弹出的左侧栏中，点击创建资源按钮，开始创建实验资源。资源创建过程需要1-3分钟。完成实验资源的创建后，用户可以通过实验资源查看实验中所需的资源信息，例如：阿里云账号等。

1.2 申请实验资源

1、申请沙箱实验资源 1）点击【实验资源】，查看本次实验资源信息（MaxCompute资源、RDS资源）。如下图： 2）在弹出的左侧栏中，点击【创建资源】按钮，开始创建实验资源。如下图：
注意：实验环境一旦开始创建则进入计时阶段，建议学员先基本了解实验具体的步骤、目的，真正开始做实验时再进行创建。 3）创建资源，如下图：（创建资源需要几分钟时间，请耐心等候……） 4）资源创建成功后，可通过【实验资源】查看实验中所需的实验资源信息。如下图: 注意：在本地保存下阿里云账号信息，包括资源中的项目名称、企业别名、子用户名称、子用户密码、AK ID、AK Secret信息沙箱实验环境说明：

企业别名：即主账号ID,在登录时需要；

子用户名称和子用户密码：登录实验环境以及配置MaxCompute 数据源时需要；

AK ID和AK Secret：系统为当前用户分配的登录验证密钥信息；

控制台url：登录实验环境的地址；

实验数据库RDS实例：在配置 MaxCompute 数据源时需要；

实验数据库RDS链接地址：为登录数据库的地址信息。

1.3 登录实验环境

1、使用实验沙箱登录

1）点击实验资源中的【控制台url】，复制链接，在新的窗口打开，跳转到登录页。 2）在登录页，输入【实验资源】中提供的账号，格式为：子用户名称@企业别名，再点击【下一步】。如下图： 3）输入【实验资源】中提供的的“子用户密码”，点击【登录】 4）登陆后，进入【管理控制台】界面, 点击左侧菜单栏【大数据（数加）】，再点击【DataWorks】 5）选中相应项目，点击【进入数据开发】 6）进入数据开发环境 2、使用阿里云账号登录

1）打开浏览器，输入阿里云官网地址 www.aliyun.com，点击右上角菜单【控制台】： 2）使用自己的阿里云官网账号登陆控制台，如果没有账号，请先实名注册： 3）登陆后，进入【管理控制台】界面, 点击左侧菜单栏【大数据（数加）】，再点击【DataWorks】 4）选中相应项目，点击【进入数据开发】。如果没有项目，请先创建项目。

第 2 章：实验详情

2.1 创建项目

1、创建项目注意：DataWorks是项目协作模式，只有阿里云主账号可以创建项目，其他子账号仅作为使用者在项目中操作。因沙箱实验环境限制，用户使用子账号登录，无权限创建项目。故实验环境已默认创建完项目，此章节内容仅供了解。

如果没有项目，创建项目步骤如下：

1）进入【管理控制台】界面, 点击左侧菜单栏【大数据（数加）】，再点击【DataWorks】，然后在【项目列表】中选择区域，再点击【创建项目】。如下图： 2）选择region、计算引擎服务、DataWorks服务，付费方式根据自己的实际情况选择，然后点击【下一步】： 3）填写项目相关信息：输入“项目名称”、“显示名”以及“项目描述” 信息，然后点击【创建项目】。 4）创建项目成功后，点击【刷新列表】，即可看到项目列表，如下图 5）在【项目列表】页签中，选中项目，点击【进入数据开发】按钮，开始数据开发工作。也可点击【概览】，选中项目，点击【进入数据开发】按钮，开始数据开发工作。 6）初次打开需勾上协议条款，点击【确认】，然后进入数据开发页面

2.2 创建RDS数据库

说明：本实验利用阿里云RDS数据库，模拟构建生产系统。沙箱实验环境中已默认创建完RDS数据库实例，下面1）小节仅参考，直接进行 2）小节

1）创建RDS数据库实例：

打开【管理控制台】，在左侧菜单栏中，点击【云计算基础服务】，在下拉菜单中点击【云数据库RDS版】，然后点击右上角的【创建实例】按钮。依次选择“付费类型”（按量付费）、“地域”（按照实验资源分配地区）以及“数据库类型”（MySQL）、“版本”（5.7）、“系列”（高可用版）、“可用区信息”（华东2可用区B）：选择“网络类型”（经典网络）、“规格”（1核1GB）、“存储空间” （最小5GB）、“数量”（选择1）点击确认订单,点击进入【管理控制台】，等待实例由“创建中”变成“运行中” (此过程需要几分钟,请耐心等待) 2）创建数据库

点击左侧栏数据库管理，点击创建数据库按钮输入“数据库名称”(自行命名)、选择“支持字符集合”（实验选择“utf8”）等信息，点击【创建】按钮 3）创建数据库账号

点击左侧菜单栏中的【账号管理】，进入 “创建账号” 界面具体创建账号参考示例：

① 输入自定义“数据库账号”、账号类型选择“普通账号” 选择“授权数据库”、自行“设置密码”、“确认密码” 然后点击确定。 ② 点击【确定】，等待系统处理：

③ 账号状态变更为“激活”，类型为“普通账号”，所属数据库为lab_db，拥有读写权限： 4）登录数据库

点击产品与服务，选择数据管理DMS。选择左侧栏中快捷登录，RDS登录。（注意：如果出现授权提示，点击关闭比即可）

输入网络地址：端口、用户名、用户密码（实验中新建的数据库用户及对应密码）网络地址为RDS实例的内网链接地址:端口格式填入。输入完成点登录，即可访问数据库操作工作台，可执行相关操作

2.3 RDS数据导入

1）新建表。

登录RDS数据库，在顶部菜单栏中，点击【SQL操作】，然后点击下拉列表中的【SQL窗口】。输入SQL建表语句，创建表t_dml_data，用于模拟存储业务系统的生产数据。

建表语句如下：

create table IF NOT EXISTS t_dml_data (

detail_id bigint,

sale_date datetime,

province VARCHAR (20),

city VARCHAR (20),

product_id bigint,

cnt bigint,

amt double,

PRIMARY KEY (detail_id)

);

点击【执行】，建表成功后刷新左侧列表，窗口可显示刚建的表。 2）导入数据

点击顶部菜单栏的【数据方案】，在下拉列表中点击【导入】。点击【新增任务】，填写“文件类型”、“数据库”、“表”、“写入模式”、“附件”等信息，然后点击【开始】，执行数据导入任务。（注意：如果导入失败，请将文件字符集改为UTF-8格式重新导入）如下图，导入任务完成后，会显示数据导入详情。关闭详情，可看到该任务。击左侧树中的表名，选择【打开表】，可看到表中的数据信息

2.4 DataWorks数据集成

2、DataWorks数据集成注意：只有项目管理员角色才能新增数据源，其他角色的成员仅能查看数据源。

1）点击DataWorks进入DataWorks控制台，选择左侧栏工作空间列表，点击数据开发，然后选择数据集成，进入顶部菜单栏中的【数据集成】页面，点击左侧导航栏中的【数据源】，再点击右上角的【新增数据源】，如图： 2）选择关系型数据库“MySQL”, 在弹出框中填写相关配置项，并确认已添加白名单。然后点击【测试连通性】，若测试成功，点击【确定】即可。

注意：RDS实例相关信息可点击【实验资源】查看。RDS实例购买者ID需要填主账号ID（即企业别名）；个人阿里云账户可参考下面3）、4）、5）步骤来获取相关信息新建或编辑数据源，相关信息填写完成后，(数据源名称根据业务自定义即可)，点击“测试连通性”按钮。如果弹出右侧红色弹框，说明白名单设置有问题。点击【点我查看如何添加白名单】，注意根据项目所在 Region 选择相应的白名单环境、信息配置成功后，点击“测试连通性”会弹出右侧成功的提示，然后点击“完成”即可。以下内容本实验不用进行，提供给个人账号操作使用

3）个人账号查看RDS实例ID

在【管理控制台】界面，点击左侧菜单栏【云计算基础服务】中的【云数据库RDS版】，在打开的实例列表中选中实例，点击查看实例信息。 4) 个人账号查看RDS实例购买者ID

在【管理控制台】界面，点击右上角显示的登录账号，进入“安全设置”，查看”账号ID”

2.5 DataWorks数据同步

1）打开【管理控制台】，在左侧菜单栏中点击【大数据(数加)】，在下拉菜单中选择【DataWorks】，然后在项目列表中选中项目，点击【进入数据开发】。 2）点击左侧选项卡中的【任务开发】，然后点击【新建】，选择【新建业务流程】 3）输入业务名称，然后点击【新建】。

说明：工作流任务是节点任务的集合，一个工作流任务中，可以创建多个节点任务，一个节点任务，可以完成一件事，而一个工作流任务，可以完成一个流程。 4）在节点组件中选择【离线同步】，拖动到右侧画布中然后输入“节点名称”，点击【提交】。

5）双击节点，进行数据同步设置。

① 设置源表，数据源为“odps_ds(mysql)”，表名为“t_dml_data”，设置数据过滤条件"province<>'新疆'"。 ② 设置目标表，数据源为“odps_first(odps)”，一键生成目标表（注意修改建表SQL的表名）填写目标表的分区信息。本示例中，分区为变量，ds=${sdate}，在右侧【调度配置】中给该变量sdate赋值为常量‘2017’，选择清理规则【写入前清理已有数据 Insert Overwrite】，设置重跑属性为运行成功或失败皆可重跑，依赖上游节点选择使用工作空间根节点。 ③ 字段映射。对字段映射关系进行配置，左侧源表字段和右侧目标表字段为一一对应的关系，并且与字段顺序无关。 ④ 设置通道控制信息。DMU是数据集成消耗资源的度量单位。本示例中设置任务并发数为“5”、不限流”、错误记录数超过“10条”，任务结束。然后进行下一步。

说明：如果数据源是线上的业务库，建议不要将并发数设置过大，以防对线上库造成影响；如果对数据同步速率特别在意，建议选择较大的作业并发数。 ⑤ 配置完成后，预览信息，如无误，点击【保存】。 6）同步数据。

节点设置完成后，点击【运行】，带参数测试运行。选择业务日期，然后点击【运行】。因是一次性调度，而且抽取源表数据时，不是按时间设置数据过滤条件，故此处的业务日期选择2017。 7）查看同步结果

当数据同步完成后，状态变为“成功”：预览表数据。在左侧栏中，点击公共表，搜索表名，然后选中数据表t_dml_data，点击【数据预览】即可看到数据，或点击临时查询，新建ODPS SQL，根据下图通过SQL语句查询数据。数据导入成功。

2.6 DataWorks数据开发

1、创建数据表创建目标表t_dml_result，用于存储数据分析后产生的结果。步骤如下：

点击顶部菜单栏中的【临时查询】，然后点击【新建】，选择【ODPS SQL】；输入节点名称，点击【提交】，然后输入建表语句建表。建表语句如下：

create table IF NOT EXISTS t_dml_result (

province string,

product_id bigint,

cnt bigint

) partitioned by (sale_date string);

创建表后，可以在左侧导航栏【表查询】中，输入表名进行搜索，查看表信息。如下图所示：或者输入如下语句进行检查表 desc t_dml_result 或者通过数据地图查看数据表信息。以上三种方法三选一即可。 2、创建SQL任务点击顶部菜单栏中的【临时查询】，然后点击【新建】，选择【新建ODPS SQL】；在弹出框中，输入节点名称，然后点击【提交】；

双击节点对节点进行配置，新版本不许全表扫描，所以要增加设置：全表扫描。在节点中编写好SQL语句后，点击右侧菜单选项进行“自定义参数配置”，然后点击【保存】并【提交】。

说明：只有提交过的任务才能被调度执行。

注意：下图中的调度类型一旦选定，不可再更改自定义参数配置：$[add_months(yyyy-mm-dd,-12*4-8)]

说明：因源表t_dml_data中数据时间为2015年5月，而调度执行时间为2020年1月，故参数需往前推4年零8个月。

需根据实际实验时间修改参数设置。

本SQL实现按省份和产品维度，对每天的销售量进行汇总。代码如下：

insert overwrite table t_dml_result partition (sale_date)

select province,

    product_id,

              sum(cnt)  as cnt,

              '${sdate}'as sale_date

from t_dml_data

where ds='2017' and substr(sale_date,1,10)='${sdate}'

group by product_id,province;

配置完成后，注意依赖关系：然后点击提交，开始运行节点。检查表信息，在临时节点输入sql检查语句 set odps.sql.allow.fullscan=true; select * from t_dml_result 3 、本地数据上传在前面章节中，我们通过数据同步的方式获取了数据源。如果直接从本地文件导入到MaxCompute呢，又该如何操作？

1）建表

① 在【临时查询】页面点击【新建】，选择【ODPS SQL】。 ② 输入节点名称，点击“提交”。

③ 输入建表语句，并点击【运行】建表语句如下：

CREATE TABLE t_dml_data_tmp (

   detail_id BIGINT,

   sale_date DATETIME ,

   province STRING ,

   city STRING ,

   product_id BIGINT,

   cnt BIGINT ,

   amt DOUBLE

)

PARTITIONED BY (pt STRING);

2）上传数据

点击顶部菜单栏的【数据开发】，然后进行数据导入

2 选择分隔符号“逗号”、原始字符集“UTF-8”、导入起始行“1”，并且去掉首行为标题的勾勾，然后点击【下一步】。 2. 输入表名及分区，点击【导入】。 3. 导入成功后，查看数据结果。执行SQL语句如下：

set odps.sql.allow.fullscan=true;

select * from t_dml_data_tmp;

查看结果如下：

4 、数据表管理点击菜单栏【表管理】，可以查看表信息。

① 查看表

点击【生产账号的表】选项卡，搜索表名，点击表“t_dml_data_tmp”即可查看表的详情信息。 ② 收藏表

通过菜单栏中数据地图进入数据管理页面，在表详情页搜索表名称可以查看表，点击【收藏】即可，也可在此单击【取消收藏】。 ③ 表权限申请

在表详情页中点击权限管理，可进行权限申请。填写申请授权弹出框中的各配置项，点击【确定】提交，然后等待审批。如下图所示：说明：

权限归属人：支持本人申请和代理申请。

本人申请：选择该项，审批通过后权限归属于当前用户。

代理申请：选择代理申请，需填写代申请账号（系统右上角显示的登录名）。审批通过后权限归属于被代理人。

权限有效期：申请表权限的时长，单位为天，不填则默认为永久。超过申请权限时长时，该权限将被系统自动回收。

申请理由：请简要填写申请理由以便更快地通过审批。

可在【数据管理】>【权限管理】> 【申请记录】中查看申请状态。

2.8 任务运维

1 、运维中心有两种方式可进入运维中心界面。

方式一：在数据开发页面，点击左上角【前往运维】，进入后即可查看到运维大屏。 2、任务列表点击左侧菜单栏中的【任务列表】，选择“任务类型”和“责任人”，可对任务进行筛选。选中某个任务，可执行“测试”、“补数据”等操作。如点击“补数据”，可补历史数据。

本例中将演示补2015-5-2和2015-5-3日的数，则会按天生成2个实例。

如下图，设置业务日期为2017-08-01至2017-08-02，点击【确定】，并【确认】。自动跳转至【补数据实例】页面，等待状态由“运行中”变为“成功”。如要验证补数结果，可前往“数据开发”页面查询表数据，通过如下语句：set odps.sql.allow.fullscan=true; select sale_data,count(*) from t_dml_result group by sale_data;。 3 、任务运维选中左侧菜单栏中的【任务运维】选项卡，点击相应实例，可重跑任务。下图以【补数据实例】为例说明：点击任务，可以查看任务运行日志。

第 3 章：课后作业

3.1 课后作业

在实际场景中，作为生产系统，数据每时每刻都在发生。那么在本实验中，要把新产生的数据从RDS同步到MaxCompute进行大数据处理，如何改进更合理？

答案供参考：

1、“IDE同步”任务的调度类型需改为“周期性调度”；

2、源表数据抽取时，根据时间设置“数据过滤”条件；

3、目标表的分区，由常量改为变量；

4、“IDE开发”中where条件加分区，避免全表扫描；

5、控制同步任务的速率以及作业并发数。

第 4 章：课后练习

4.1 课后任务

1、创建一个周期性调度的数据同步任务（数据每天增量抽取）；

2、在调度配置中，将跨周期依赖设置为“自依赖”，看看实验效果；

阿里云大数据ACP专业认证实验之12-DataWorks基本操作

一、实验概述

二、实验目标

三、实验场景

第 1 章：实验准备

1.1 申请阿里云资源

1.2 申请实验资源

1.3 登录实验环境

第 2 章：实验详情

2.1 创建项目

2.2 创建RDS数据库

2.3 RDS数据导入

2.4 DataWorks数据集成

2.5 DataWorks数据同步

2.6 DataWorks数据开发

2.8 任务运维

第 3 章：课后作业

3.1 课后作业

第 4 章：课后练习

4.1 课后任务

容器中nginx无法使用同一个网络下的容器域名

Python: SunMoonTimeCalculator

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习07——API

避免DbContext同时在多个线程调用

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

前端面試題 - Node JS與V8是什麼關係？

前端面試題 - V8是什麼？

DevExpress WinForms中文教程 - HTML & CSS支持的實戰應用(一)

Visual C++界面開發組件Xtreme Toolkit Pro v24測試版發佈——完全支持SVG

有隙可乘 - Android 序列化漏洞分析實戰

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

阿里云大数据ACP专业认证实验之12-DataWorks基本操作

一、 实验概述

二、实验目标

三、 实验场景

第 1 章：实验准备

1.1 申请阿里云资源

1.2 申请实验资源

1.3 登录实验环境

第 2 章：实验详情

2.1 创建项目

2.2 创建RDS数据库

2.3 RDS数据导入

2.4 DataWorks数据集成

2.5 DataWorks数据同步

2.6 DataWorks数据开发

2.8 任务运维

第 3 章：课后作业

3.1 课后作业

第 4 章：课后练习

4.1 课后任务

一、实验概述

三、实验场景