DataSync 节点
综述
AWS DataSync 是一种在线数据传输服务,可简化、自动化和加速本地存储系统和 AWS Storage 服务之间,以及不同 AWS Storage 服务之间的数据移动。
DataSync 支持的组件:
- Network File System (NFS) file servers
- Server Message Block (SMB) file servers
- Hadoop Distributed File System (HDFS)
- Object storage systems
- Amazon Simple Storage Service (Amazon S3) buckets
- Amazon EFS file systems
- Amazon FSx for Windows File Server file systems
- Amazon FSx for Lustre file systems
- Amazon FSx for OpenZFS file systems
- Amazon FSx for NetApp ONTAP file systems
- AWS Snowcone devices
DolphinScheduler DataSync 组件的功能:
- 创建 AWS DataSync 任务并启动,持续获取状态,直至任务执行完成。
创建任务
- 点击项目管理-项目名称-工作流定义,点击“创建工作流”按钮,进入 DAG 编辑页面;
- 拖动工具栏的 任务节点到画板中。
任务样例
- 默认参数说明请参考DolphinScheduler任务参数附录
默认任务参数
一栏。
独有参数
- name: 任务名称
- destinationLocationArn: 目标 AWS 存储资源位置的 Amazon Resource Name (ARN) ,可见 AWS API
- sourceLocationArn: 源 AWS 存储资源位置的 Amazon Resource Name (ARN) ,可见 AWS API
- cloudWatchLogGroupArn: 用来监控任务的Amazon CloudWatch任务组的 Amazon Resource Name (ARN) ,可见 AWS API
或
- json: 创建 datasync 任务的JSON结构任务参数,可以支持options等参数,可见 [AWS CreateTask API] 的 Request Syntax (https://docs.aws.amazon.com/datasync/latest/userguide/API_CreateTask.html)
组件图示如下:
环境配置
需要进行AWS的一些配置,修改common.properties
中的xxxxx
为你的配置信息
# Defines AWS access key and is required
resource.aws.access.key.id=<YOUR AWS ACCESS KEY>
# Defines AWS secret access key and is required
resource.aws.secret.access.key=<YOUR AWS SECRET KEY>
# Defines AWS Region to use and is required
resource.aws.region=<AWS REGION>