DataSync 节点

综述

AWS DataSync 是一种在线数据传输服务,可简化、自动化和加速本地存储系统和 AWS Storage 服务之间,以及不同 AWS Storage 服务之间的数据移动。

DataSync 支持的组件:

  • Network File System (NFS) file servers
  • Server Message Block (SMB) file servers
  • Hadoop Distributed File System (HDFS)
  • Object storage systems
  • Amazon Simple Storage Service (Amazon S3) buckets
  • Amazon EFS file systems
  • Amazon FSx for Windows File Server file systems
  • Amazon FSx for Lustre file systems
  • Amazon FSx for OpenZFS file systems
  • Amazon FSx for NetApp ONTAP file systems
  • AWS Snowcone devices

DolphinScheduler DataSync 组件的功能:

  • 创建 AWS DataSync 任务并启动,持续获取状态,直至任务执行完成。

创建任务

  • 点击项目管理-项目名称-工作流定义,点击“创建工作流”按钮,进入 DAG 编辑页面;
  • 拖动工具栏的 AWS Datasync - 图1 任务节点到画板中。

任务样例

独有参数

  • name: 任务名称
  • destinationLocationArn: 目标 AWS 存储资源位置的 Amazon Resource Name (ARN) ,可见 AWS API
  • sourceLocationArn: 源 AWS 存储资源位置的 Amazon Resource Name (ARN) ,可见 AWS API
  • cloudWatchLogGroupArn: 用来监控任务的Amazon CloudWatch任务组的 Amazon Resource Name (ARN) ,可见 AWS API

组件图示如下:

datasync

环境配置

需要进行AWS的一些配置,修改common.properties中的xxxxx为你的配置信息

  1. # Defines AWS access key and is required
  2. resource.aws.access.key.id=<YOUR AWS ACCESS KEY>
  3. # Defines AWS secret access key and is required
  4. resource.aws.secret.access.key=<YOUR AWS SECRET KEY>
  5. # Defines AWS Region to use and is required
  6. resource.aws.region=<AWS REGION>