数据同步平台
功能及平台机制说明
通过提供的datax服务实现异构数据源同步操作
通过可视化管理datax-web构建数据同步任务
平台提供数据同步平台应用,注册应用后,通过进入datax-web管理页面构建数据同步任务即可
具体操作
添加数据同步平台服务
数据源管理
datax-web中构建任务
- 创建项目
项目管理,用于对构建的job任务进行分类,此处根据实际项目创建即可
- 执行器管理
执行器会在启动时,自行注册,无需手动添加。自动注册,同时也表明管理端和执行端是连通的。不推荐手动添加,手动添加不能保证执行器是可靠的
- 数据源管理
- 创建DataX任务模板
任务模板配置好之后,供“任务构建”阶段选择用
- 任务模版参数说明
- 执行器:非集群模式下,执行器只有一个,即默认自动注册的那一个
- 任务描述:为模板起个名字,最好带上执行周期。如:用户相关数据_1分钟同步一次
- 路由策略:路由策略有很多个,建议选择“轮询”,即执行器集群部署时,选择哪个执行器。轮询策略,能保证每个执行器都有机会
- 阻塞处理:选择单机串行。任务排队,串行执行。其他处理方式都会导致有任务不执行
- Cron表达式:根据实际要求的同步周期进行配置
- 任务类型:选择DataX任务
- 所属项目:根据自己的配置选择
- 子任务:这里会显示已经配置好的其他任务。当前任务执行完成之后,会触发一次子任务执行。但是不保证子任务一定执行成功,也不会对当前任务造成影响,只是触发而
- 。Jvm启动参数:这里不用配置,除非数据量特别大。任务执行时,默认1G的jvm内存
- 每个任务调度执行时,都会分配。如果配置集群,执行器的个数要小于内存总大小/1G.比如服务器内存8G,执行器个数要小于8个,最好是6个以下。因为操作系统和应用程序运行也需要内存。执行器有几个,最大并行执行任务就有几个。并行任务并不等于并发线程数。一个任务在调度执行时也可能会产生并发
- 报警邮件、超时时间、重试次数等,根据字面意思理解,按需配置
- 任务模版参数说明
构建任务
任务构建,是数据同步最核心的模块。绝大部分工作都是围绕这个模块进行了,通过Datax-web可视化的四个步骤配置完成即可(注:构建任务之前,目标数据库需要提前建立好同步需要的表结构)
-
- 数据库源:选择数据来源,即在“数据源管理”中配置的数据源
- 数据库表名:下拉列表,自动补全。选择本次要同步的表
- Sql语句:如果是单表,这个地方不需要写sql。只有关联查询时才需要写(如果关联查询用到多张表,第二步中的数据库表名,只选择一个即可)
- 切分主键:这里要填的是主键或关联查询中确定的主键。这里填了主键后,任务执行时,会根据数据量自动对数据分片,启动多个线程并发执行。加快执行速度。数据量小,可不填。
- 表所有字段:根据需要选择
Where条件:如果没有条件,可不填
如果选择“时间增量”进行增量数据抽取,这里填,operationDate >= {lastTime} and operationDate <lastTimeandoperationDate<{currentTime} operationDate是表中对应的记录操作时间的字段,具体是什么,以表中的字段名为准。 {lastTime}、lastTime、{currentTime} 与 配置增量更新时,写的参数一致。
如果选择“ID增量”进行增量数据抽取,这里填 id>= {startId} and id<startIdandid<{endId} {startId} 、startId、{endId} 与配置增量更新时写的参数一致。
- 构建writer:选择目标数据库,对应的表和字段
- 数据库源:选择在数据源管理中配置的目标数据源
- 数据库表名:目标表,根据需要选择
- 字段:目标表的字段,根据需要选择
- 前置sql语句:数据插入表之前执行的语句。如果是全量定时同步,则每次同步前都要清空表。这里需要填:truncate table 表名。如果是增量定时同步,则不需要清空表。只能填一条语句。
- postSql:数据插入表完成后,执行的后置sql语句,可以填多条,用;隔开
- 字段映射:根据同步要求,选择对应的字段。如果顺序不对,则在构建后进行修改
- 构建:
- 提示构建成功后转向“任务管理”模块,在这里可以看到刚才构建的任务
-
- 批量构建
批量构建适合同构表的批量同步,比如:1天一张订单表,现在要同步一年的365张订单表,这些表的结构完全一致,此时就可以选择批量构建。
非同构表批量同步也可以,因为没有字段的匹配过程,所以构建完成后,还需要在任务管理中找到任务进行编辑修改