如何来创建数据同步?

发布网友发布时间：2022-04-23 18:59

我来回答

共2个回答

热心网友时间：2022-04-10 06:05

使用DataPipeline创建一项「数据同步」，主要分四个步骤：

配置「数据源」和「数据目的地」

配置数据源

配置数据目的地

进行「任务设置」

任务设置

对数据目的地进行配置

清洗脚本

高级设置

选择同步表

配置规则

激活「数据同步任务」

激活数据任务

1.在首页，点击「新建任务」。

2.配置任务名称，选择「数据源」和「数据目的地」。

用户可以自定义命名「数据任务」名称，最多50字符，不允许与其他任务同名。

用户可根据自身需求，配置所需的「数据源」和「数据目的地」。

如何配置数据源？

如何配置数据目的地？

目前支持配置的数据源：MySQL、Oracle、SQL Server、PostgreSQL、FTP、S3、API、Kafka、Couchbase。

目前支持配置的数据目的地：Redshift、Oracle、MySQL、SQL Server、Kafka、FTP、TIDB、Greenplum、Hive、HybridDB for PostgreSQL、HDFS

若为首次创建任务，需要添加数据源和数据目的地，并确认数据源和目的地配置符合平台要求。详情请参考：

配置完成后，用户可以点击选择需要的数据源和目的地。

3.完成第一步后，点击「下一步」，需要用户对任务进行设置。

在这个页面，用户需要对任务进行个性化的配置，在这个页面支持对任务参与人、同步范围、读取设置以及错误队列和错误通知等详细的内容进行设置。

写入并发数、写入速率*；

表和字段名称设置：自定义、全部大写、全部小写。

读取并发数、读取速率*；

读取方式、读取频率；

全量数据和增量数据

参与人能够浏览、编辑该任务，并受到该任务相关通知；

参与人设置：

同步范围

全量数据读取模式设置；

增量数据读取模式设置；

数据源设置

数据目的地设置

数据源变化设置：用户可在此处设置在数据任务同步过程中，数据源的表、字段变化的处理方式。

错误队列设置：支持设置错误队列预处理行数，错误率阈值等。

邮件设置：支持勾选需要邮件通知的信息。

子任务设置：支持设置batch大小，一次性批量写入数据量。

每个设置都已经预设了默认值，当您熟悉了解各项设置内容后，可以快速点击下一步进入后续创建流程。

更多信息请点击任务设置查看。

4.完成任务设置后，点击「下一步」，会弹窗要求用户选择表。

用户根据自己的需求选择需要读取的表/视图或者集合。

要求至少选择一个表/视图或者集合。

选择完毕后点击「保存」。

更多信息请点击选择同步内容查看。

5.同步表选择完毕后，用户需要完成「清洗规则」的配置。

在左侧列表中选择数据源表，右侧会显示该数据源表和目的地表的映射关系详情。

右侧字段详情页中，支持自定义修改目的地表名和字段名。

目的地表结构显示数据目的地实际的字段类型、标度、精度、主键、NotNull等信息，允许修改。

支持针对每个字段设置：字段忽略、数据过滤、数据替换。（收起数据源表结构后进行配置）

忽略：在任意非主键字段右方的忽略项上打钩后，该字段数据将不会被系统同步到数据目的地。

数据过滤：用户输入过滤规则后，系统只会同步符合该过滤规则的数据。

数据替换：用户输入替换规则后，系统会把符合规则的数据根据配置全部替换。

支持对数据表进行清洗脚本配置。
* 用户可以在清洗脚本中用Java语言编写清洗规则来过滤掉脏数据。

目前基本清洗功能无法和高级清洗同时使用。

支持对数据表进行读取条件配置。

对需要同步的每个表（集合）完成规则配置后，点击「保存」即可。

更多要求请点击配置规则查看。

6.激活并查看「数据任务」。

点击「立即激活」，该任务会立刻开始同步数据。

概览Tab下可以看到任务的整体同步状态以及每个数据表（集合）的同步信息。

错误队列Tab下可以看到该任务同步过程中字段的具体错误信息。

任务设置Tab下可以对任务通用配置进行灵活修改，实时调配任务的资源，设定通知等相关内容。

配置规则Tab下可以看到该数据任务相关的一切配置信息。

消息列表Tab下可以看到该任务历史错误信息及操作记录。

激活后，数据任务的配置信息不可更改。

热心网友时间：2022-04-10 07:23

你可以先创建一个临时表，把查村到的数据保存到临时表中，然后将临时表总的数据自动生成的sql语句，（需要小小的修改，保留insert插入语句），在另一个数据库中执行插入，不就行啦？select 列名insert into 临时表名 from 原始表名

全部栏目

如何来创建数据同步?