发布网友 发布时间:2022-04-23 18:59
共2个回答
热心网友 时间:2022-04-10 06:05
使用DataPipeline创建一项「数据同步」,主要分四个步骤:
配置「数据源」和「数据目的地」
配置数据源
配置数据目的地
进行「任务设置」
任务设置
对数据目的地进行配置
清洗脚本
高级设置
选择同步表
配置规则
激活「数据同步任务」
激活数据任务
1.在首页,点击「新建任务」。
2.配置任务名称,选择「数据源」和「数据目的地」。
用户可以自定义命名「数据任务」名称,最多50字符,不允许与其他任务同名。
用户可根据自身需求,配置所需的「数据源」和「数据目的地」。
如何配置数据源?
如何配置数据目的地?
目前支持配置的数据源:MySQL、Oracle、SQL Server、PostgreSQL、FTP、S3、API、Kafka、Couchbase。
目前支持配置的数据目的地:Redshift、Oracle、MySQL、SQL Server、Kafka、FTP、TIDB、Greenplum、Hive、HybridDB for PostgreSQL、HDFS
若为首次创建任务,需要添加数据源和数据目的地,并确认数据源和目的地配置符合平台要求。详情请参考:
配置完成后,用户可以点击选择需要的数据源和目的地。
3.完成第一步后,点击「下一步」,需要用户对任务进行设置。
在这个页面,用户需要对任务进行个性化的配置,在这个页面支持对任务参与人、同步范围、读取设置以及错误队列和错误通知等详细的内容进行设置。
写入并发数、写入速率*;
表和字段名称设置:自定义、全部大写、全部小写。
读取并发数、读取速率*;
读取方式、读取频率;
读取方式、读取频率;
全量数据和增量数据
参与人能够浏览、编辑该任务,并受到该任务相关通知;
参与人设置:
同步范围
全量数据读取模式设置;
增量数据读取模式设置;
数据源设置
数据目的地设置
数据源变化设置:用户可在此处设置在数据任务同步过程中,数据源的表、字段变化的处理方式。
错误队列设置: 支持设置错误队列预处理行数,错误率阈值等。
邮件设置:支持勾选需要邮件通知的信息。
子任务设置:支持设置batch大小,一次性批量写入数据量。
每个设置都已经预设了默认值,当您熟悉了解各项设置内容后,可以快速点击下一步进入后续创建流程。
更多信息请点击任务设置查看。
4.完成任务设置后,点击「下一步」,会弹窗要求用户选择表。
用户根据自己的需求选择需要读取的表/视图或者集合。
要求至少选择一个表/视图或者集合。
选择完毕后点击「保存」。
更多信息请点击选择同步内容查看。
5.同步表选择完毕后,用户需要完成「清洗规则」的配置。
在左侧列表中选择数据源表,右侧会显示该数据源表和目的地表的映射关系详情。
右侧字段详情页中,支持自定义修改目的地表名和字段名。
目的地表结构显示数据目的地实际的字段类型、标度、精度、主键、NotNull等信息,允许修改。
支持针对每个字段设置:字段忽略、数据过滤、数据替换。(收起数据源表结构后进行配置)
忽略:在任意非主键字段右方的忽略项上打钩后,该字段数据将不会被系统同步到数据目的地。
数据过滤:用户输入过滤规则后,系统只会同步符合该过滤规则的数据。
数据替换:用户输入替换规则后,系统会把符合规则的数据根据配置全部替换。
支持对数据表进行清洗脚本配置。
* 用户可以在清洗脚本中用Java语言编写清洗规则来过滤掉脏数据。
目前基本清洗功能无法和高级清洗同时使用。
支持对数据表进行读取条件配置。
对需要同步的每个表(集合)完成规则配置后,点击「保存」即可。
更多要求请点击配置规则查看。
6.激活并查看「数据任务」。
点击「立即激活」,该任务会立刻开始同步数据。
概览Tab下可以看到任务的整体同步状态以及每个数据表(集合)的同步信息。
错误队列Tab下可以看到该任务同步过程中字段的具体错误信息。
任务设置Tab下可以对任务通用配置进行灵活修改,实时调配任务的资源,设定通知等相关内容。
配置规则Tab下可以看到该数据任务相关的一切配置信息。
消息列表Tab下可以看到该任务历史错误信息及操作记录。
激活后,数据任务的配置信息不可更改。
热心网友 时间:2022-04-10 07:23
你可以先创建一个临时表,把查村到的数据保存到临时表中,然后将临时表总的数据自动生成的sql语句,(需要小小的修改,保留insert插入语句),在另一个数据库中执行插入,不就行啦?select 列名insert into 临时表名 from 原始表名