首页 > 其他 > 详细

大数据同步工具DataX、Sqoop、Canal之比较

时间:2021-08-14 15:12:03      阅读:15      评论:0      收藏:0      [点我收藏+]
1.Sqoop与DataX
Sqoop依赖于Hadoop生态,充分利用了map-reduce计算框架,在Hadoop的框架中运行,对HDFS、Hive支持友善,在处理数仓大表的速度相对较快,但不具备统计和校验能力。技术分享图片
DataX无法分布式部署,需要依赖调度系统实现多客户端,可以在传输过程中进行过滤,并且可以统计传输数据的信息,因此在业务场景复杂(表结构变更)更适用,同时对于不同的数据源支持更好,同时不支持自动创建表和分区。支持流量控制,支持运行信息收集,及时跟踪数据同步情况。
DataX框架设计:
 
 技术分享图片
 
Sqoop采用命令行的方式调用,比如容易与我们的现有的调度监控方案相结合,DataX采用xml 配置文件的方式,在开发运维上还是有点不方便。
Sqoop只可以在关系型数据库和Hadoop组件之间进行数据迁移,而在Hadoop相关组件之间,比如hive和hbase之间就无法使用sqoop互相导入导出数据,同时在关系型数据库之间,比如mysql和oracle之间也无法通过sqoop导入导出数据。与之相反,DataX能够分别实现关系型数据库Hadoop组件之间、关系型数据库之间、Hadoop组件之间的数据迁移。
技术分享图片
 
2.Sqoop与Canal
Sqoop: 同步全量数据,能够实现对关系型数据的全量同步,但在很多业务场景下,由于数据量非常大,每天全量同步,对于Hadoop的压力较大,因此要慎用。
Canal: 主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费,只同步更新的数据。也可以配置MQ模式,配合RocketMQ或者Kafka,Canal会把数据发送到MQ的topic中,然后通过消息队列的消费者进行处理。
Canal的工作原理就是把自己伪装成MySQL slave,基于监听binlog日志去进行同步数据的。
 
技术分享图片

大数据同步工具DataX、Sqoop、Canal之比较

原文:https://www.cnblogs.com/grow1016/p/15140443.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!