datax(https://github.com/alibaba/DataX)是一个离线的数据同步工具,提供了异构数据源之间的同步。
datax整体项目结构清晰,core提供了核心功能,剩下的都是各种数据源的reader和write。
核心功能就是根据配置信息,抽取源数据,导入到目标数据,中间还有各种的流量控制。
datax作为一个离线数据同步平台,使用还是比较广泛的,其中大数据就是一个比较典型的场景,大数据ETL平台需要从各个数据源抽取数据,除了sqoop, datax也是一个不错的选择。
datax是一个离线批量的数据同步工具,与之对应的还有canal这种通过解析binlog的实时数据同步工具
我的注解版:
https://github.com/zhaoyb/DataX