一、写在前面
从接触datax到现在已经有一段时间,期间经历了以下几个阶段
1、能够把datax使用起来:能够利用脚本将datax调用起来,并用于生产环境
2、根据datax实现自己的插件:根据业务需求,实现自己的插件,如kafka、es等
3、按照需求更新相关模块&修复相关bug:将datax最终的统计信息落入DB用于数据分析&修复hdfs reader读orc丢数据的bug等
4、基于datax实现自己的传输工具:完全抛弃datax,实现自己分布式工具
二、对于datax的总结主要分为以下几个部分
1、如何使用datax
2、如何根据datax实现自己的插件
3、datax源码阅读
1)代码主流程
2)job切分
3)task执行
三、相关问题