目录
基本信息
网络拓扑
需要交换机、防火墙确保网络安全;
前置机原则上需要在网络边界处放置一台(专网可以不需要前置机),可用于大数据量做缓冲,也可用于进行网络安全隔离
两种模式简介
1 抽取模式(从业务方拉):
- 优点:技术实现简单 / 成本低,无需额外费用;
- 缺点:对源系统容易造成性能问题 / 源系统数据结构发生变化容易出错同步失败 / 源系统对数据质量不负责
2 供数模式(由业务方推):
- 优点:对源系统无侵入 / 数据质量可以推给业务端;
- 缺点:需要额外第三方接口费 / 对接技术实现上相对复杂
1 抽取模式的三种具体方案
1.1 抽取模式——WebService接口
业务系统——接口 <- 接入节点——大数据平台
- 优点:数据接入时间点和速度可控 / 业务端可控制数据范围和数据加密;
- 缺点:批量走接口可能导致业务系统不稳定;
- 适用场景:小批量结构化数据;
- 不适用场景:大批量非结构化数据 / 实时数据同步
1.2 抽取模式——直连数据库备库的方式
业务系统——数据库备库 <- 接入节点——大数据平台
- 优点:业务系统提供备库,对业务无影响;
- 缺点:部分场景下业务没有备库 / 数据加密由平台侧保障;
- 适用场景:小批量结构化数据;
- 不适用场景:大批量非结构化数据 / 实时数据同步
1.3 抽取模式——文件同步
业务系统——文件地址 <- 接入节点——大数据平台
- 优点:业务系统无感知;
- 缺点:批量拉对网络波动影响;
- 适用场景:非结构化数据
2 供数模式的四种具体方案
2.1 供数模式——API接口
业务系统——接口 -> 接入节点——大数据平台
- 优点:业务系统无感知少风险;
- 缺点:对平台侧接口性能要求较高 / 需要支付接口开发费用;
- 适用场景:小批量结构化数据 / 实时数据同步;
- 不适用场景:大批量非结构化数据
2.2 供数模式——数据库同步
业务系统——数据库主库 -> 数据库备库——接入节点——大数据平台
- 优点:业务系统无感知;
- 缺点:需要额外接口费;
- 适用场景:小批量结构化数据 / 实时数据同步;
- 不适用场景:大批量非结构化数据
2.3 供数模式——(压缩)文件同步
业务系统 -> FTP服务器——接入节点——大数据平台
- 优点:业务系统无感知;
- 缺点:需要额外接口费;
- 适用场景:非实时数据同步;
- 不适用场景:实时数据同步
2.4 供数模式——实时同步
业务系统 -> 消息队列(kafka)——接入节点——大数据平台
- 优点:实时处理数据;
- 缺点:需要额外接口费;
- 适用场景:实时数据同步;
- 不适用场景:非结构化数据