1. 架构图
2. 配置前提
2.1 配置VPC
请参考VPC配置文档:使用CLI创建VPC
同时创建一个安全组,并且至少保留一条入栈访问规则为所有流量,本条规则的目的本安全组ID。
2.2 准备好SQLDatabase
JDBC:jdbc:sqlserver://azuresql2021admin.database.windows.net:1433;database=azuresql
用户名:azure
密码:xxxx
2.3 将VPC中的NAT的EIP添加到SQL Database的防火墙
3. 创建Glue使用的Role
打开AWS portal:https://amazonaws-china.com/cn/,并且登陆
选择Service-> 安全性、身份与合规性->IAM服务
选择角色->添加角色
选择为Glue创建角色
为了配置方便,选择AdministratorAccess权限,实际项目中,依据具体需求配置权限。
标签页选择下一步
输入role的名称,比如:AWSGlueServiceRoleDefault
点击下一步,创建完成。
4. AWS Glue连接配置
选择Service-> 分析服务->AWS Glue
选择连接->添加连接
输入连接名称:JDBC,选择连接类型:JDBC,点击下一步
输入步骤2.2中获取的信息,注意:database要改成databaseName
选择步骤2.1中准备的子网,注意,这里要选择私有子网,即路由表指向NAT Gateway的子网。
选择步骤2.1准备的安全组,点击下一步
最后点击完成
在Glue页面中的连接选项卡,选中刚才创建的连接,点击测试连接
选择步骤3中创建的角色,点击测试连接
如果配置没有问题,会显示成功
5. AWS Glue 爬网程序
选择Service-> 分析服务->AWS Glue
选择爬网程序->添加爬网程序
输入爬网程序名称:JDBC-Test
点击下一步
选择数据存储为JDBC,连接也为JDBC,包含路径为%,点击下一步
添加另一个数据存储为否,直接点击下一步
选择角色为步骤3中的角色
选择按需运行
在输出页面,选择添加数据库
添加数据库页面,数据库名称为garydb
爬网输出页面选择刚才添加的数据库garydb,添加前缀为0320_
Review后,点击完成
在爬网程序页面,选择刚才创建的JDBC-Test爬网程序,点击运行爬网程序。
运行完成后,点击数据库->表,可以看到刚才爬网程序爬出来的表