阿里云flink技术路线使用文档
第一章 概述
1.1实时安全监控案例介绍
实时监控报警作为保障数据安全的重要环节,受到越来越多的关注。为了保证同时满足数据的正确性和实效性,实时计算Flink版将流式数据源表和存放白名单的维度表进行实时JOIN,识别源表中数据对应的地址是否存在于白名单中,采取过滤等措施。
安全监控业务架构图
第二章 搭建上下游存储
2.1 创建数据源表存储
1.登录DataHub控制台。
2在项目管理页面的顶部,选择项目区域。
3单击页面右上角的创建Project。
4在创建DataHub的Project窗口中,输入项目(Project)参数。
在项目列表,目标项目的操作列下,单击查看。
6单击右上角的创建Topic。
7填写Topic参数信息。
8单击确认。
2.1.1 输入数据源表测试数据
1单击左侧导航栏中的数据采集。
2单击文件上传。
3在DataHub Project列表中,选择目标Topic,本示例为datahub_ipplace。
4单击选择文件区域中的选择要上传的文件,选择测试数据。
5单击点击开始上传文件。
2.2搭建数据维表存储
1创建云数据库RDS MySQL版实例,详情请参见创建RDS MySQL实例。
2创建云数据库RDS MySQL版账号和数据库,详情请参见创建数据库和账号。
3设置白名单,详情请参见数据存储白名单配置。
4登录数据库,详情请参见通过DMS登录RDS数据库。
5在左侧已登录实例中,双击您已创建的数据库名称。
6在您创建的数据库下,创建rds_dim维表。
(1)在表页签下,单击这里开始建表。
(2)在基本信息 > 表名中输入rds_dim。
(3)在列信息中,单击+新增后,输入如下信息。
(4)单击保存变更 > 直接执行。
2.2.1输入维表测试数据
1在页面左侧表页签下,双击rds_dim。
2在SQL Console中输入INSERT INTO `rds_dim`(`place` ) values ('beijing');。
3在SQL Console左上角,单击执行
第三章 数据开发
3.1创建作业
1登录实时计算控制台。
2在页面顶部,单击开发。
3单击新建作业。
4在新建作业页面,输入作业配置信息。
3.2 引用数据存储
3.2.1注册引用源表数据
注册您的DataHub Project,步骤参见注册数据总线DataHub。
在开发页面的数据存储页签,双击DataHub 数据存储。
双击目标数据库名称。
双击datahub_ipplace 。
在数据表详情区域,单击作为输入表引用。
3.2.2注册引用维表数据
参考注册云数据库RDS版,完成RDS的注册。
在开发页面的数据存储页签,双击RDS数据存储。
双击目标数据库名称。
双击rds_dim 。
在数据表详情区域,单击作为维表引用。
3.2.3注册引用结果表数据
参考注册云数据库RDS版,完成RDS的注册。
在开发页面的数据存储页签,双击RDS数据存储。
双击目标数据库名称。
双击rds_ipplace 。
在数据表详情区域,单击作为结果表引用。
3.3编写测试SQL
完成数据存储引用后,在作业编辑页面输入如下SQL代码,完成作业的开发。
insert into rds_ipplaceselect t.`name`, w.placefrom datahub_ipplace as tjoin rds_dim for system_time as of proctime() as won t.place = w.place;
3.4作业调试
完成作业开发后,可进行本地调试。作业调试详情,参见本地调试。本地调试结果示例图如下。
第四章 作业上线
4.1作业调试完成,经验证逻辑无误后,可以在开发页面中完成作业上线,上线作业操作将您的改动提交到数据运维中。作业上线步骤如下:
1登录实时计算控制台。
2单击页面顶部的开发。
3在开发页面,左侧的作业开发页签中,双击目标作业。
4单击作业编辑页面顶部的上线。
5在上线新版本向导中,完成上线操作。
4.1.1资源配置
选择对应的资源配置方式。第1次启动建议使用系统默认配置。
说明 实时计算支持手动资源配置和自动资源配置2种资源配置方式:
4.1.2手动资源配置方法参见手动配置调优。
自动资源配置方法根据实时计算版本,分为以下2种方式:实时计算3.0及以上版本:AutoScale自 动配置,详情请参见AutoScale自动配置调试。实时计算3.0以下版本:AutoConf自动配置,详情 请参见AutoConf自动配置调优。
4.1.3数据检查
通过数据检查后,单击下一步 。
4.1.4上线作业
第五章 作业上线
1登录实时计算控制台。
2单击页面顶部的运维。
3在运维,单击目标作业操作列下的启动。
4在启动作业页面,单击指定数据读取数据时间(即指定启动位点)文本框。
指定读取数据时间(启动位点),单击确定,完成作业启动。
说明 启动位点表示从数据源表中读取数据的时间点:
选择当前时间:表示从当前时间开始读取数据。
选择历史时间:表示从历史时间点开始读取数据,通常用于回追历史数据。