阿里云日志服务SLS 数据加工之多源分发详解

前言:

阿里云日志服务(SLS)数据加工功能是一个可托管、高可用、可扩展的数据加工服务,广泛适用于数据的规整、富化、分发、汇总、重建索引等场景。使用自建的DSL编排语法,让用户可以通过短短几行代码实现数据清洗和再投递的功能。这篇文章我们主要来介绍下数据加工下的投递功能。

阿里云日志服务SLS 数据加工之多源分发详解

本文要点:

1.e_output/e_coutput语法详解。
2.不使用e_output/e_couput函数的最简单投递配置。
3.使用e_output/e_couput 函数进行多源分发实践。
4.如何将一个logstore中不同数据通过多源分发投递到不同logstore。

数据加工e_output 语法详解

首先我们可以根据官方文档来了解其参数作用 e_output。参数图示如下:
阿里云日志服务SLS 数据加工之多源分发详解

1.参数区别。

当我们使用e_output 函数的时候,需要在里面填入name, project, logstore 等参数,其中name参数对应的是右边保存数据加工时候需要填入的存储目标的名称。那么这时候有的小伙伴可能会有点蒙,既然在存储目标里面已经填入了project, logstore 的名称,为什么在e_output里面还有这两个参数,如果在e_output 里面填入的project,logstore参数和存储目标里面填入的 project,logstore 参数不一致,那么我的数据又会被发送到哪里? 那么我们从下面这个表格里去详细解释他们之间的区别:

用法 语法示例 说明
只填写name参数 e_output(name="target") 会发送数据到目标"target"中配置的logstore 中去。
同时填写name,project,logstore 参数 e_output(name="target",project="test_project",logstore="test_logstore") 数据会发送到"test_logstore"当中去,使用的ak 为目标"target"下配置的AK 信息。
不填写name 参数,只填project/logstore参数 e_output(project="test_project",logstore="test_logstre") 数据会发送到"test_logstore"当中去。使用的 AK 信息为当前登录账号的AK 信息。

2.如何配置默认目标。

要注意的是当我们使用e_output这个函数时候,需要在目标中配置一个默认目标,经过加工DSL层层处理,能够达到最后(没有在中间被丢弃)的行,默认的行为会写到第一个存储目标(不论目标的名称是什么)。
阿里云日志服务SLS 数据加工之多源分发详解

3.如何设置高级参数。

有些时候我们需要从加工的数据中动态的去获取分发目标,例如e_output(logstore=v("name")), 这个语法会动态的去取值进来,那么假如此时目标logstore 不存在,我们的数据加工任务就会在此停住,进行不断的重试,直到目标logstore 被创建出来为止。那么如何才能不让我们的加工任务继续进行加工呢? 这时可以通过配置高级参数来跳过不存在的目标Logstore: config.sls_output.failure_strategy: {“drop_when_not_exists”:”true”}
Note: 需要注意的是,当我们配置这个参数的时候,如果出现目标logstore 不存在的情况,这时候会将数据丢弃,所以请大家谨慎使用该参数。
阿里云日志服务SLS 数据加工之多源分发详解

4.e_output和e_coutput的区别

当数据加工语法执行到e_output语句的时候不会在执行后续的语法,而e_coutput 是可以继续执行后续的语句的。

案例实践

1.不使用e_output语法的 最基本简单分发

最基本的数据分发,我们不需要使用e_output 语法去进行动态的分发,只需要配置最基础的分发目标,加工后的数据就会被投递到目标logstore 当中去。我们来做一个最简单的分发,将日志设置一个新字段后投递到另外两个目标logstore。

日志样例:
__time__ : 1591754815
__source__: 127.0.0.1
product: aliyun
product_2: ecs

加工语法:
e_set("new","new_name")

配置数据加工投递目标
阿里云日志服务SLS 数据加工之多源分发详解

小结: 以上我们就配置成功了最简单的数据加工任务,这里我们没有使用e_output/e_coutput语法一样可以达到多目标投递效果。

2. 案例实践: 通过解析user-agent请求头并使用e_output函数进行多源分发

现有某公司对一款游戏进行了广告投放,现在关于该游戏的所有API请求信息都存储在一个logstore当中,公司希望通过解析useragent请求头,将来自不同设备的请求进行归档分发存储(ios/android/windows), 并且对method方法进行数据分析。

需求分析
首先针对上述需求,需要使用ua_parse_os 函数首先对数据中的useragent 进行解析拿到该设备的os信息,后根据所得信息调用 e_output 函数进行动态分发。

原始数据样例
以下logstore 数据中,我们将会对 user_agent 字段的值进行解析,并对解析后的信息进行清洗和转发。

__source__:127.0.0.1
__tag__:__receive_time__: 1589541467
ip:31.110.75.122
request_method: GET
user_agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:50.0) Gecko/20100101 Firefox/50.0

数据加工语法与逻辑

# 使用ua_parse_os函数,解析user_agent字段,使用dct_get函数,拿到请求头中的os信息,并把值赋予新字段os。
e_set("os", dct_get(ua_parse_os(v("user_agent")),"family"))
# 根据os 字段的值,结合e_if 语法进行分发,根据解析出来不同值分发到不同logstore。
e_if(e_search("os==Windows"),e_output(name="target1"))
e_if(e_search("os=iOS"),e_output(name="target2"))
e_if(e_search("os==Android"),e_output(name="target3"))

保存数据加工任务:
阿里云日志服务SLS 数据加工之多源分发详解

通过上图我们可以看到数据经过清洗后分别发送到了配置的默认目标targe0 和其他三个用来分别存储windows请求,ios请求,Android请求的三个(target1,target2,target3)三个目标当中。我们先看发送到目标target2,用来存储IOS数据的logstore 中用户get/post两种请求占比:
这里我们在控制台输入sql 语句:
* | SELECT Request_method, COUNT(*) as number GROUP BY Request_method
生成如下的仪表盘:
阿里云日志服务SLS 数据加工之多源分发详解

可以看出用户在IOS 端发送GET/POST请求的比例基本是7:3。

同样的分析语句,我们来看目标target3,用来存储Android数据的logstore中的GET/POST请求占比:
阿里云日志服务SLS 数据加工之多源分发详解
通过仪表盘可以看出,通过Android客户端进行的GET/POST请求基本上是6:4 ,证明在使用Android系统的用户中,该广告转化率较高。

3.使用e_split和e_output将logstore中不同字段分发到不同logstore中

背景:
​ 在使用数据加工多源分发的任务中,有的用户希望通过多源分发函数,将不同的字段输出到不同的目标logstore 当中去。这里我们用e_split函数结合 e_output函数来实现该需求。

需求图示:
阿里云日志服务SLS 数据加工之多源分发详解

日志样例:

__time__ : 1591754815
__source__: 127.0.0.1
product: aliyun
product_2: ecs

DSL编排语法:

e_set("tag", "t1, t2")
e_split("tag")
e_if(e_search("tag==t1"),e_compose(e_keep_fields("__time__", "__source__","product", regex=False),e_output(name="t1")))
e_keep_fields("__time__","__source__","product_2", regex=False)
e_output(name="t2")

语法解析:
1.我们首先设置了一个新字段 tag , 并且给予其 "t1,t2"的值,
2.接下来我们使用e_split()函数将数据按照 t1,t2 分裂成两份数据。
3.然后通过e_if 和 e_search 组合语法,针对t1, t2 两份数据做不同的加工和分发。

加工结果:

阿里云日志服务SLS 数据加工之多源分发详解

写在最后

​ 关于多源分发函数的使用,只是数据加工诸多函数中其中一个,目前数据加工提供的加工函数类型有100+,能够覆盖绝大多数数据加工的场景,其他的函数的使用还需要用户移步 阿里云日志服务数据加工函总览。数据加工目前经历了大量场景的锤炼,我们对用户提出的需求也在不断改进中,期望将来持续为用户提供更贴心的服务,更畅快的使用感受。

上一篇:ECS使用体验


下一篇:CloudIaC 漂移检测功能详解