日志分析（php+nosql+rsync+crontable）

2022-02-21 00:54:07

是不是常常要分析用户的行为？是不是常常遇到多台服务器上传的日志一起分析？是不是对数据统计的间隔时间要求很短？还有木有因为日志文件过大，而需要分块处理？

1、说明一点在日志写入的时候必须按照一种严格的格式，这样在做解析的时候，才好切割。比如 gameid：123 gameid：2333。切割统一标准就行。

2、在生成日志的文件名的时候也要按照一定规则，在分析的时候，正则表达式好匹配，如服务器hostname_date.log 这样在匹配的时候只需要 glob（*—date.log）; //glob 见php函数手册，寻找与模式匹配的文件路径。

3、为什么要用nosql？其实工程师不是仅仅局限于知道怎么实现，而是要多思考什么样的业务用什么样的工具来解决。非关系型数据很适合这种，日志中常常加入新的行为，你用key-value的方式，不需要日志新增了要分析的行为，你就得手动改变你程序的配置，这样我个人觉得不是太好。~假如用mysql，你纵向设计数据库，

结构： id gameid count createtime

1 1001 3000 2013-03-23 12：22：21

2 1002 2222 2013-03-23 12：22：21

………………

这样设计的话那么不会因为新增gameid来修改数据表，这样有什么坏处？那就是每次插入数据很多，假如30秒插入一次，一次插入30个游戏的统计值，那么一天的增量 2*30*60*24 = 86400 条数据，这样显然不合理。

那么横向设计，一次插入一条数据。

id gameid_1001 gameid_1002 gameid_1003 …… createtime

1 3000 2222 40000 2013-03-23 09:08:56

2 4000 1800 4000 2013-03-23 09:09:20

……

这样的坏处是每次新增了游戏ID 那么就得改变数据表结构，加字段，当然你牛逼点的可以全部用程序来实现，但是这样我觉得不太好。

mongo中有这个内嵌文档，很爽。推荐使用hadoop

存储结构如下

"_id":3e3ess3sazxcdsdsfdf,

"createtime":"2013-03-23 09:13:02",

"data":{

"gameid_1001": 2000,

"gameid_1002": 3000,

……

}

一次只插入一条数据，新增游戏类型不需要做任何改变，perfect~

4、为什么要用rsync？将多台服务器的日志同步到一个目录下，一起处理，比较方便。

5、需要用到的几个函数，glob, fopen,fget,isset，explode

程序最好不要写得很死板，

批量读入日志文件

$sLogfileName = ‘/path/../*_date.log‘;

$aLogfileName = glop($sLogfileName); // 匹配要处理的日志文件，读入数组中。

……

fopen();

while() //用while循环，处理完文件中的一行数据再去文件中取，如果用foreach一次读入数组，内存会溢出。

{

……

}

……

$aCountResult = array();

$iNum = 100;

if(isset($aCountResult[$iGameId]))

$aCountResult[$iGameId] = (int)$aCountResult[$iGameId] + $iNum;

else

$aCountResult[$iGameId] = $iNum;

……

统计完插入。。

然后加入计划程序中，ok。。

主要还是不同的业务用不同的方法解决。

@update 2013-3-25 21:31:45

在日志分析中 \n 是一个很重要的切割符，避免防止内存溢出，不要以 \n

EOF 作为切割符，同事要严格按照日志标准格式写入，这样在解析的时候比较好解析。用fgets方式获取，不能一次读入内存中。

日志分析（php+nosql+rsync+crontable）,布布扣,bubuko.com

日志分析（php+nosql+rsync+crontable）

码农公寓

相关文章