是不是常常要分析用户的行为?是不是常常遇到多台服务器上传的日志一起分析?是不是对数据统计的间隔时间要求很短?还有木有因为日志文件过大,而需要分块处理?
1、说明一点在日志写入的时候必须按照一种严格的格式,这样在做解析的时候,才好切割。比如 gameid:123 gameid:2333。切割统一标准就行。
2、在生成日志的文件名的时候也要按照一定规则,在分析的时候,正则表达式好匹配,如 服务器hostname_date.log 这样在匹配的时候 只需要 glob(*—date.log); //glob 见php函数手册,寻找与模式匹配的文件路径。
3、为什么要用nosql?其实工程师不是仅仅局限于知道怎么实现,而是要多思考什么样的业务用什么样的工具来解决。非关系型数据很适合这种,日志中常常加入新的行为,你用key-value的方式,不需要日志新增了要分析的行为,你就得手动改变你程序的配置,这样我个人觉得不是太好。~假如用mysql,你纵向设计数据库,
结构: id gameid count createtime
1 1001 3000 2013-03-23 12:22:21
2 1002 2222 2013-03-23 12:22:21
………………
这样设计的话那么不会因为新增gameid来修改数据表,这样有什么坏处?那就是每次插入数据很多,假如30秒插入一次,一次插入30个游戏的统计值,那么一天的增量 2*30*60*24 = 86400 条数据,这样显然不合理。
那么横向设计,一次插入一条数据。
id gameid_1001 gameid_1002 gameid_1003 …… createtime
1 3000 2222 40000 2013-03-23 09:08:56
2 4000 1800 4000 2013-03-23 09:09:20
……
这样的坏处是 每次新增了游戏ID 那么就得改变数据表结构,加字段,当然你牛逼点的可以全部用程序来实现,但是这样我觉得不太好。
mongo中有这个内嵌文档,很爽。推荐使用hadoop
存储结构如下
+{
"_id":3e3ess3sazxcdsdsfdf,
"createtime":"2013-03-23 09:13:02",
"data":{
"gameid_1001": 2000,
"gameid_1002": 3000,
……
}
}
一次只插入一条数据,新增游戏类型不需要做任何改变,perfect~
4、为什么要用rsync?将多台服务器的日志同步到一个目录下,一起处理,比较方便。
5、需要用到的几个函数,glob, fopen,fget,isset,explode
程序最好不要写得很死板,
批量读入日志文件
$sLogfileName = ‘/path/../*_date.log‘;
$aLogfileName = glop($sLogfileName); // 匹配要处理的日志文件,读入数组中。
……
fopen();
while() //用while循环,处理完文件中的一行数据再去文件中取,如果用foreach一次读入数组,内存会溢出。
{
……
}
……
$aCountResult = array();
$iNum = 100;
if(isset($aCountResult[$iGameId]))
$aCountResult[$iGameId] = (int)$aCountResult[$iGameId] + $iNum;
else
$aCountResult[$iGameId] = $iNum;
……
统计完插入。。
然后加入计划程序中,ok。。
主要还是不同的业务用不同的方法解决。
@update 2013-3-25 21:31:45
在日志分析中 \n 是一个很重要的切割符,避免防止内存溢出,不要以 \n
EOF 作为切割符,同事要严格按照日志标准格式写入,这样在解析的时候比较好解析。用fgets方式获取,不能一次读入内存中。