前言
用户行为分析,最重要的一点就是通过埋点准确的获取用户的Cookie,那么这个Cookie到底怎么设置呢?那么如果面对的是站群,用户Cookie又该怎么设置,才能让访客量和新访客量准确无误呢?
接下来我们先看一个例子,之前我们对www.haier.com 设置Cookie是这样的,
document.cookie=name=xxx1; expires=Tue, 10-Jul-2016 08:30:18 GMT; path=/
那么这样,只能设置当前域的Cookie,后来发现海尔的二级域名很多(bbs.haier.com或者shangcheng.haier.com等等),需要将这些访问过的不同域名的访客统一起来,那么这样就涉及到重新设置Cookie的问题(设置到一级域名上)。那么设置Cookie又需要考虑不同浏览器的兼容性,所以我们改为
document.cookie=name=xxx1; expires=Tue, 10-Jul-2016 08:30:18 GMT; path=/; domain=.haier.com
因为据我的考察,域名设置的域名前面都是带点的,所以目前就这样设置。但是这样的设置后,我们发现访客的数量还是比较多,应该是设置的浏览器兼容情况,所以这个问题就锁定在IE上了。在经过大量测试和资料查找,我们发现了一个名词----HostOnly Cookie。
什么是HostOnly Cookie
rfc6265第5.3节定义了浏览器存放每个Cookie时应该包括这些字段:name、value、expiry-time、domain、path、creation-time、last-access-time、persistent-flag,、host-only-flag、secure-only-flag和http-only-flag。
其中:
- name、value:由Cookie正文指定;
- expiry-time:根据Cookie中的expires和max-age产生;
- domain、path:分别由Cookie中的domain和path指定;
- creation-time、last-access-time:由浏览器自行获得;
- persistent-flag:持久化标记,在expiry-time未知的情况下为false,表示这是个session cookie;
- secure-only-flag:在Cookie中包含secure属性时为true,表示这个cookie仅在https环境下才能使用;
- http-only-flag:在Cookie中包含httponly属性时为true,表示这个cookie不允许通过JS来读写;
- host-only-flag:在Cookie中不包含Domain属性,或者Domain属性为空,或者Domain属性不合法(不等于页面url中的Domain部分、也不是页面Domain的大域)时为true。此时,我们把这个Cookie称之为HostOnly Cookie;
那么host-only-flag如果为true会怎样呢?rfc6265里有这么一段:
Either: The cookie's host-only-flag is true and the canonicalized request-host is identical to the cookie's domain.
Or: The cookie's host-only-flag is false and the canonicalized request-host domain-matches the cookie's domain.
获取Cookie时,首先要检查Domain匹配性,其次才检查path、secure、httponly等属性的匹配性。如果host-only-flag为true时,只有当前域名与该Cookie的Domain属性完全相等才可以进入后续流程;host-only-flag为false时,符合域规则(domain-matches)的域名都可以进入后续流程。
举个例子,host-only-flag为true时,Domain属性为example.com的Cookie只有在example.com才有可能获取到;host-only-flag为false时,Domain属性为example.com的Cookie,在example.com、www.example.com、sub.example.com等等都可能获取到。
下面,我们来引用找到的资料所进行的覆盖测试;
Cookie覆盖测试
在www.qgy18.com,设置以下3条Cookie:
1、name=ququ1; expires=Tue, 10-Jul-2013 08:30:18 GMT; path=/
2、name=ququ2; expires=Tue, 10-Jul-2013 08:30:18 GMT; path=/; domain=.www.qgy18.com
3、name=ququ3; expires=Tue, 10-Jul-2013 08:30:18 GMT; path=/; domain=www.qgy18.com
访问www.qgy18.com,获取Cookie,结果如下:
浏览器 | 在www.qgy18.com获取到的Cookie |
---|---|
Chrome 29.0.1547.3 dev | name=ququ1; name=ququ3 |
Firefox 22.0 | name=ququ1; name=ququ3 |
Chrome 27.0.1453.116 m | name=ququ1; name=ququ3 |
IE 6.0.2900.5512 | name=ququ3 |
IE 10.0.9200.16438 | name=ququ3 |
Opera 12.15(Presto内核,非Webkit) | name=ququ3 |
iOS Safari 6.1.3 | name=ququ3; name=ququ1 |
Safari 7.0 | name=ququ3; name=ququ1 |
规范里有两点规定需要先说明下:
- 设置Cookie时,Domain属性值如果是.a.com,前面的.会被去掉,变成a.com(rfc6265第5.2.3节);
- 对于name、path和domain均相同的Cookie,后面的覆盖前面的(rfc6265第5.3节第10段);
由于IE系列不支持HostOnly Cookie,三个语句对于IE来说是完全一样的(1没有指定Domain,自动使用请求头中的Host或者页面url中的Domain部分作为Cookie的Domain属性,都是www.qgy18.com),后面覆盖前面,只剩下name=ququ3;
分歧出在Presto内核的Opera与Chrome、Safari和Firefox之间:Opera认为三个语句的name、path和domain均相同,产生了跟IE一样的结果;其它浏览器认为host-only-flag为true的Domain和其它两个不同,所以只有语句3可以覆盖2,剩下1和3;
最后的决定
看到了IE的情况,我们毅然决然的更改了代码,类似下面这样的设置,其实只去掉了一点,但是却会大有改变,伪代码如下:
document.cookie=name=xxx1; expires=Tue, 10-Jul-2016 08:30:18 GMT; path=/; domain=haier.com
这样的话,IE再遇到haier.com的情况就不会重新生成新的Cookie了。目前来看,访客的采集还是比较准确的。
感谢
感谢Jerry Qu提供的资料,具体详细资料见:https://imququ.com/post/host-only-cookie.html