物联网、云服务、大数据。。
淘宝、12306、卡通。。。一个产品改变一次生活方式。
打车app,无疑是改变生活方式的又一个产品。从打车软件,你能看到什么?
个人认为,打车软件值得各种投资方斥资,最重要的原因是,他们正在做的是,移动互联网行业,最原始的数据积累。
资本主义的发展,一开始同样依靠着“原始的资本积累”。没有这些最原始的东西,你什么也玩不起来。不懂政治经济学,所以仅仅作为栗子。
移动互联网行业,现阶段技术水平决定,谁能更有效更准确的,将一条条位置信息、流量数据,还原成为对一个人行为的描述,谁就有话语权。为了做到这点,手里没有这些基本的数据,纯属痴人说梦。
过去,各种IT服务提供商,大部分对用户数据的重要性认识不足,或者是囿于隐私权,不敢涉足。某国内做企业ERP的知名公司曾表示,他们最大的遗憾,就是做了这么多年的ERP,手里没有用户的数据。用户给钱,我给软件,给集成,给运维,完事儿拿钱拍屁股走人,然后琢磨琢磨用户反馈,琢磨琢磨软件改进,琢磨琢磨国外软件的发展方向……都是琢磨,从未得到数据的支撑。
所以现在不一样了,千千万“大数据婊”半懂不懂的,就高呼大数据如何如何,所以各种公司,风投如今也开始,半跟风半主动的,收集一些用户的数据。
对于大数据具体的技术,我承认自己并没有太深入的了解,仅从一个普通的IT从业人员角度,YY一下这些个数据能干啥,各位看官大神们,欢迎提醒和斧正
你一早起来,发现快迟到了。琢磨着今天是开车呢还是挤地铁去上班比较快。听各种广播、看各种地图上的路况,你只能知道堵不堵,可是真不知道得多长时间。
这时候,你拿出手机,选择目的地之后,收集上周本日,上上周本日,同时段,同路段的N辆出租车的运行时间,经过各种算法处理,给了你一个平均开车花费的时间。你一看,我去咧,开个车比地铁都慢,果断走向地铁站。
你到了公司,经过一上午的辛苦coding,中午想改善个伙食,楼下的711已经吃腻歪了,远的地方又不知道味道如何。于是你又拿出手机,看看中午时段,自己周围有多少人打车出行,都是去哪的,多少人是往返,也就是去吃饭的,他们对自己吃的这顿饭评价是几颗星……
吃完了,你深感满意,于是你对这顿饭进行了评价,同时又叫了回程的出租车,两次叫车记录,加上你添加的“吃饭”标签,以及餐馆信息和评价,作为一次完整的出行,被某台服务器记录在案。
下班了,哥们儿几个商量周末聚餐的事情,有关在哪里聚餐的事,愁破了头。五道口?住大兴的不干,三里屯?住房山的不干……有车的人,对于是开车还是坐地铁也都是“IFTTT”式叙述。
经大家讨论,你们这一群栖息在北京各个区的家伙决定,为了大家都不跑太远,大家只好在TAM广场铺个席子吃饭好了(玩笑莫喷…………)
于是,你又拿出手机,输入了若干人人等的手机号码,对于谁可以开车,谁只能公交也进行了标记。几秒钟之后,凝聚了工程师无数心血的算法,根据那些手机号码平常的打车记录,划定了这几个货最有可能的,家的位置,然后基于以上,列举出了若干聚餐的最佳选择,并对谁开车,谁地铁,谁打车都进行了安排。
大家惊为天人,全票通过。你点击接受方案,然后针对每个人的建议行程安排,就被发送至每个人的手机,需要叫车的,也自动进行了预约。
只是简单的三个例子,不知道你们怎么看,反正我是看到了N多赚钱的机会。记得大学的时候,那会儿很热的概念,是物联网和LBS服务。那时候,我们的老师对这两个概念的总结,就是“把现实事件抽象成数据,进行合理的处理之后给出结果数据,然后再把结果数据还原成为行为建议”。
物联网,收集非人数据搭建环境,LBS,收集个体行为数据塑造人物。
技术基础已经具备,下面就看谁圈地快,谁切的蛋糕块大了。
以上三个简陋的例子,我觉得不太可能用一个“大而全”的APP全部实现,也没有必要这么做。
但是可以确定的是,只要捏着这些数据,并且掌握着收集这些数据的渠道,那么以上。完全是有可能的。
以下也是有可能的。
我能实现的,我自己做。
实现不了的,为保证隐私权,我把相关的部分数据,或者计算结果,进行处理之后卖给你,你做。你不行,我再卖给其他人。
你做的好了,我跟你签战略合作,以后你定期给钱,我定期给你提供最新数据;
你做的不好,反正这次给你的数据,我收过钱了,大不了下次不卖给你了呗。
谁让我捏着用户的第一手数据呢,谁让出租车跟人生活的关系那么紧密呢?
谁让我当时把城市千千万出租车都变成了我的综合传感器呢?
谁让我实现了数据的原始积累呢?数据量,活跃度,广度我都具备,我骄傲!
有了这些不断更新的数据,我想怎么玩就怎么玩。也许再成立个创新工场二号什么的?
爱咋咋地。
为了能实现这个目标,前期投多少钱都值了
----------------------------
嘀嘀打车现在以及未来可能的盈利模式是什么?
从我的视角来看,烧钱抢占打车软件市场,目的除了其一占领移动支付市场之外,还有一条(在我看来)更重要的目的就是收集用户的地理定位信息。
从用户的地理信息数据里能够挖出来的信息是难以想象的,尤其是如果公司本身还拥有与该用户相关的其他大量信息的话,配合用户的地理定位信息使用效果奇佳。之前我们Lab做过用用户的过往带geotag的tweets来分析用户近期行为pattern,最近在做用基于地理信息来加强推荐系统【因为我们Lab本来就是全世界最早做recommender system的嘛】性能都相当赞【这还是考虑到我们拿到的dataset其实很弱的情况下。。。想象一下如果能够像很多industry的公司一样拿到详细的地理信息与用户其他行为的关联的话。。世界真是太可怕了麻麻我要回火星】
【就好像早两年在The Atlantic上看到的一句话一样“Google's geographic data may become its most valuable asset. Not solely because of this data alone, but because location data makes everything else Google does and knows more valuable."】
【用带google service / google now 的android机的用户请进入https://maps.google.com/locationhistory/b/0/就可以知道google有多了解你的行踪唷】
于是现在其实阿里和腾讯(unlike 百度)其实是没有用户的即时定位信息的(因为这两家的地图软件其实还是没有什么人用的吧。。)各种打车软件在这里介入之后,恰好帮阿里和腾讯补上了用户模型里缺失的最后一环,现在阿里和腾讯就拿到了每个用户的大量在不同时间,地点(很可能还是连续的)地理定位信息【更赞的一点在于这个信息其实不光是spatial,还是platial的,如果我们考虑到用户除了提供定位信息之外,还提供了自然语言的所在地点描述】
再考虑到阿里本来就拥有的每个用户的信用记录,购买记录,实名,shipping addr(which is 准确性最高的一种VGI信息没有之一)以及腾讯有的每个用户详尽准确的关系网。。。。补上即时定位信息这个短板之后,这两家对用户信息掌握的程度又上了一个巨大的台阶。。
P.S. 有BAT的内部人士可以答疑这三家目前对这些数据的利用程度么?非常好奇现在国内的IT巨头到底有没有有效把这些数据利用起来。。。我认识的我们Lab出去的人目前都在美帝所以我对国内的情况完全不知道所以现在超好奇国内这个领域是什么情况。。。
/* *
*20-Feb-14 补充一点,解答评论里面关于采集到的数据bias的问题
*/
Great Question! Thank you for your feedback.
其实微信如果你不开附近的人或者摇一摇的话是不会有定位权限的。。。即使是开了权限,大多数情况下提供的lat/lon pair 也是基于cellular positioning而不是satellite positioning。
不过我更想讲一下bias的问题。对于geotag来说,每一个geotag是和geotag associated的其他信息一起记录的,所以有很多方法可以解决bias的问题
就拿用了geo加持的recommender system来说【就好像personalized collaborative filtering一样,无论是item-item还是user-user,都不会因为你采集了一大坨奇葩的人的数据,就对其他人群的推荐结果产生任何影响。相反,你对于任意一个单体用户(产品...in terms of item-tiem CF)掌握的数据越多,那么针对该用户(产品)以及其nearest neighbors的prediction的性能就会越好】
然后采集到的lat-lon pair可以用各种分法来clustering/classifying(举例:可以判断用户此次打车是上班还是下班还是粗去玩...)...【或者直接当成传统的item-item CF或者user-user CF 向量里多一个spatial维度,normalize之后SVD】
这样做出来的话,其实是不会存在bias的问题的【比如假设我最后发现好多所有半夜两点钟在中关村打车回家,平时在淘宝上给网游充值的,淘宝送货地址在五环外合租房的屌丝如果半夜两点钟还不回家的话有极大的可能性是在吃烤串(举个例子啦,SVD之后每一个维度已经没法这样简单理解了),那么这样一条prediction也只会影响到这样一个用户的k-nearest neighbor才对】
【其实geo信息哪怕不做那么复杂的分析,单纯存在也是对recommender sys的一个很好的补充。我能想到的一个最简单的例子是(亲,上次你去吃饭的餐厅在淘宝团购上也有哦 :) 然后下面几个推荐,是该用户附近其他几家正在团购的,而且根据传统recsys算出来推荐给用户的餐厅)或者直接每次打车定地点的时候弹出来一个窗口,根据传统recsys推荐打车目的地周围某半径内需要推荐给用户的POI】
于是,采样中有bias其实根本不是什么坏事。。根本点在于
A.能够准确地给一个cluster(或者给一个用户以及他的k-nearest neighbor)得出结果
B.能够成功的把一个用户放进准确的cluster(或者算出他的k-nearest neighbor)