我的天池大赛入门经验

我参加天池大赛一半是为了练习机器学习,一半是因为好玩。因为工作、家庭的事情都很多,时间很难保证,为了不坑队友,所以到现在比赛都是SOLO,自娱自乐。因为可用时间少,又是一个人SOLO,所以闭门造车、走到沟里出不来也都是常有的事。

第一个比赛是IJCAI-17 口碑商家客流量预测,那个时候刚好看了时序的一些东西,觉得R语言的Auto.Arima很不错,于是就把R语言关于时序的包都调了一个遍,然后又是一顿乱七八糟的融合。我的笔记本配置不好,跑Arima温度都高的不行,正好我当时还有一个1C2G的ECS(半年试用送的),我决定就是它了。于是在这个虚机上装了R和Python的环境,在上面跑各种算法,很长一段时间这个虚机的CPU一直是100%。而且这个比赛,因为一直没有走到正路上,所以结果也就毫无悬念的扑街了。

第二个比赛是阿里聚安全算法挑战赛,因为是平台赛,不用自己的计算资源,而且主要的处理界面都是跑的SQL,所以玩的十分快乐。印象比较深的是第一题找了几个规则,结果比算法做的结果好很多,几个规则就搞到了62.37分。最后总成绩35名。

第三个好像是CIKM,当时在看了题目,并用Python把云图画出来之后,我觉得这个应该用卷积神经网络来做,可以先按照图像处理一下。可是我只有一个破笔记本,没有什么GPU,看了一下数据量感觉别说跑不了神经网络,就算是跑一般的机器学习算法也要热的死机。本来想放弃来着,后来转念一想何不自我挑战一下用传统的机器学习来做一下这道题。于是继续操练那个1C2G的ECS。我提取了包括时序,和每张云图的各种特征,跑了GBDT,RF,XGB,Arima等各种算法,并进行了融合。也看了一些使用机器学习预测降雨量的论文及Python关于天气的一些包和算法,不过这些很多需要风,前期降雨量等一些我没有的数据,所以也没有怎么用(后来看了冠军的讲解,发现这些东西都是可以通过分析得)。做了几天成绩做到14.15,后续就不动了,我感觉传统算法差不多也就这个样了,也就不再做了,最后是55名。

然后因为比较忙,所以后面的几个比赛,如第KDD CUP 2017,大航杯“智造扬中”电力AI大赛,全国社会保险大数据应用创新大赛 什么都是打酱油了,基本上都是扔了成绩就走的。

过了年之后就是阿里聚安全算法挑战赛,这个比赛因为又是平台赛,所以决定全力做一下。具体解题思路,可以看一下我的这个帖子:
https://tianchi.aliyun.com/forum/new_articleDetail.html?from=user&raceId=&postsId=3062
可能是因为题目比较适合我吧,经过初赛,复赛,24小时决赛,最后得了一个季军(三等奖),感觉还是满开心的。

我其实每个比赛投入的精力都比较有限,如何用非常有限的时间和精力取得较好成绩,我有一些不算是经验的经验吧,放在这算是抛砖引玉吧。
1,理解业务、数据,科学的数据可视化处理对于理解数据有很大的帮助。
2,抓住要点,建立基线,快速迭代。再复杂的问题总有一些简单的处理方法,先把它做出来,投石问路。
3,查找资料,借鉴前人经验。
4,做好规划,合理安排时间,长短期结合,多种方案、模型并行
5,前期要脑洞大开,多多尝试。后期要精细打磨,精益求精。
6,整理文档,做好记录,磨刀不误砍柴工,做好总结,不断提升。
7,在总结之外还有分享,交流,分享、交流在帮助别人的同时也可以让自己更快、更加深入的掌握这项技术。
8,最后是由一个好的心态,成绩不论如何,自己有学到新东西,自己开心就好。

上一篇:阿里云发票识别功能评测


下一篇:第一届阿里巴巴大数据智能云上编程大赛优胜奖比赛攻略