 Kaggle基本知识

目录

Kaggle介绍

1. 基本情况

kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。
除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。从某种角度来讲,大家可以把它理解为一个众包平台,类似国内的猪八戒。但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。

2.含金量

针对人群:数据科学、商业分析、金融工程、统计、计算机科学、运筹学等方向的学生,想要进入名校或者拿到优质职业机会,Kaggle无疑是最佳选择之一。
业界含金量:许多科技巨头在Kaggle举办Recruitment类的竞赛用于招聘数据科学家,比如 Facebook、Amazon、Walmart。
学界认可度:得益于Kaggle的海量数据集和开放性,它还成为了一个非常棒的教学实践平台,吸引到哥大、纽大、上交大等设立了相关领域的Capstone Project,以及哈佛、牛津、斯坦福等开设Kaggle-in-Class的课程项目。

部分Kaggle题目

1.关于CV(计算机视觉)的:
Airbus Ship Detection 卫星图像分割检测
Kaggle Human Protein Atlas人类蛋白质图谱
Humpback Whale Identification Challenge座头鲸识别
2.关于NLP(自然语言处理)的:
Jigsaw Unintended Bias in Toxicity Classification 恶意评论检测
Quora Insincere Questions Classification Quara问题分类
3.关于Optimization(优化)的:
Traveling Santa - Prime Paths优化圣诞老人的行径路径

kaggle的比赛类型选择

1. 面向初学者:

★.Getting Started
项目难度低,非常适合入门级的参赛者用来练手,但没有奖牌或奖金,只能看到自己的排名。常年进行中的比赛有3个:
(1) Titanic
(2) House prices
(3) Digits Recognizer
这三个比赛由于常年挂在Kaggle上,数据集也未做任何更新,已经有很多baseline可以借鉴,很多参赛队伍拿到了满分或接近满分的成绩。

2. 面向竞赛者:

★.Featured
是Kaggle上主要的竞赛类型,为解决商业问题而设立的比赛,奖金高竞争激烈,有金银铜牌奖励,对参赛选手的能力有一定的要求。
★.Research
致力于解决科研界学术界的前沿问题,偏向于实验性质,较难;竞争没那么激烈,通常也有奖金和金银铜牌,但有的比赛只给荣誉奖励,或者是提供参加顶会的机会。
注:Kaggle上的竞赛有各种分类,例如奖金极高竞争激烈的的 “Featured”,相对平民化的 “Research”等等。但他们整体的项目模式是一样的,就是通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比。

3. 面向求职者:

★.Recruitment
赞助商为招聘数据科学家而设立的比赛,奖励就是赞助商提供的工作机会。

4. 其他比较冷门的比赛类型:

★.Annual
不是严格意义上的比赛,每年两次,一次是美国大学篮球锦标赛期间的三月机器学习比赛,一次是圣诞节期间的圣诞主题优化比赛。
★.Limited participation
通常是私人赛或邀请赛,例如只有master级别及以上才能参加的Master’s Competition。

★.建议

如果你是初学者,建议从入门级的Getting started4或Playground的比赛开始,能够从中了解到打Kaggle比赛的一些基本思路/套路,也能获得一个比较好的成绩,给自己建立信心。上面说完了比赛的类型,接下来介绍下比赛题目都有哪些类。
有针对性地选择比赛题目。Kaggle上的比赛题目主要有这几种:data mining(数据挖掘),computer vision(计算机视觉), natural language process(自然语言处理), optimization(优化)。
如果你对计算机视觉有兴趣,并且以后想申请相关方向的研究生或是职位,最好就专注于计算机视觉的比赛题目。同一种类型的比赛题目大多有套路可循,打的比赛多了,摸清了套路,自然成绩会越来越好。此外还可以有针对性地选择赛题细分领域,比如同样是计算机视觉的题目,有的是和生物医学相关(例如蛋白质图谱分类),有的是和动物保护有关(例如座头鲸的识别)。
如果你急于利用Kaggle比赛的经历提升自己的背景,但自学起来比较困难,不知道该怎么规划打比赛的路径,找一个经验比较丰富的老司机带一带也是一种非常有效的方式。但大牛也不是那么好找的,即使找到了人家也不一定有充足的时间教你。
现在市面上出现了很多针对Kaggle比赛的培训班或训练营,一般都是2-3个月的时间。推荐选择具有真实比赛实操的辅导项目,以便能更高效率和高性价比地获得一手且真实的Kaggle比赛经历与优秀的排名成绩,更直接地帮助你在无数竞争者中差异化背景,实现留学求职目标。
总而言之,打Kaggle比赛需要“无所不用其极”,除了要熟悉解决相关问题的方法,还需要在实践中不断优化解题思路。如果说科研考察的是一个人对问题的洞察力,那么Kaggle比赛考察的就是一个人对数据的洞察力。Kaggle比赛不光培养一个人的科研审美,还能够帮助参赛者深刻理解数据科学的内涵,例如什么是过拟合,什么是泛化能力,你的模型能否经受得住别的数据集的考验。
说到底,想斩获更亮眼的名次,提高自己的技能包和实践力才是终极解决方案!

申请Kaggle项目

1.项目导师背景:

▲数据科技公司Data Scientist(海外名校Ph.D.)
▲有资深数据科学行业经验的人士
▲ 有丰富的Kaggle项目指导经验的从业人员

2.项目进阶分级:

★.Kaggle Junior
△ 比赛项目:Playground
△适合群体:0基础起点、准备申请海外本科的高中生或者准备申请CS、DS、商科量化方向的本科生
△项目日程:7周线上授课+ 4周打比赛+2周写report,充实的13周时间,整个项目大约在12月初结束
★.Kaggle Senior
△比赛项目:Featured
△适合群体:有一定的数学,统计或者计算机基础并且学习能力强,Data Science相关领域(DS\DA\Stat\CS\BA\MFE\IEOR\IS等)留学申请者
△项目日程:8周线上授课+6周打比赛+2周写report,充实的16周时间,整个项目大约在12月底结束

3.预期成果:

依托于数据科学领域竞赛平台——Kaggle的实际案例,提升Data Analysis技能:
▲深入掌握各种数据操作技能
▲接触来自知名公司实际案例
▲熟悉数据科学家的工作内容
▲提升数据分析方向项目背景
▲获得国际化数据竞赛的经历
▲获得个性化产出成果,助力留学申请、求职跳槽:

  1. 专业的数据分析可视化英文论文(可作为申请writing sample或interview辅助材料,也可以投稿发表)
  2. 极具竞争力的Resume数据挖掘、分析、建模以等相关经历
  3. 优秀者可以获得来自行业资深导师(海外data scientist)Recommendation Letter
  4. 通过本项目的训练,你还有机会获得:
    ☆.数据科技公司Data Analyst实习职位
    ☆.Kaggle竞赛高段位排名(分为Playground和Featured两类)

案例分享

Kaggler A, 英国G5本科学生,通过Kaggle项目增强自己的科研背景:
我的本科专业是经济学,想要申请美国量化类项目:金融工程/金融数学,商业分析和数据科学混申。由于本科期间的经济学课程设置比较偏理论,背景中数据分析、编程这些技能比较匮乏,规划老师给我介绍了Kaggle项目,作为一个数据小白,在开始阶段会比较困难,但是逐渐适应了之后发现Kaggle真的是有很多乐趣,不仅仅是技能方面的提升,跟团队小伙伴们那段每天晚上加班到凌晨、一次次的修改方案的时间我可能一辈子不会忘记。得益于Kaggle的经历,在假期间,我后来又成功拿到了北京大学某研究所的Intern,现在回想起来,获得这个宝贵的科研机会是那么顺理成章~这一段段打怪升级的旅程,帮助我最终斩获了Dream School的offer:NYU、Columbia以及Duke University的data science offer!
Kaggler B,国内C9大学本科生,美国Top学校Statistics博士,多次参加Kaggle比赛
Kaggle是一个能把在学校学到的知识应用于实战非常棒的平台。打Kaggle对于我来说甚至还有点上瘾,尤其在和大神级别的团队在竞争时。本来一直以为只是自己的业余兴趣,后来和博士导师闲聊时,导师竟然提到说,当初之所以在众多申请者中选择我,就是看中了我的Kaggle背景;包括已经博士毕业进入工业界的学长学姐也曾经和我讲一些*公司在招聘时,如果申请者有不错的Kaggle排名也能极大地助力成功拿到offer!
Kaggler C,美本Top 60的Data Analytics本科生,美国Amazon Data Intern
虽然作为data analytics专业的本科生,但在国外课堂上学到的东西实用性并没有那么强,所以特地参加了Kaggle项目,包括data pre-processing,feature engineering,machine learning models optimization,ensemble and stacking stratigies等实际操作技能、以及优化Prediction的各种相关技巧都非常实用!
项目结束后,我立刻将Kaggle Project的经历和高排名的成绩更新到了Resume上,这让我在申请Amazon Data Intern时从成千上万的竞争者中脱颖而出;其次是在面试过程中,我发现很多问题都是导师在课上提到过的;另外因为一次次修改完善项目report获得的清晰思路,让我在面试中可以有理有据地描述这段经历和回答面试者相应的高难度问题,正是得益于这段经历,让我最终拿下了亚马逊的实习offer!

上一篇:每日一书丨一书帮你了解算法竞赛时代的奥秘


下一篇:每日一书丨一书帮你了解算法竞赛时代的奥秘