每日一书丨一书帮你了解算法竞赛时代的奥秘

大家好,我是帅东哥。

近几年国内数据科学、机器学习技术的应用和覆盖越来越广,而且普及的脚步也越来越快。一个明显的现象就是各种竞赛的层出不穷,各大互联网公司、高校、平台机构都开始组织数据科学竞赛了,比较有名的有腾讯广告算法、阿里天池。

我一直强调,对于数据科学爱好者而言,一定要亲身去参加一次竞赛,为什么呢?

我认为有三点好处。一是可以将自己学习的理论知识应用于实战,进一步提高自己的理解和应用能力;二是竞赛经历可以为自己增加背书,比如应届生求职有竞赛经历和名次会有很大加分;三是获得名次可以得到一笔奖金,有的很丰厚可以达到6位数。

最近,一本新书《机器学习算法竞赛实战刚出炉,由腾讯广告算法大赛冠军、Kaggle Grandmaster倾力打造,目的就是帮助机器学习初学者通过实战的方法从虽然优美但是略显枯燥的各种公式和理论当中脱离出来,感受机器学习在实际应用中的奥秘。

下面是关于竞赛和这本书的介绍。

算法竞赛时代

2010年,全球著名算法竞赛平台Kaggle举办了第一场竞赛Forecast Eurovision Voting,奖金为 1000美元。

2015年,国内第一场算法竞赛在天池举办,比赛题目是阿里移动推荐算法,奖金为30万元人民币,吸引了7000多人参加。虽然国内的算法竞赛起步时间晚于国外,但从2015年开始,在全球举办的一共1000多场赛事中,中国就举办了400多场,并且场次的年均增长率高达 108.8%,累计有超过120万人参加,奖金累计达到 2.8 亿元人民币。在算法竞赛的举办场次拥有如此高增长率的情况下,其技术价值、业务价值和创新价值自然不容小觑。

对于有志于进军机器学习相关领域从事研究或者相关工作的初学者来说,竞赛是性价比极高的一个实战选择,可以说是零门槛,任何人都能参加。

易于学习的竞赛宝典

对于想参加机器学习竞赛的初学者来说,一本内容友好的图书极其重要,可以少走很多弯路。这本《机器学习算法竞赛实战》合理地规划了章节架构,作者们除了仔细的讨论外,还采纳了国内多名顶尖竞赛选手的建议,深入剖析算法的本质内容,还结合多个领域模块进行了实战讲解。全书分为五个部分,作者还给每部分都取了一个名字。

磨刀事半,砍柴功倍

第一部分以算法竞赛的通用化流程为主,介绍竞赛中各个部分的核心内容和具体工作,且每章都配有具体的实战部分,以便加深理解。

物以类聚,人以群分

第二部分主要介绍用户画像相关的问题,构建完善的标签体系是用户画像的核心,也是解决用户画像类赛题的关键,比如个性化推荐和金融风控等问题都需要以用户画像作为支撑。为了帮助读者加快对此类竞赛问题的学习、理解,会讲解具体的竞赛案例,即Kaggle平台的Elo Merchant Category Recommendation。

每日一书丨一书帮你了解算法竞赛时代的奥秘

(题目背景:想象一下,当你在一个不熟悉的地方饿着肚子想要找好吃的东西时,你是不是会得到基于你的个人喜好而被专属推荐的餐馆,且该推荐还附带着你的信用卡提供商为你提供的附近餐馆的折扣信息。

目前,巴西最大的支付品牌之一Elo已经与商家建立了合作关系,以便向顾客提供促销或折扣活动。但这些促销活动对顾客和商家都有益吗?顾客喜欢他们的活动体验吗?商家能够看到重复交易吗?要回答这些问题,个性化是关键。

Elo建立了机器学习模型,以了解顾客生命周期中从食品到购物等最重要方面的偏好。但到目前为止,那些学习模型都不是专门为个人或个人资料量身定做的,这也就是这场竞赛举办的原因。

在这场竞赛中,需要参赛者开发算法,通过发现顾客忠诚度的信号,识别并为个人提供最相关的机会。你的意见将改善顾客的生活,帮助Elo减少不必要的活动,为顾客创造精准正确的体验。)

以史为鉴,未来可期

每日一书丨一书帮你了解算法竞赛时代的奥秘

(题目背景:在实体杂货店里,销量预测和顾客采购量之间的关系总是很微妙。如果销量预测得多,而顾客采购得少,那么杂货店的商品就会积压过多,尤其对易腐商品的影响较大;如果销量预测较少,而顾客采购量较大,那么商品很快就会卖光,短时间内顾客的体验会变差。

随着零售商不断增加新地点、新产品,以及季节性口味的变化多样和产品营销的不可预测,问题变得更加复杂。位于厄瓜多尔的大型杂货零售商Corporación Favorita 也非常清楚这点,其经营着数百家超市,售卖的商品超过20万种。

于是Corporación Favorita 向 Kaggle社区提出了挑战,要求其建立一个可以准确预测商品销量的模型。Corporación Favorita目前依靠主观预测来备份数据,很少通过自动化工具执行计划,他们非常期待通过机器学习实现在正确的时间提供足够正确的商品,来更好地让顾客满意。)

精准投放,优化体验

计算广告相关的业务大多是很好的竞赛题目,第四部分主要介绍了计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价。实战案例部分则包括两道赛题,分别是2018腾讯广告算法大赛——相似人群拓展,以及Kaggle平台的TalkingData AdTracking Fraud Detection Challenge。

听你所说,懂你所写

第五部分基于自然语言处理相关的内容进行讲解,包括常见任务和常见技术,实战案例部分是Kaggle 平台上的经典竞赛 Quora Question Pairs。

这本书可以说是算法竞赛领域一本系统性介绍竞赛的书,不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。

本书还附赠读书思维导图,轻松定位学习要点。

每日一书丨一书帮你了解算法竞赛时代的奥秘

本书特色

1.腾讯广告算法大赛两届冠军、Kaggle Grandmaster倾力打造

2.赛题案例来自 Kaggle、阿里天池、腾讯广告算法大赛

3.按照问题建模、数据探索、特征工程、模型训练、模型融合的步骤讲解竞赛流程

适合谁读

  • 对算法竞赛感兴趣的人。兴趣是最大的驱动力,为了让算法竞赛变得更加有趣和更加多样性,本书增加了很多扩展与探索性的内容,从多个方向、多个领域进行介绍和实战。

  • 想要研究机器学习或深度学习算法实战的人。实战的最佳方式之一是参加一场算法竞赛,加深对理论知识的理解,这也是本书的核心思想。

  • 计算机相关专业的人。机器学习或深度学习算法作为目前计算机行业一个火热的就业方向,值得去深入研究。本书提供了很好的实战讲解,帮助读者知其然,并知其所以然。

每日一书丨一书帮你了解算法竞赛时代的奥秘

本书是算法竞赛领域一本系统介绍竞赛的图书,书中不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。

全书分为五部分:第一部分以算法竞赛的通用流程为主,介绍竞赛中各个部分的核心内容和具体工作;第二部分介绍了用户画像相关的问题;第三部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析天池平台的全球城市计算AI挑战赛和Kaggle平台的Corporación Favorita Grocery Sales Forecasting;第四部分主要介绍计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价,其中两个实战案例是 2018 腾讯广告算法大赛——相似人群拓展和Kaggle 平台的TalkingData AdTracking Fraud Detection Challenge;第五部分基于自然语言处理相关的内容进行讲解,其中实战案例是 Kaggle 平台上的经典竞赛 Quora Question Pairs。

作者简介

王贺(鱼遇雨欲语与余),现任职于小米商业算法部,从事应用商店广告推荐的研究和开发。从2018年至2020年多次参加国内外算法竞赛,共获得 5 次冠军和 5 次亚军,是 2019 年和 2020 年腾讯广告算法大赛的冠军。毕业于武汉大学计算机学院,硕士学位,研究方向为图数据挖掘。

刘鹏,华为技术有限公司算法工程师,从事电信运营商和智能运维领域的算法研究和开发工作。2016年本科毕业于武汉大学数学基地班,保研至中国科学技术大学自动化系,硕士期间研究方向为复杂网络与机器学习,2018年起多次获得机器学习相关竞赛奖项。

钱乾,数程科技大数据技术负责人,工作方向为物流领域的智能算法应用。本科就读于美国佐治亚理工大学,研究方向包括机器学习、深度学习、自然语言处理等。

声明:本文转自“Python数据科学”公众号。

点击「链接」或「扫码」,《新程序员003》抢先看

每日一书丨一书帮你了解算法竞赛时代的奥秘

 

上一篇: Kaggle基本知识


下一篇:从小白到进阶 | 10个适合数据人练手的Kaggle数据集