为什么学习Python数据科学?
Python是数据科学职业所需的宝贵技能之一。Python是数据科学的首选编程语言。
- 2016年,它超越了R on Kaggle,这是数据科学竞赛的首选平台。
- 2017年,它在KDNuggets对数据科学家最常用工具的年度调查中取代了R.
- 2018年,66%的数据科学家报告每天使用Python,使其成为分析专业人士的头号工具。
数据科学专家预计,随着Python生态系统的不断发展,这一趋势将持续下去。虽然您学习Python编程的过程可能刚刚开始,但就业机会也很丰富,并且还在增长。
据Indeed,数据科学家的平均工资是127,918美元。这个数字预计只会增加。 IBM的专家预测,到2020年,数据科学家的需求将增长28%。
因此,Python数据科学的未来是光明的。
如何学习Python的数据科学
- 第1步:学习Python基础知识
Python编程基础知识及Jupyter Notebook。比如python 3.7极速入门教程:https://china-testing.github.io/python3_quick.html
通过加入社区,您可以将自己置身于志同道合的人群中,并增加就业机会。根据人力资源管理协会的统计,内推占所有雇员的30%。比如扣扣群:630011153 144081101。创建Kaggle帐户。
尝试使用命令行界面:命令行界面(CLI)使您可以更快地运行脚本,从而可以更快地测试程序并处理更多数据。
- 第2步:练习迷你Python项目
尝试编写诸如在线游戏的计算器之类的程序,或者从您所在城市的Google获取天气的程序。构建这样的迷你项目将帮助您学习Python。这些编程项目是所有语言的标准,也是巩固您对基础知识理解的好方法。https://china-testing.github.io/practices.html上有不少练习项目。
使用API构建体验并开始Web抓取。除了帮助您学习Python编程之外,Web抓取对于您以后收集数据非常有用。
阅读指南,博客文章,甚至其他人的开源代码,以学习Python和数据科学最佳实践 - 并获得新的想法。
《Python编程快速上手:让繁琐工作自动化》有很多优秀的实例,在https://china-testing.github.io/python3_quick9.html可以下载,该网址还收集了海量的python书籍。
SQL用于与数据库通信以更改,编辑和重新组织信息。 SQL是数据科学界的重要内容,因为40%的数据科学家报告说它一直在使用它。
- 第3步:学习Python数据科学库
与其他一些编程语言不同,在Python中,通常有一种最好的方法。用于数据科学的三个最佳和最重要的Python库是NumPy,Pandas和Matplotlib。
NumPy和Pandas非常适合探索和玩数据。 Matplotlib是数据可视化库,可以生成类似Excel或Google表格中找到的图表。当然还有其他很多优秀的库,请参考:https://github.com/china-testing/python-api-tesing。
Python拥有丰富的专家社区,他们渴望帮助您学习Python。像Quora,Stack Overflow和Dataquest的Slack这样的资源让很多人兴奋地分享他们的知识并帮助你学习Python编程。改变使用百度的不良习惯。尽量使用google、https://www.oscobo.com/等,可以参考https://china-testing.github.io/address.html的搜索引擎收集。
Git是一种流行的工具,可以帮助您跟踪对代码所做的更改,从而更容易纠正错误,实验和与他人协作。类似的有hg。
- 第4步:在学习Python时构建数据科学组合
对于有抱负的数据科学家来说,投资组合是必须的。
这些项目应该包括几个不同的数据集,并且应该给读者留下您已经收集到的有趣见解。您的投资组合不需要特定的主题;找到您感兴趣的数据集,然后想出一种将它们组合在一起的方法。
显示这些项目可以让同行数据科学家们进行合作,并向未来的雇主展示您真正花时间学习Python和其他重要的编程技能。
数据科学的一个好处是,您的投资组合可以兼作简历,同时突出您学到的技能,如Python编程。
通过以下方式启动您的学习:沟通,协作并专注于技术能力
在此期间,您需要确保培养与他人合作所需的软技能,确保您真正了解您正在使用的工具的内部工作原理。
在学习Python用于数据科学的同时,最好获得统计学方面的扎实背景。了解统计数据将为您提供专注于正确事物所需的思维模式,因此您将找到有价值的见解(和真正的解决方案),而不仅仅是执行代码。
- 第5步:应用高级数据科学技术
数据科学之旅将充满不断的学习,但您可以完成高级课程,以确保您已涵盖所有基础。比如回归,分类和k-means聚类模型。您还可以进入机器学习 - 自举模型和使用scikit-learn创建神经网络。
此时,编程项目可以包括使用实时数据源创建模型。这种机器学习模型随着时间的推移调整其预测。
记住:继续学习!
数据科学是一个跨越众多行业的不断发展的领域。
按需求增长的速度,有指数级的学习机会。继续阅读,协作和与他人交谈,随着时间的推移,您一定会保持兴趣和竞争优势。
学习Python需要多长时间?
学习Python需要花费大量时间。具体而言,对于数据科学,估计要3个月到一年。如果需要参加培训,切记能确定老师具备相应的实际技能。不少机构的老师实际都未入门,自学加实际从业高手的指点,是比较快捷的方式。
参考资料
- 本文涉及的python测试开发库 谢谢点赞!
- 本文相关海量书籍下载
- 2018最佳人工智能机器学习工具书及下载(持续更新)
- https://www.dataquest.io/blog/how-to-learn-python-for-data-science-in-5-steps/
- Kaggle
- KDNuggets study on Python overtaking R
- KDNuggets poll of data scientists and the tools they use
- Indeed.com salary estimates
- Forbes
- Society for Human Resource Management