本部分旨在了解数据的载入与初步观察,为下部分了解pandas建立基础,本部分重点在于记忆基本的载入、查看等命令。
1.1.1 任务一:导入numpy和pandas
更新numpy、pandas库的方式:
打开cmd
conda update conda:更新anaconda的管理工具conda
conda update anaconda:更新anaconda版本
python --version:查看python版本
conda update python:更新python版本
pip list:查看python所有的包及版本
pip show pip:来查看是python及其第三方库的管理工具pip的版本号
python -m pip install --upgrade pip:更新pip版本
pip install+库名:安装库
pip uninstall +库名:删除库
pip show +包名:查看包的版本
pip install --upgrade 包名:升级包
pip install --upgrade numpy
pip install --upgrade pandas:升级包!
1.1.2 任务二:载入数据
(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据
1.1.3 任务三:每1000行为一个数据模块,逐块读取
逐块读取的含义是将海量大数据分成好几块进行处理。
应用场景一般有两种:
1.使用pandas处理函数大数据时,如果直接使用pandas的read_csv()方法去读取这个csv文件,那服务器的内存是会吃不消的,因此用chunksize分而取之。
2.我们只需要读取其中的一部分数据,而不需要读取全部数据的时候。
1.1.4 任务四:将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]
1.2.1 任务一:查看数据的基本信息
1.2.2 任务二:观察表格前10行的数据和后15行的数据
1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False
1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv