《数据科学：R语言实现》——2.1　引言

2022-03-11 03:28:53

本节书摘来自华章出版社《数据科学：R语言实现》一书中的第2章，第2.1节，作者：R for Data Science Cookbook 丘祐玮（David Chiu），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1　引言

在使用数据回答关键业务问题之前，最重要的事情是准备数据。数据通常存在文件中，使用Excel或者文本编辑器可以轻松地获取。但是数据也可以来自于其他来源，例如数据库、网站和各种文件格式。能够从这些源中引入数据很重要。
数据主要有4种类型。以文本形式存储的数据最简单。由于一些用户需要把数据存在结构化的文件中，因此带有.tab或.csv扩展名的文件可以用来存放一定列的数据。很多年以来，Excel在数据处理领域占据主导地位，这个软件使用.xls和.xlsx文件格式。掌握读取和操作数据库中的数据是另一项重要的技能。然而，大多数数据并不是存在数据库中的，我们也必须知道如何使用网络爬取技术从互联网上获取数据。作为本章的一部分，我们会介绍如何使用rvest程序包，从互联网上爬取数据。
许多有经验的开发人员已经创建了程序包，允许初学者更简便地的获取数据。我们关注于使用这些程序包执行数据抽取、转换和加载。在本章中，我们首先学习如何使用R程序包读取文本格式的数据，并逐行扫描文件。然后我们会讨论从数据库和Excel中读取结构化数据。最后，我们会学习如何使用R网络爬取工具，从互联网和社交网络上爬取数据。

码农公寓

2.1 引言

相关文章

2.1　引言