刚接触实际操作Rstudio,果然欠的账早晚要还。
- 导入数据
data<-read.csv(“地址”, header = T)
#读取完的数据形式应该是data frame
#注释:header=T表示数据中的第一行是列名,如果没有列名就用header=F
- 下载并加载包
install packages(“名字”)
library(名字)
- 画图
直方图
hist(data, breaks = c(0.5, 1.5, 2.5, 3.5)),xlab="x轴标注"
freq = T(或probability = F),
labels = c("A", "B", "C"),
axes = T,col = "pink",border = NA,
density = 1, angle = 45,main = "freq = T"
表示 以data里面的数据;以0.5、1.5、2.5、3.5为断点;x轴标注;freq为TRUE , y轴显示的是每个区间内的频数,FALSE, 代表显示的是频率(= 频数/ 总数)(probability相反);每个柱上面标注A、B、C;axes=T表示显示坐标轴;col表示柱的颜色;border是柱子边框的颜色(默认为黑色);density表示给柱打斜线的密度;angle表示斜线的倾斜度;main表示图的标题
箱线图
boxplot(data, width = 1,
col = "green", border = "red", horizontal = TRUE)
points(mean(data), pch = 16, col = "red")
# 在图里面加一个红色的点表示平均值
表示为数据;箱体宽度为1;箱体为绿色;线为红色,水平放置
散点图
plot(data1, data2, main = "标题")
- 数据分析
mean(data) # 平均数
exp(mean(log(1+data)))-1 # 几何平均数
median(data[,i]) # 中数
min(data[,i]) # 最小值
max(data[,i]) # 最大值
quantile(data) # 四个四分位数
IQR(data) # 内距
var(data) # 方差
sd(data) # 样本标准差
sd(data)*sqrt((nrow(data)-1)/nrow(data)) # 数据集标准差
# 换行 shift+enter
# aggregate函数可以按照要求把数据打组聚合
aggregate(data1, data2, FUN=mean)
# 把data1按照data2进行分类并输出平均值(mean)
aggregate(data[,5], by=list(data[,1]),FUN=sum)
# 原来是写的list(c(“Day”))就不能运行,sum求和