最近在上Stanford的公开课Statistic Learning,用到的语言是R。之前有接触过R,很多人也推荐用它来做数据分析,因为很方便,包也很多,做可视化也非常赞。
看书的时候看到了set.seed()这么个function,大概知道是怎么个回事,但是不太清楚相关算法的细节,而且以前用random的时候也没有想那么多(计算机是如何产生随机数的,它的算法是怎么样的,只是觉得理所当然,随手拿来用),于是上网查了下。
书中的原文:
Sometimes we want our code to reproduce the exact same set of random numbers; we can use theset.seed()function to do this. Theset.seed()function takes an (arbitrary) integer argument.
> set.seed(1)
> rnorm (4)
> set.seed(1)
> rnorm (4)
首先讲一下为什么要用到seed(设置种子):
因为计算机其实并不能产生真正的随机数,准确的讲它所产生的是伪随机数。计算机只是模拟随机过程,用算法来模拟进而得到结果。当然如果想要拿到真正的随机数,可以外接物理随机数发生器,然后将其产生的信号转换为随机值。
如果你不设种子,计算机会用系统时钟来作为种子,如果你要模拟什么的话,每次的随机数都是不一样的,这样就不方便你研究,如果你事先设置了种子,这样每次的随机数都是一样的,便于重现你的研究,也便于其他人检验你的分析结果。
随机数产生原理,通常有两种方法 :
1)从一个n位数x开始,称为种子
2)将它平方得到一个2n位数(必要时前面加0)
3)取中间的n位数做为下一个随机数
这种方法有一个缺点就是产生的随机数会趋向0
2.线性同余法 http://en.wikipedia.org/wiki/Linear_congruential_generator
选择三个整数a,b,c,给定初始种子X(0)
按下列规则生成数列X(n+1)=( a * X(n) + b )mod(c)
线性同余法的一个例子:
取a=1, b=3, c=5
那么 X[n+1] = (X[n] + 3) mod 5
生成的数列为:
种子 数列
0 3, 1, 4, 2, 0, 3, 1, 4, 2, 0, ....
1 4, 2, 0, 3, 1, 4, 2, 0, 3, 1, ....
2 0, 3, 1, 4, 2, ...
因此我们可以看到这种方式产生的随机数会出现循环,但是只要我们把c取得足够大就可以保证不会在我们运算中出现循环。很多计算机都是利用这个原理产生随机数的。只要把c值取得很大,一般就不会出现循环。
对于每个种子,所得到的数列看起来都是随机的(每个数值出现的频率都是相同的)。而一旦种子给定,每次调用随机数函数,函数都会根据上次得到的数列的某个值,计算出数列的下一个值并返回回来。因此只要设定了相同的种子,就能得到一样的随机数列。这么做的好处在于,比如你在做研究的时候代码中有用到随机数据,当别人也想实现你的算法来验证和比较结果的时候,相同的可重复使用的数据就很重要了。
再举个例子,学生可以取他们的名字作为seed(char2seed,TeachingDemos Package),这样每个学生都有他们自己唯一的数据库。而这时老师也可以产生相同的数据库,进而对学生进行grading。