Pollard-rho算法学习笔记

写在前面

目录

问题的提出

生日悖论

利用生日悖论来因数分解

Pollard-rho算法

例题完成进度

1/2


问题的提出

如何快速地找到一个自然数N的两个因数(除自己和1以外)?

首先想到的肯定是传统的试除法

int main(){
int N;
cin>>N;
if(N%==){
cout<<<<" "<<N/<<endl;
return ;
}
for(int i=;i<=sqrt(N);i+=){
//这里是一个优化了的试除法,可以直接排除偶数
if(N%i==){
cout<<i<<" "<<N/i<<endl;
return ;
}
}
cout<<"No!"<<endl;
return ;
}

这里还有一个比较不走心的算法叫I am feeling lucky algorithm

这种算法的思想就是随机生成一个[2,N]的数,若恰好生成了N的因数,那么就输出,否则就停止.

那么这种算法成功(也就是恰好生成N的因数)的概率是多少呢?

我们来试想一下最坏的情况,就是在[2,N-1]的范围内,N恰好只有两个因数。

那么我们正好找到这两个因数其中之一的概率就是$\frac{2}{N-1}$。

如果N比较大,约为1010时,成功的概率约为$\frac{1}{5000000000}$,这比彩票中奖的概率还要小QAQ

这样当然是不行的,如果要确保找到一个因数,那么我们需要用不同的随机数判断将近N次,这样会比试除法还要暴力。

不过,虽然这个算法显然是不行的,但是它给我们提供了一个思路——随机

go back


生日悖论

如果你要从[1,1000]中随机取一个数,那么显然取得一个指定的数(假设为51)的概率为$\frac{1}{1000}$

把这个问题修改一下,如果我要从这1000个数中任意取两个数,使得这两个数的差的绝对值为51的概率又是多少呢?

因为会取绝对值,所以我们可以完全随机选择第一个数,也就是说,选择第一个数符合条件的概率是100%

又根据对称性可知,选中第二个数符合条件的情况有两种,概率为$\frac{2}{999}$

于是最后的总概率就约为$\frac{1}{500}$

如果我们再修改一下这个问题,从1000个数中任选出k=3,4,5……个数,那么可以发现,成功的概率是单调递增的

我们再来看看到底什么是生日悖论

就是随机选取一名学生,他的生日恰好为6月1日的概率为$\frac{1}{365}$

那么这相当于我们在[1,365]中选取任意一个数为指定的数的概率为多少,于是就变成了上面的问题。

同样的如果我们要求任意选k=2,3,4……个学生,其中有人生日在同一天的概率为多少?

显然这个概率也是递增的,当k>50时,概率已经约等于100%了。也就是说,假定一个班有50多个人,在随机分班的情况下,应该几乎是一定会有两个人生日在同一天。

然而事实上似乎并没有那么高的概率,所以这个问题被称为生日悖论

go back


利用生日悖论来因数分解

让我们再回头看看前面提到的I am feeling lucky algorithm,已知我们随机地从[2,N-1]中选择出一个数是N的因数的概率是极小的,这也就意味着需要重复随机选择来提高正确率。

那么如果我们不是只选择一个数,而是选择k个数,保证其中两个数的差值是N的因数。

而如果其中两个数x,y的差值为N的因数,就一定会有gcd(|x-y|,N)>1

假设N只有两个因数(除去自己和1)p和q的情况下,那么就意味着此时只有这两个数能整除N

但是如果我们要求的是有多少个数x保证gcd(x,N)>1,此时答案就很多了,有p+q-2个

于是我们就得出了一个简单的策略:

1.在区间[2,N-1]中随机选取k个数,x1~k

2.判断是否存在gcd(xi-xj,N)>1,若存在,则显然gcd(xi-xj,N)是N的一个因数

同时也出现了一个问题,就是我们需要选取大约$N_{}^{\frac{1}{4}}$个数,内存显然是不可能够的

那么又要如何解决这个问题呢?于是Pollard-rho算法就出现了。

go back


Pollard-rho算法

因为数字太多内存不够,所以Pollard-rho只把连续的两个数存在内存中。

也就是说,我们并不会选出k个数,而是一个一个地生成伪随机数,并检查连续的两个数是否符合条件。

我们会用一个函数来生成伪随机数,就是这个→f(x)=(x2+a)%N

其中的a可以自己指定或rand()生成

这样看起来484很棒?但是这样也伴随了一个问题就是这个函数生成的伪随机数还是有规律的,会无限循环。

于是就会出现像希腊字母$\rho$一样的情况,这也是为什么这个算法名字中含有rho

那么我们又要如何避免这种情况呢?

首先为了保证没有答案可能被遗漏,那么至少要把这个环完整的扫一遍。

联想一下一个比较常见的问题,就是小学数学题做过的两个人在环形操场上跑步,在同时起跑的情况下,当速度快的那个人追上速度慢的那个人的时候,一定已经多跑了一圈,也就是说此时两人肯定都至少跑完了一圈,恰好符合我们的要求。

那么就是说我们要用两个变量来存储,一个用v的速度扫描环,一个用2v的速度,如果当两个变量相等时还没有找到答案,就退出这个环,重新取随机数,再次带入上面提到的函数中。

这里有一点要说明一下,就是为什么快的速度一定要是慢的速度的两倍而不能更大。

假设快的速度为kv(k>2),整个环的路程为s,快的追上慢的所需时间为t,那么我们可以列出式子:

$kvt-vt=s\Rightarrow(k-1)vt=s\Rightarrow vt=\frac{s}{k-1}$

因为k>2,所以k-1>1,那么就有$\frac{s}{k-1}<s$,也就意味着此时用来判断答案是否符合条件的(也就是速度较慢的那个)还没有扫描完整个环,那么就有可能会有答案被遗漏。

以上就是完整的Pollard-rho算法过程,接下来上代码

void Pollard_rho(long long N){
long long a=rand()%N+;//随机生成常数a
long long x1,x2,d;
x1=x2=rand()%N+;
while(){
x1=count(x1,cc);x2=count(count(x2,cc),cc);
if(x1==x2) {x1=x2=rand()%N+;cc=rand()%N+;}
d=gcd(abs(x2-x1),N);
if(d>&&d<N){p=d;q=N/p;return;}//p,q记录N的因数
}
return;
}

go back


例题

Luogu P4358 密钥破解

Luogu P4718 Pollard-rho模板

go back

上一篇:服务器 vps 空间


下一篇:struts2拦截器的实现原理及源码剖析