AC算法学习笔记

1、算法流程图

(1)    void Init()

此函数是初始化函数,用来给fail数组和goto数组初始化值。

AC算法学习笔记

(2)    void GotoFunction(string x)

这个函数的作用是生成有限自动机状态转移图。

AC算法学习笔记

(3) void FailFunction(int target,int k)

这是fail函数,核心内容是求出每个状态的fail值。

AC算法学习笔记

(4) void UpdateOutput()

这是update输出函数。其作用是更新每个状态的输出值。

AC算法学习笔记

AC算法学习笔记

5void Check(string x)

这个是check函数,其作用是判断改状态下output函数是否有输出,如果有输出就输出相应状态下的字符串。并且决定该状态接受输入之后的去向,如果fail,则调用该状态的fail 函数来决定去向。

AC算法学习笔记

6int main()

主函数,整个过程的入口。

AC算法学习笔记



2、自动机所定义的数据结构及其功能

(1)             int Goto[M][26];

goto数组是状态机状态的载体,内部存储着本次实验的全部状态。起始状态为0,之后每获得一个有效输入就生成一个新的状态。但是在生成状态之前要进行检验,看是否已经存在本次状态。

(2)             int Fail[M];

fail数组存储的是该状态获得输入后,如果结果为fail之后的转向状态。

(3)             string Output[M];

output数组是一个字符串数组,存储的是以该状态为终结状态的字符串。当然,字符串不唯一,AC算法的核心任务之一就是找到每个状态为终结状态时候的全部输出字符串。

(4)             string Depth[M];

depth数组用来标示该状态在第几层。我们在此次实验中将goto函数创建的状态看作一个树,因此必然需要一个数组来指明树中的节点所在的层数。



3、转向函数、失效函数、输出函数的构建过程

(1)             转向函数

我们首先来看其伪代码:

AC算法学习笔记

结合伪代码和刚才的函数流程图,我们可以看出转向函数首先对数组进行初始化。其次,来看while循环。如果g(state,aj)!=fail,那么就将g(state,aj)赋值给state,其目的是如果已经存在的状态就不必再次创建,只需要不断地向前更新状态即可。可是如果g(state,aj)=fail,那么我们就要创建新的状态,即newstate+1,并将g(state,aj)指向此状态,再更新状态。在函数最后,构建部分output函数。

(2)             失效函数

我们来看fail函数的伪代码:

AC算法学习笔记

Fail函数采用队列作为核心数据结构。首先将0状态后的有效状态加入队列。如果队列不空,就会一直执行while循环中的代码。首先将队首取出,将队首能够到达的有效状态依次加入队列。求出已取出的队首的fail值并作为state。接下来判断g(state,a)是否为fail。如果不是fail,那么该值就会作为新入队列的队首的fail值。依次类推,用队列以层序的方式将状态图中每一个状态的fail值都求出来。求出了改状态的fail值之后,应该将此状态的输出并上fail状态的输出。这是很关键的一步,用以更新output数组输出值。

(3)             输出函数

同样我们来看看output函数的伪代码

AC算法学习笔记

Output本质就是在模拟自动机执行的过程。首先进入while循环,如果g(state,a)为fail,那么就调用改状态的fail函数,并将函数值更新给state。直到跳出while循环,之后状态往前走一步,并判断改状态是否有输出。如果有输出,就先将改状态的输出打印出来,再继续读入下一个输入。



4、  源代码

#include<iostream>

#include<string.h>

#define M 20//State_Number

using namespace std;

int Goto[M][26];

int Top;

int Fail[M];

string Output[M];

string Depth[M];

void Init()

{

Top=0;

for(int i=0;i<M;i++)

{

Fail[i]=0;

for(int j=0;j<26;j++)

{

Goto[i][j]=0;

}

Depth[i]=Output[i]="";

}

Depth[0]+='0';

}

void GotoFunction(string x)

{

int len=x.length();

int next=0;

for(int i=0;i<len;i++)

{

int index=x[i]-97;/*a->0*/

if(Goto[next][index]==0)

{

Goto[next][index]=++Top;

next=Top;

}

else

{

next=Goto[next][index];

}

char num=next+48;/*0->'0'*/

if(Depth[i+1].find(num)==Depth[i+1].npos)

{

/*

这段代码很巧妙,他本质上是用一个数组来模拟树

其作用是让i+1层囊括这一层的所有状态

*/

Depth[i+1]+=num;//每一层都有哪些状态

}

}

Output[next]+=x;//构建output数组,在next位置输出x字符串

}

void FailFunction(int target,int k)

{

for(int i=0;i<Depth[k].length();i++)

{

int num=Depth[k][i]-48;

for(int j=0;j<26;j++)

{

if(Goto[num][j]==target)

{

/*

这一段是核心代码

首先找到state

然后根据算法构建target的fail值

*/

int state=Fail[num];

Fail[target]=Goto[state][j];

return;

}

}

}

}

void UpdateOutput()

{

int k=2,num;

Fail[0]=0;

for(int i=0;i<Depth[1].length();i++)

{

num=Depth[1][i]-48;

Fail[num]=0;//当然啦,我们规定层数为一的状态fail函数值都为0

}

while(Depth[k]!="")

{

for(int i=0;i<Depth[k].length();i++)

{

num=Depth[k][i]-48;

FailFunction(num,k-1);

/*

这一段是核心代码

就好像广度优先遍历

对于每一层的每一个状态

构建其fail函数值

*/

if(Output[Fail[num]]!="")

{

Output[num]+=" ";

Output[num]+=Output[Fail[num]];

/*

当然这也是核心代码

重构output内部值

*/

}

}

k++;

}

for(int i=0;i<=Top;i++)

{

cout<<'\n'<<i<<'\t'<<Output[i];

}

}

void Check(string x)

{

int state=0,index,i=0;

while(i<x.length())

{

index=x[i]-97;

if(Goto[state][index]!=0||state==0)

{

/*

0状态无论输入什么都不报错

*/

state=Goto[state][index];

if(Output[state]!="")

{

cout<<i+1<<'\t'<<Output[state]<<'\n';

}

i++;

}

else

{

state=Fail[state];

}

}

}

int main()

{

Init();

int i=1;

cout<<"welcome the AC world!"<<endl;

cout<<"please input the "<<i <<" patterns: ";

string x;

cin>>x;

while(x!="exit")

{

i++;

cout<<"please input the "<<i <<" patterns: ";

GotoFunction(x);

cin>>x;

}

UpdateOutput();

cout<<"\n\n";

cin>>x;

Check(x);

}

上一篇:Git的学习笔记


下一篇:epoll的lt和et模式的实验