(转载请表明出处 http://www.cnblogs.com/BlackWalnut/p/4472772.html)
前面已经介绍过LL(1),以及如何使用LL(1)文法。但是LL(K)文法要求在看到K个字母的情况下必须做出预测,这相比于LR(K)文法而言就逊色很多。
LR(K)文法的定义是:从左至右分析,最右推导,超前查看K个单词。先看一个例子,来对LR文法有个大致的印象。
以上就是使用LR文法对源码进行分析的例子。注意到在LR文法中只有三个动作:移进,规约和接受,这三个动作也是通过查表来得到的。任何时候如果都是唯一确定这三个动作中的一个,我们就能让LR文法正确的运行。为了更好的理解LR(K)文法,我们先介绍以下最简单的LR(0)文法。
因为动作是根据表来确定,所以,表的构建依然是我们构建的重点,先来看看一个表的最终形式:
首先要说明的是,构建这张表的时候,我们使用到了状态机,行标就代表状态。列标由两部分组成,分别是终结符,和非终结符。s代表移进,r代表规约,g代表跳转,a代表接受,他们后面跟着的数字,除了r以外,都是状态的标号,只有r后面的数字指的时规约到第几个产生式。所有空的地方都代表出现错误。可见在非终结符下只有跳转。
为了构建这个表,我们首先构建状态机。我们从一个基本的文法开始,文法如下:
我们向产生式中添加一个点,形成这种形式,称为项。这个点的位置告诉我们当前在状态是什么。点每移动一次,我们跳转一个状态。点前面的字符串表示我们已经读取的历史,点后面的字符串表示我们希望得到的。也就是这种表达方式,既可以展望未来,也可以回顾过去。上面这个起始项中,我们希望得下一次得到一个S非终结符,可以看出1和2产生式是S的等价形式,如果我们得到1和2产生式的右部,我们就相当于得到了非终结符S,所以,我们的起始状态为:
我们称第一个产生式为核心项,其他为普通项。这个状态我们称为状态1,所有的状态都是由这个状态中每个项的点的移动得到的。例如,状态1吃掉一个终结符x时,状态1的第二个项中的点要向右移动一位。得到状态2:
当然,状态1也可以吃掉一个终结符(,得到状态3:
状态3中的第一个项就是核心项。上面就我们说的移进操作。
如果状态1吃掉的是一个非终结符S,那么我们称状态需要跳转,起始和移进时相似的效果。那么得到如下状态:
我们再来看状态2,目前点的位置已经到了产生式的最后面,那么意味着这个产生式已经完全匹配了,那么就可以将其规约。具体操作根据r的下标,选择产生式,将栈中的产生式的右部字符串全部弹出,将产生式的左部符号压栈,然后跳转到相应的状态。这个规约还是不太好理解,那么我们对最上面那张图的最后四个规约来举例解释一下。
首先,要说明的是,在实际的使用过程中,在栈中的内容不包含任何的符号,只有状态编号,第一张图是为了方便大家理解,所以才将符号都放入栈中。那么,在规约弹出栈的时候,我们弹出的也都是状态编号。
那么,对于最后四个规约的第一个规约,栈顶符号以此是 +16 (8 S12 ,18 E21 )22这六个符号以及六个个状态,只有最上面的四个满足规约,此时如果用项来表示的话,可以表示为E->(S,E).也就是说在 . 之前我们已经得到一个完整的产生式的右部,可以对其规约。需要把右部所涉及到的所有符号全部弹出,但是我们实际弹出的是状态,所以,原来的16 8 12 18 21 22 弹出状态后,得到的栈为16,我们弹出的字符串规约成为了非终结符E,此时,可以将E看作是在输入队列中输入端,得到 E