NFA转DFA - json数字识别

2022-11-27 11:04:18

json的主页上，提供了number类型的符号识别过程，如下：

图片引用：http://www.json.org/json-zh.html

实际上这张图片表示的是一个状态机，只是状态没有标出来。因为这个状态机上存在ε转换，所以它是一个NFA（不确定有限自动机）。ε转换也即不需要输入串就能进行的转换，例如从开始状态到0之前的状态。而我们进行识别的时候，使用DFA（确定有穷自动机）会简单方便得多。所以首先应该将这个NFA转成DFA。

首先把这个NFA规范一下，写成状态与箭头的形式：

NFA转DFA最常用的方法是子集法，不过由于这个状态机的字符类型比较多，使用表格方式会使得表格很大并且很稀疏。这里用简便的记法，直接从左至右进行确定化：

考虑初始状态0，ε-closure(0)={0,1}，就直接简记为{0,1}状态，写出它相邻的状态，如果相邻状态包含ε，则做同样的处理：

然后再选定{2,6,10}，写出它的相邻状态：

用同样的方式，写出1、{2,3,6,10}的相邻状态，得到状态4和{7,8}，这里需要注意的是1跟{0,1}是两个不同的状态。并且{2,3,6,10}是包含{2,6,10}的，因此可以利用之前{2,6,10}的结果来简化运算，所以只需要考虑3的相邻状态，有点像动态规划思想。重复以上步骤，最终得到一个不含ε的DFA：

得到这个DFA之后并不一定是最简的，我们可以对它进行简化。首先为了方便，对它的状态都用字母替代吧：

简化的主要思路就是将状态的集合不断划分成子集。划分的办法是用一个集合相关的符号去测试这个集合中的状态，如果发现某个状态测试结果与其他状态不同，则划分状态，如果无法区分，则放到同一个集合中。

比如上述的DFA，首先可以肯定的是所有状态可以划分成“非终止状态”和“终止状态”两个集合，因为非终止状态总要转换到终止状态的。由于状态机是从左至右写出的，所以通常情况下，只需要考虑相邻的状态是否等价。并且，如果把这个状态机写成状态转换表，表项是很稀疏的，所以实际上可以合并的状态很少。具体过程如下：

对于终结符{A,C,F,G}每两个都互不等价，因此划分成四个状态{A},{C},{F},{G}

对于非终结符{S,B,D,E,G}，E和G不等价，原因在于E对于+/-结果为G，而G不能通过+/-，并且E,G可以通过digit转换到H，而其他都不能这样转换，所以原集合可以划分成{S,B,D},{E},{G}

{S,B}和{D}很明显是不等价的，而对于S和B，唯一的区别就是S能够通过-转换到B，而B不能通过-

任何状态都不能合并，所以上述的状态机已经不能再简化。

用正规式把上面的状态机写出来就是（非通常的正则表达式语法）：

A=0|-0

C=([1-9]|-[1-9])d*

F=(A|C).dd*

H=(A|C|F)(e|E)(d|(+|-)d)d*

有了以上的状态机，我们就可以实现一个number识别程序了。

程序见：

https://github.com/lianera/lianera.github.io/blob/master/code/json_number_recognize/json_number_recognize.cpp

码农公寓

相关文章