编译原理笔记4：从正规式到词法分析器（1）：构造词法分析器的一般步骤、从正规式到 NFA，Thompson 算法

2021-12-02 00:26:42

一般方法和步骤

用正规式描述模式（描述词法规则）；
为每个正规式构造一个 NFA ，这个 NFA 识别正规式表示的正规集（即，将正规式转成 NFA。正规式和NFA在这里就描述同一个正规集了，他们两个是等价的）；
将上一步得到的 NFA 转换成与之等价的 DFA ，这一步叫做”确定化“；
优化上一步得到的 DFA，使其状态数最少，这一步叫做 ”最小化“；
从上一步得到的 DFA 来构造词法分析器。

在上面的步骤中，我们通过 NFA 构造 DFA 而非直接构造 DFA ，是因为有专门的算法工具来一步步完成从正规式->NFA->DFA->分析器的工作。这样我们就可以省略中间的手工劳动步骤。

虚线框内部的，就是 Lex 的工作内容和原理。

我们使用的时候，直接从正规式使用工具转化为词法分析器就可以了。接下来我们从正规式开始一步步搞懂词法生成器是怎么一回事。

从正规式到NFA

先复读一下正规式：正规式是用来描述词法规则的，也就是描述：记号该长成什么样子、数字该长成什么样子之类。

Thompson 算法

它的任务，是将正规式转化为与其等价的 NFA。

也就是说，它可以将任意的字母表 Σ 上的正规式 r ，转化为一个能够接受 L(r) 的 NFA N。

想要构造一个正规式，我们需要从最简单的正规式（也就是 ε 和一个个字母）开始，通过一步步添加运算，逐步把它构造成我们想要的目标正规式。最简单的正规式就是 ε 和字母表上的一个个字符。

NFA 的构造步骤和正规式的构造步骤是相同的，构造两种东西的每一步都可以对应起来。因此，NFA 也要从最开始的小 NFA 开始构造。