智能科学与技术丛书
点击查看第二章
点击查看第三章
自然语言处理的认知方法
Cognitive Approach to Natural Language Processing
[英] 伯纳黛特·夏普(Bernadette Sharp)
[法] 弗洛伦斯·赛德斯(Florence Sèdes)
[波兰] 维斯拉夫·卢巴泽斯基(Wies?aw Lubaszewski)
徐金安 等译
第1章 延迟解释、浅层处理和构式:“尽可能解释”原则的基础
本章将讨论“尽可能解释”原则,这条原则指的是在没有足够的信息可用之前,对处理机制进行延迟。这条原则依赖于对基础单元—语块的识别,识别语块则通过语块的基本特征来实现。语块是待处理的输入的分段。在一些情况中,基于它们所具有信息的可理解性,语块可以是具有语言学结构的元素。在其他情况中,语块只是简单的分段。语块存储在工作记忆的缓冲区中,并在可以分组的时候递增地进行分组(基于内聚力度量),逐步识别输入的不同结构。对语言输入的整体解释不再基于逐字翻译的机制,而是基于对输入结构的分组,这些结构构成了“尽可能解释”原则的基础。
1.1 引言
自然语言处理、语言学和心理语言学从不同角度揭示了人类处理语言的方式。然而,这几个方面的知识仍然很零散:传统研究通常关注的是语言处理子任务(如语言习得)或模块(如形态学、句法),并没有形成统一的框架。要找到一个能将不同信息源统一到一个特定体系结构中的通用模型非常困难。
存在这样一个问题:我们仍然对语言的不同维度(韵律、句法、语用、语义等)如何相互作用知之甚少。一些语言学理论,特别是构式语法(construction grammar)[FIL 88,GOL 03,BLA 16],提出了一些方法,使聚合和建立不同维度之间的关系变得可能。这些框架依赖于构式的概念,后者是根据不同层次(词汇、句法、韵律等)的特定属性所链接成的一组单词,并且与特定含义相关联,该含义通常是非清晰的或可组合理解的(如习语或词组)。有趣的是,这些理论也为整合多模态信息(语言和非语言)提供了一个框架。解释一个构式(即获取其相关的意义)是所有维度交互作用的结果。在这种架构之下,对语言生成的处理不是一个线性过程,而是需要借助机制来对构式进行全局识别。与增量体系相反(参见[FER 02,RAY 09]等),句法、语义和语用处理不是逐字逐句进行的,而是基于更全局化的构式进行的。
在这种架构之下,语言处理需要对不同来源的信息进行同步化的对齐,以便识别构式并得到其含义。在实际情况中(如对话),不同的输入流可以是语言(韵律、句法、语用等)或者非语言(手势、态度、情绪、上下文等),它们出现的时间并不同步。所以接下来需要解决的一个问题就是如何将信息暂时性地存储,并且延迟处理直到获得足够的信息。在这种观点下,输入语言流(读到或听到的)将会被分割成任何形式的、被部分或全部识别的元素:音频流的片段、字符集,以及(如果可能的话)由多个单词甚至多个词组构成的更高级别的片段。在本章中,我们为了实现上述构式提出了以下几个问题:
1)延迟机制的本质是什么?
2)基本单元的本质是什么?它们是怎样被识别的?
3)延迟机制是如何实现的?
1.2 延迟处理
在语言处理过程中能产生不同种类的延迟效应。例如,在大脑层面上,我们已经发现了语言处理可能受输入呈现速率的影响。[VAG 12]中调查了这种现象,声称当呈现速率增加到比处理速度快时,可懂度可能会崩溃(见图1-1)。这是因为语言网络的工作时间长短是恒定的:作者称,皮层处理速度受到严格约束,不易加速。所以当呈现速率增加时,处理速度保持恒定,可能会突然出现阻塞情况。具体说来,这意味着当呈现速率提高时,由于处理速度保持恒定,所以必须缓冲部分输入流。实验表明,在可懂度崩溃之前,速率可以提高到40%。这种情况发生在缓冲区饱和的时候,大脑皮层的高阶语言区域(据说反映了可懂度[FRI 10])的激活突然下降,表明输入信号变得不可理解,从而在皮层水平揭示了这种情况。
这个模型表明当单词以较慢的速率输入时能够被及时处理,在此情况下,处理速度就是感官系统的处理速度。然而当速率增加、单词呈现得更快时,处理速度达到极限,不再能够实时地处理单词。在这种情况下,单词会存储在缓冲区中,然后在认知资源再次可用时,大脑会以先进先出的方式从缓冲区中检索单词。当呈现速率高于处理速度时,要存储的单词的数量会持续增加。当达到缓冲区的最大容量时,会发生锁定,并且导致可懂度崩溃。
除了这种缓冲机制之外,还有其他证据证明输入可能不是逐字逐句线性处理的,而是周期性的。这个概念意味着即使在正常情况(即没有任何可懂度问题)下,对于基本单元的解释也只是周期性地进行,即在处理基本单元之前先进行存储。一些研究调查了这一现象。在皮层水平上,对刺激强度的波动分析揭示了在短语和句子出现之后存在特定活动(谱峰)[DIN 16]。阅读过程中的眼球运动也存在同类型的效应:当刚刚读到的词是短语或者句子的结束时可以观察到存在更长时间的注视。该结尾效应(wrap-up effect)[WAR 09]以及如前所述的在皮层水平上时间延迟的存在,证明了延迟机制的存在,即基本元素被临时存储,并且在得到足够信息时才触发整合操作。
在语义层面,其他证据也表明语言处理,或者至少语言解释,并不是严格递增的。相关实验表明,语言理解可能仅停留在浅层次:[ROM 13]表明,在习语的语境中,对单词的处理可能完全不进行,取而代之的是习语层面的全局处理。这种效应已经在皮层上表现出来:当在习语中引入语义违规时,硬语义违规(hard semantic violation)和软语义违规(soft semantic violation)之间没有区别(但是在非习语语境中情况并非如此);在某些情况下,处理一个单词并不意味着需要将其集成到一种结构中,而是仅在扫描单词时进行简单浅处理,而不做任何解释。在阅读相关的研究中也进行了同样的观察:根据任务的不同(如期望非常简单地理解问题时),读者可能会进行浅处理[SWE 08]。能够揭示这一效应的事实是,对于歧义句的阅读速度会更快,这意味着对它没有进行解析,语义表示仍然不够明确。这种处理层次的变化取决于语境:当语用和语义语境承载了足够的信息时,会使得整个处理机制失效,解释变得可预测。在注意力层次上,这个现象在[AST 09]中被证实,表明对于不同的时间窗口分配的注意力资源取决于该时间窗口的可预测性:当信息可预测时,分配最少的注意力,相反,当信息与预期不符时需要分配最多的注意力。当听者使用知觉调节(perceptual accommodation)针对说话者调整自己的听觉策略的时候,可观察到相同类型的变化[MAG 07]。
这些观察符合“足够好”理论(good-enough theory)[FER 07],即对复杂内容的解释通常是浅薄和不完整的。该模型表明,解释只是在少量相邻词的基础上偶尔进行,全局解释将被推迟到有足够的资料时进行。这个框架和它所依赖的证据也证实了这样一个观点—语言处理通常不是线性、逐字逐句的。相反,语言处理可以停留在非常浅的层面,并且可以在必要时延迟。
1.3 工作记忆
延迟机制依赖于被称为短期记忆(short-term memory)的存储单元,因为该单元可以临时存储任何性质的信息,所以该单元成为认知系统组织的基础。一般来说,人们认为这种记忆单元主要用于存储。然而,一种特殊的短期记忆单元称为工作记忆,也可以用于信息和某种程度的处理操作。它将作为一个缓冲区,并且其内部存储的信息可以被部分结构化。
一些模型[BAD 86, BAD 00]提出了一种架构,其中工作记忆在不同的感觉-运动回路上扮演着监管者的角色,同时也是一个间歇缓冲区。
工作记忆单元(以及一般的短期记忆单元)的一个重要特征是容量有限。在一篇著名的论文中,[MIL 56]将这一限制估计为7个单元这样一个“神奇”的数量。然而,已经发现存储在工作记忆中的单元不一定是原子级别的;也可以是被视为单个单元的分组。例如,存储的元素可以是数字、字母、单词甚至序列,表明了一个组可以被编码为单个单元。在这种情况下,工作记忆单元不直接存储元素集,而是更倾向于存储一组指针,这些指针指向短期记忆单元中另一(较低级别)部分的元素的位置。这些高级元素类型被称为语块(chunk),就语言而言,它一般由一组单词组成。
工作记忆单元在ACT-R(理性思想的适应性特征,Adaptive Character of Thought-Rational,见[AND 04])等认知架构中占据着中心位置。此模型中,短期记忆信息(语块)被存储在一组缓冲区中。该架构以[BAD 86]中阐述的方式,围绕着一组由监管系统(生产系统)协调的模块(手动控制、视觉感知、问题状态、控制状态和陈述性记忆)。每个模块都与包含一个语块的缓冲区相关联,该语块被定义为包含少量信息的单元。此外,在这个组织架构中,每个缓冲区只能包含一个知识单元。
ACT-R已经被应用于语言处理,其中短期记忆单元在程序性和陈述性记忆单元(两种不同类型的语言知识)之间扮演着接口的角色[LEW 05, REI 11]。缓冲区存储的是被表示为属性-值对列表形式的语块(信息单元)。语块存储在记忆单元中,它们组成一个单元并且可以被整体访问。它们的可访问性取决于激活(activation)程度,从而有助于控制它们在陈述性记忆单元中的检索。语块的激活程度由几个参数决定:自上次检索到现在的时延、元素相对于语块的权重,以及元素和语块之间关系的强度。下面的公式整合了这三个元素来量化对于块i的激活A:
在这个公式中,B表示语块的基本激活强度(其检索的频率和最近时间),W表示查询项相对于语块i的权重,S表示将每一个查询项链接到块的关系的强度。然后我们就可以将语块与其激活程度相关联。有趣的是,语块激活也部分地依赖于上下文:当前语块与其他元素的关系强度对激活程度有影响,由此可控制其概率以及检索速度。
实际上,这个架构隐含地实现了延迟评估:包含原子信息或结构化信息的基本单元首先被识别,并存储在不同的缓冲区中。此外,这一发现也提示了检索的实现方式,即存储语块的不同缓冲区不会被实现为堆栈的形式,因为堆栈遵循先进先出(first-in-first-out)的检索机制。而在我们的架构中,语块可以以任意顺序检索,而且会优先选择激活值较高的块。
ACT-R模型和激活概念为理解困难(comprehension difficulties)的问题提供了解释。在上一节中,我们已经看到理解困难可能是缓冲区饱和(从计算角度来说,是栈溢出)的结果。由于存储信息的可访问性下降,这种困难得到了控制[LEW 05]。这一解释与前一节中的结论是互通的:处理速度与激活程度相关。具有高激活度的语块将被快速检索,从而减少缓冲元素的数量。当大量语块的激活程度较低时,处理速度会降低,从而导致缓冲区拥塞。
这个架构中的一个重要问题是工作记忆在程序化操作中的作用,更确切地即要被存储的不同元素的结构是怎样的。在某些方法中,工作记忆在整合元素方面起着决定性作用:基本元素(词汇单元)被组装成结构化元素,起到激活的作用。在这种组织中,工作记忆成为进行语言分析的场所。这就是在如“理解能力理论”[JUS 92]中提出的:工作记忆起着存储和处理的双重作用。在这个理论中,任何层次的元素都可以被存储和访问,如单词、短语、主题结构、语用信息等。然而,很难解释这种模型如何能够同时实现延迟效应(作者称之为“观望”)和逐步解释的增量理解系统。在[VAG 12]等对记忆容量的研究中,提出了一个更简单的观点,即记忆单元有一个独特的输入缓冲器,其作用仅限于存储单词。在我们的研究中,我们采取了一个折中的理论,即缓冲区仅限于存储,但是可以存储不同类型的元素,包括如语块等部分结构化的元素。
1.4 如何识别语块:分词操作
语言处理中延迟评估的假设不仅依赖于记忆单元的特定结构,还需要一种机制来识别需要存储在缓冲区中的元素。因此我们需要解决两个问题:这些元素的特点是什么,以及如何识别它们。我们的假设基于一个想法,即在第一阶段不做深入和精确的语言分析。如果这样的话,解释和描述识别存储元素的机制必须处在较低的层次。
这些问题与分词有很大的关联。给定输入流(如连续语言/音),可以将哪些类型的元素进行划分以及如何划分它们?对于音频信号而言,一些特定的机制在语音分段中起作用。这方面的许多研究([MAT 05],[GOY 10],[NEW 11],[END 10])展现了来自不同层次的不同影响因素,这些因素特别针对于(但不仅限于)分词任务,其中包括:
- 韵律层次(prosodic level):在某些语言中,重音、持续时间和音高信息与单词中的特定位置(如初始位置或最终位置)相关联,从而有助于检测单词边界。
- 异音层次(allophonic level):音素是可变的,而其实现受到它们在单词中的位置的影响。
- 音位层次(phonotactic level):音素出现顺序的限制,给出了两个相邻音素出现在单词内部或单词之间的概率。
- 统计/分布特性(statistical/distributional property):连续音节之间的过渡概率。
分词需要满足多种约束条件,这些不同的约束条件编码了不同类型的信息,如语音、音位、词汇、韵律、句法、语义等(参见[MCQ 10])。然而,这些分词需要的特征大部分处于较浅的层次,不涉及实际的词汇访问。从这个角度来看,一些分割机制不依赖于单词的概念,并且也可以用于除分词之外的其他任务。这一点非常重要,因为单词的概念并不总是相关的(因为涉及高级的特征,包括语义特征)。在许多情况下,我们会使用其他类型的分割,这种分割不涉及单词的概念,而是停留在更大的分段(如韵律单元)的识别上,不进行深入的语言分析。
进一步的,[DEH 15]提出了5种识别序列知识的机制。
- 转移和时序知识(transition and timing knowledge):当一个序列的元素(不论其类型是什么)以一定的速率出现时,因为下一个元素出现的时延是可以估计的,所以可以预测转移的下一个元素。
- 分块(chunking):根据特定的规则,连续的元素可以被分组到相同的单元。语块简单定义为一组经常同时出现的连续元素,然后会被编码为单个单元。
- 排序知识(ordinal knowledge):一个与时间长度无关的、循环的线性顺序,用于识别元素及其位置。
- 代数模式(algebraic pattern):当若干元素具有内部正则模式时,可以通过此信息完成它们的识别。
- 由符号规则生成的树状嵌套结构(nested tree structures generated by symbolic rules):识别复杂结构,将几个元素聚合成一个特定的元素(通常是短语)。
对于这些序列识别机制(至少是前四个)而言,很重要的一点是,它们适用于任何类型的信息,并依赖于浅层机制,因为这些识别机制基于对规律和频率的检测。当应用于处理语言时,这些机制阐述了如何直接识别音节、模式或组块。例如,代数模式是基于某个特定结构的,如在下面的口语例子中:“星期一,洗衣,星期二,熨衣服,星期三,休息”,没有任何句法或高级处理,仅仅依赖“/日期-动作/”(/date-action/)模式的规则,就可以对三个子序列分段并将每个分段集成为一个特定的成分。由此,我们依靠模式识别(pattern identification)这样一个基本的机制就可能实现识别结构(并且直接理解其含义)的任务。
将本节所描述的机制集成到一起,我们就可以获得一组强大的参数,并用于将输入分割为单元。在某些情况下,当特征密度比较高的时候,分割的片段可以是单词;在其他情况下,分割的片段是更大的单元。例如,韵律中的长中断(超过200ms)是一个常见的分段约束:两个这样的中断可以作为一个分段的边界(对应一个韵律单元)。
因此我们可以得出结论,许多基本机制都可以在不涉及深入分析的基础之下,将读或者听到的语言输入分段。我们的假设是这些片段是最初存储在缓冲区中的基本单元。存储单元可能但不一定是单词。在一般情况下,它们是可以用于后续检索的字符序列或音素。当听到对方说话但是没有理解时,对于听者会有如下反应:音频片段会被首先存储起来,直到获取到其他来源的信息(譬如文本)的时候,才会被再次访问并且将分段细化为单词。
1.5 延迟架构
根据到目前提出的不同元素,我们建议将延迟评估和分块的概念整合到语言处理组织结构中。这种架构依赖于这样一种观点,即对句子的解释(以及接下来的理解)仅仅在可能的情况下进行,而不是逐字地进行。该机制意味着,在开始任何深度处理之前都需要积累足够的信息。这也意味着:第一,识别原子单位不需要进行任何深层解析;第二,存储元素并在必要时对其进行检索。
我们在这里不讨论建立解释的问题,只关注积累信息的这一初级阶段。这个组织依赖于一个分成两阶段的过程,第一阶段是打包,第二阶段是更深入的分析。这种区别让我们想起了著名的“香肠机”(Sausage Machine)[FRA 78],该架构第一层称为初步短语包装器(Preliminary Phrase Packager,PPP),用于识别可能的组(或语块),而这些组是由6或7个单词组成的有限大小的窗口,而且每个组对应的短语可以是不完整的。第二层称为句子结构监视器(Sentence Structure Supervisor,SSS),它将PPP中生成的单元组成更大的结构。在这个经典的架构中,每个层次都涉及某种句法分析,依赖于语法知识。此外,从经典的构成角度来看,解释应该从句法结构的识别开始。
我们的方法同样依赖于两个阶段:
1)分段和存储。
2)聚合复杂块。
然而,这个模型对于要构建的单元类型没有任何先验知识:它们不一定是短语,并且可以简单地由输入的非结构化片段组成。此外,第二阶段不是强制性的:对结构的识别和对相应输入子部分的解释可以在第一阶段完成。
接下来,我们会基于更通用的“尽可能解释”结构对这两步进行阐述。
1.5.1 分段和存储
处理语言输入(文本或语音)的第一步是将其分割成原子语块。这里“原子”意味着没有构建结构,“语块”只是对输入的切分,其基于低级参数的识别。换句话说,该机制没有对输入进行精确的分析,而是立即收集所有可能的信息。因此,由于信息的精度级别可以有很大不同,块可以具有许多不同的类型和级别。一些分段机制非常普遍,甚至是通用的。例如,“互操作单元”(inter-pausal unit)的定义依赖于音频信号中长中断的识别,而其得到的语块是没有内部组织或子分段的一长串音素。在一些(罕见的)情况下,除了长中断以外没有其他任何特征,分块就会很大并且就这样存储。然而在大多数情况下可以获得更多信息,从而可以识别更细粒度的语块,有时甚至可以识别到单词的粒度。几种这样的分段特征具体如下:
- 韵律轮廓(prosodic contour),重音:音高、停顿、持续时间和重音可能表明了单词边界。
- 音位约束(phonotactic constraint):音素序列的语言依赖约束。违反这种约束就表明可能是边界。
- 词频单元(lexical frequency unit):在某些情况下,整个单元可能是可预测性非常高的(通常是高频的单词、命名实体等),从而可以直接对输入进行分段。
这些特征经常发生变化,并且不会在所有情况下都导致分段。当模糊度较高时,在此阶段不会进行更进一步的分段。而在相反的情况下,即当模糊度较低时,这些低级特征会导致单词的分段。更重要的是,这些特征所对应的信息是可以直接被评估的,而不需要依赖于其他特性或知识。
在第一阶段,原子语块被存储在了缓冲区中。我们将在下一节介绍预处理阶段的下一步,包括对语块的聚集过程。
1.5.2 内聚聚集
结构可以被描述为一组相互作用的属性。这一定义让我们可以根据这些属性的数量和它们的权重来设计一种度量方法,参见[BLA 16]。在句法层面,描述一个结构的属性集可以用一个图来表示,在图中节点是单词,边表示关系。图的密度构成了第一种类型的度量:图的密度较高说明属性的数量较多,这对应了单词之间某种类型的内聚力。此外,不同属性间关系的性质也可以被评估,即一些属性比其他属性更重要(这种重要性由它们的权重表示)。高密度的硬属性(即具有很大权重的属性)构成了信息的第二种类型。最后,一些句子可能是非规范的,具有某些违规的属性(例如,违反一致性或者线性优先)。将符合的属性的数量与违规的属性的数量相比较,就构成了我们用于评估内聚力的最后一种属性。
我们的假设是,在这三种信息类型的基础上定义的内聚力度量,与结构的识别之间存在相关性。换句话说,一个结构就对应于与大量属性相关联的一组单词,并且这些属性权重很大,而且没有或几乎没有违规。
内聚力度量的第一个参数是在所有的语法属性当中,可能用于评估给定结构的属性数量。下图展示了描述名词性结构的语法中的属性集:
一个类别可能涉及的关系的数量可以通过图中顶点连接的边数来估计(在图论中称为顶点度)。然后,我们通过这个量来定义一个类别的度。在上图中,我们定义的度如下:
在句法分析期间(即已经得到了类别列表),可以将与上面相同类型的评估应用在描述结构的约束图上,如下例所示:
每个单词都涉及一组关系。与语法分析过程相似,一个单词的度是该单词对应节点的关联边的数量。在这个例子中,有:。
我们估算内聚力的第一个参数就是对这两个值的比较:对于给定的单词,我们根据语法分析可以得到它理论上可能涉及的属性的数量;根据句法分析,我们又能够知道这些属性中有多少得到了有效评估。然后,我们定义完整性比率(completeness ratio),用于表示类别的密度:被验证的语法关系的数量越多,完整性比率的值越高:
除了这个完整性比率之外,约束图本身的密度也很有意义。在图论中通过计算边数和顶点数之间的比率来得到这个值。更精确的定义如下(S是句子的约束图,E是边集,V是顶点集):
在这个公式中,分子是现有边的数量,分母是可能的边的总数(即假设每条边都连接两个不同的顶点,然后再乘以5,5是不同类型属性的数量)。这个值可以用于区分稠密图和稀疏图。在我们的假设中,稠密的图与结构相关。
所定义的最后一个参数是更数量化的,并且考虑了属性的权重。更确切地说,我们已经看到,所有的属性都可以被满足或者被违反,因此,我们将标准化满足度定义如下(其中W?+是满足的属性和被违反的属性W?-的权重之和):
最后,可以将内聚值定义为前面三个参数的函数,如下所示(C代表某个结构,GC是其对应的约束图):
注意,密度(density)和满足度(satisfaction)这两个参数可以直接被评估,而不依赖于上下文,也不需要知道结构的类型。相反,对完整性(completeness)参数的评估需要知道结构的类型,以便从语法中提取所有可能描述它的属性。在某种意义上,前两个参数是基本参数,可以被理解为是对属性的描述,并且可以自动评估。
内聚力(cohesion)度量为激活(activation)概念提供了一种新的衡量方式。此外,它还提供了一种基于简单属性来直接识别结构的方法。最后,它为实现通用语法分析原则提供了明确的理论基础(通用语法分析原则规定结构或语块是具有高密度的高权重关系的单词集合)。这个定义对应于最大化在线处理(Maximize On-line Processing)原则[HAW 03],该原则规定:“在解析X时,人工的分析器倾向于将一组可分配给每个项X的属性最大化。……结构和未被划分为结构的序列相比,最大的不同可以表示为一个函数,在一个结构S中,相比较于所有可能的属性数量,该函数的参数是未分配或错分配给X的属性的数量。”
这个原则为我们的语言处理概念提供了一个通用的背景。该机制并不会建立句法结构以用于理解句子,而是会构建一连串的语块,这些语块可以基于已有的信息最大化内聚方程的值。当信息的密度(或内聚力)达到某个阈值时,可以将元素分组成唯一的块,并存储在工作记忆单元中。当未达到阈值时,则不会修改缓冲区的状态,而是会扫描输入流的下一个新元素。这种通用的解析机制使我们在有不同的信息源可用时,能通过延迟评估的方式来整合这些信息源,直到达到某个内聚阈值。这构成了实现“足够好”理论的基本处理框架:尽可能解释。
1.6 结论
理解语言理论上是一个非常复杂的过程,涉及许多不同的信息源,此外还必须实时完成。幸运的是,在许多情况下,不同的参数会简化理解过程:可预测性,以及可以直接处理整个输入段的事实。对于大多数结构而言,含义都是可以直接获取的,而且可以把结构作为一个整体进行处理。在较低级别,还可以识别输入的子部分(如模式、韵律单元等),从中可以直接检索全局信息。不同的观察表明,低层次的特征通常可以用于识别全局片段。我们在本章中提出的语言处理架构基于如下原则:不是识别单词,然后将它们逐步地集成到要解释的句法结构中,而是首先识别片段。这些片段可以是任何类型的:音素序列、单词、词组等。它们的共同特征是不需要任何深层信息或加工处理就可以识别这些片段。
一旦识别了片段(称为语块),就将它们存储在缓冲区中,而且不进行任何的解释。换句话说,解释机制被延迟(delayed),直到有足够的信息可用才进行。当缓冲新块时,其对缓冲区中现有块的内聚力估算就算完成了。当不同组块之间的内聚力(对应于认知结构中的激活概念)达到某个阈值时,它们会被合并成一个独特的块,其在缓冲区中的存储也会被替换为一个单独的单元。这种机制使得我们能够逐步识别结构并直接获取其含义。
这种组织结构没有采用逐字逐句的增量机制,而是实现了“尽可能解释”原则。它构成了一个框架,可以用于解释所有已经观察到的不同延迟和浅层处理机制。