2.10实验:字典中没有的词在text中按照单个字分词
- 字典中有丁雪伟,可以在丁雪伟的音素错误的时候也能纠正为丁雪伟,所以字典的作用是从音素到词之间的矫正。
- 如果字典中没有丁雪伟这个词,在text分词的时候只能按照丁、雪、伟这三个字来分词。所以有一个常用的小技巧是将所有单个汉字作为词加入词典,这样在增加中文词的时候。“新词”总可以被拆分成“单字词”,这样L无需改变,只需将kaldi构建HCLG中的G进行更新即可。
- 使用aishell自带词典lexicon_orign.txt,和my_text_1,my_text_5(两个文档中丁雪伟,万丰电厂,七沥站都被分为单个词),重复5遍比重复一遍的效果好了很多。
- my_text_1
- my_text_5
- 总结:字典中没有这个词时,可以在text中对这个词进行字分词,以提高识别率,所以需要使字典覆盖更多的汉字。
words.txt phones.txt lm与lexicon和text的关系:
- 明确一个地方,words.txt完全是根据lexicon.txt得到的,而且lexicon的行数比words多几行,因为lexicon中包含了多音字。如果在字典lexicon中多加了30个词,就比方说上边的lexicon_mix.txt,相应的words.txt中也会多30行。
- 生成语言模型的时会同时用到lexicon和text文件,如果text中的词语lexicon中没有,那么就会出现下图的情况: