实验记录(更新)

2.10实验:字典中没有的词在text中按照单个字分词

  • 字典中有丁雪伟,可以在丁雪伟的音素错误的时候也能纠正为丁雪伟,所以字典的作用是从音素到词之间的矫正。
  • 如果字典中没有丁雪伟这个词,在text分词的时候只能按照丁、雪、伟这三个字来分词。所以有一个常用的小技巧是将所有单个汉字作为词加入词典,这样在增加中文词的时候。“新词”总可以被拆分成“单字词”,这样L无需改变,只需将kaldi构建HCLG中的G进行更新即可。
  • 使用aishell自带词典lexicon_orign.txt,和my_text_1,my_text_5(两个文档中丁雪伟,万丰电厂,七沥站都被分为单个词),重复5遍比重复一遍的效果好了很多
  •  my_text_1实验记录(更新)
  • my_text_5实验记录(更新)
  • 总结:字典中没有这个词时,可以在text中对这个词进行字分词,以提高识别率,所以需要使字典覆盖更多的汉

words.txt phones.txt lm与lexicon和text的关系:

  • 明确一个地方,words.txt完全是根据lexicon.txt得到的,而且lexicon的行数比words多几行,因为lexicon中包含了多音字。如果在字典lexicon中多加了30个词,就比方说上边的lexicon_mix.txt,相应的words.txt中也会多30行。
  • 生成语言模型的时会同时用到lexicon和text文件,如果text中的词语lexicon中没有,那么就会出现下图的情况:实验记录(更新)

上一篇:画出空亡和马星


下一篇:压轴题答案