paip.提升中文分词准确度---新词识别

2024-01-30 23:37:17

paip.提升中文分词准确度---新词识别

近来,中文每年大概出现800---1仟个新的词..

60％的分词错误是由新词导致的

作者Attilax 艾龙， EMAIL:1466519819@qq.com

来源：attilax的专栏

地址：http://blog.csdn.net/attilax

新词的概念

目前，在中文分词领域出现了新词（New Words）和未登录词(Unknown Words)两种概念。很多研究者并没有对未登录词和新词加以区别，认为它们是一样的[12][13]。通常，未登录词被定义为未在词典中出现的词[3][4][5]。(Chen,1997)通过对一个规模为300万词汇的语料统计，将未登录词分为五种类别，包括

(a) 缩略词(abbreviation)，如“中油”、“日韩”；

(b) 专有名词(Proper names)，主要包括人名、地名、机构名。如“张三”、“北京”、“微软”；

(c) 派生词(derived words)，主要指含有后缀词素的词，如“电脑化”；

(d) 复合词(compounds)，由动词或名词等组合而成，如“获允”、“搜寻法”、“电脑桌”；

(e) 数字类复合词(numeric type compounds)，即组成成分中含有数字，包括时间、日期、电话号码、地址、数字等，如“2005年”、“三千”。

新词的识别方法.

1.基与规则::::通过构词，前缀,后缀(词边界),词形,编写规则

....化,....族

大概准确录90%

2.基与统计方法.

俩个/三个相邻单字的频率....大概准确录88%

3.基与搜索引擎

这个准确度非常高.. 几乎95%了...

bg str feodg se hetu,auto pop ...yaos chwlai ,shg word...beir, bsd ..

4.单字构词能力以及频率.

词素级的判断...

5.基与sns。。类似于智能+人工

这个也能是准确度非常高，近乎100% ...因为是人工反馈。。。

/////////垃圾串过滤

能预先界定垃圾串词库..到时过滤..

垃圾串词库的建立也能使用搜索引擎增强判断..

参考:

中文新词识别技术综述_免费下载_百度文库.htm

【论文】Internet中的新词识别_百度文库.htm

【论文】基于词内部模式的新词识别_百度文库.htm

关于新词识别的 - 豆丁网.htm （20个后缀）

【论文】不限领域的中文新词的识别研究_百度文库.htm

新词发现综述_免费下载_百度文库.htm

码农公寓

相关文章