solr4.7中文分词器(ik-analyzer)配置

solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。

一、版本信息

solr版本:4.7.0

需要ik-analyzer版本:IK Analyzer 2012FF_hf1

ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list

二、配置步骤

下载压缩解压后得到如下目录结构的文件夹:

solr4.7中文分词器(ik-analyzer)配置

我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。

我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。

solr4.7中文分词器(ik-analyzer)配置

修改core的schema.xml,在<types></types>配置项间加一段如下配置:

  1. <fieldType name="text_ik" class="solr.TextField">
  2. <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
  3. </fieldType>

我们就多了一种text_ik的field类型了,该类型使用的分词器就是ik-analyzer

我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。

  1. <field name="name"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />


三、中文分词测试

solr4.7中文分词器(ik-analyzer)配置

                     
    1. IKT
    2. text
    3. raw_bytes
    4. start
    5. end
    6. type
    7. position
    8. *
    9. [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
    10. 0
    11. 7
    12. CN_WORD
    13. 1
    14. 中华人民
    15. [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]
    16. 0
    17. 4
    18. CN_WORD
    19. 2
    20. 中华
    21. [e4 b8 ad e5 8d 8e]
    22. 0
    23. 2
    24. CN_WORD
    25. 3
    26. 华人
    27. [e5 8d 8e e4 ba ba]
    28. 1
    29. 3
    30. CN_WORD
    31. 4
    32. 人民*
    33. [e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
    34. 2
    35. 7
    36. CN_WORD
    37. 5
    38. 人民
    39. [e4 ba ba e6 b0 91]
    40. 2
    41. 4
    42. CN_WORD
    43. 6
    44. *
    45. [e5 85 b1 e5 92 8c e5 9b bd]
    46. 4
    47. 7
    48. CN_WORD
    49. 7
    50. 共和
    51. [e5 85 b1 e5 92 8c]
    52. 4
    53. 6
    54. CN_WORD
    55. 8
    56. [e5 9b bd]
    57. 6
    58. 7
    59. CN_CHAR
    60. 9
上一篇:How to create an anonymous IDA PRO database (.IDB)


下一篇:论HTML5 Audio 标签歌词同步的实现