首页 > 其他 > 详细

Solr分词

时间：2014-01-16 00:23:25 阅读：827 评论：0 收藏：0 [点我收藏+]

Solr版本：4.3.0。

分词器的配置在schema.xml文件，比如如下标签内容：

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
</fieldType>

也就是说，field类型如果指定为“text_general”，那么对该字段对应的值建索引和查询关键词分词时用的都是默认的分词器。默认分词器是按照空格分英文的，对中文会分成一个一个的字，这样的分词和查询体验都不好。

改变一：使用solr自带的中文分词器，Solr.SmartChineseSentenceTokenizerFactory

无论安装哪种分词器，大部分都有2个步骤。

1）拷贝jar包到solr的lib中，也就是webapps\solr\WEB-INF\lib目录下。

　　smartcn的同步发行包是lucene-analyzers-smartcn-4.3.0.jar，在solr-4.3.0\contrib\analysis-extras\lucene-libs目录下

2）在schemal.xml文件中注册分词器，如下：

<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
   <analyzer type="index">
       <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
       <filter class="solr.SmartChineseWordTokenFilterFactory"/>
       
        
    </analyzer>
    <analyzer type="query">
         
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
        <filter class="solr.SmartChineseWordTokenFilterFactory"/>
       
    </analyzer>
</fieldType>

内置的中文分词，问题是：分词不完全。比如“中华人民共和国”，分出来的结果是“中华人民”、“中华人民共和国”，用其他任何词都查不到。

改变二：使用外部分词器，如 org.wltea.analyzer.lucene.IKTokenizerFactory

ik，参见如下[2]；

mmseg4j，参考如下[3]；

paoding，参考如下[3]。

可以灵活配置停用词等。

参考：

[1]. solr4.3之配备中文分词smartcn

[2]. solr4.3之配备中文分词IK

[3]. solr从零学习开始

原文：http://www.cnblogs.com/Phovan/p/3517376.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！