首页 > 其他 > 详细

028 ElasticSearch----全文检索技术03---基础知识详解

时间:2019-09-26 18:45:51      阅读:88      评论:0      收藏:0      [点我收藏+]

1.IK分词器

(1)安装

 

使用IK分词器可以实现对中文分词的效果。
下载IK分词器:(Github地址:https://github.com/medcl/elasticsearch-analysis-ik)

技术分享图片
下载zip,并将解压的文件拷贝到ES安装目录的plugins下的ik目录下(注意:ik的版本必须与elasticSearch一样)

技术分享图片

然后重启elasticsearch:

技术分享图片

测试分词效果:
发送:post localhost:9200/_analyze
{"text":"测试分词器,后边是测试内容:spring cloud实战","analyzer":"ik_max_word" }

技术分享图片

(2)两种分词方式

ik分词器有两种分词模式:ik_max_word和ik_smart模式。
<1>ik_max_word
会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、
华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
<2>ik_smart
会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

(3)自定义词库

如果要让分词器支持一些专有词语,可以自定义词库。
iK分词器自带一个main.dic的文件,此文件为词库文件。

技术分享图片

在上边的目录中新建一个my.dic文件(注意文件格式为utf-8(不要选择utf-8 BOM,使用editplus编辑文件,不要使用自带txt文件编辑器)
可以在其中自定义词汇:
比如定义:
配置文件中配置my.dic,

技术分享图片

 

重启ES,测试分词效果:
发送:post localhost:9200/_analyze
{"text":"测试分词器,后边是测试内容:spring cloud实战","analyzer":"ik_max_word" }
技术分享图片

 

028 ElasticSearch----全文检索技术03---基础知识详解

原文:https://www.cnblogs.com/luckyplj/p/11593433.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!