一.什么是分词,为什么要分词

          分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。

分词的目的是为了更容易、更精准的命中搜索关键词,更容易是因为分词将搜索关键词分开为多个查询关键词,只要匹配上一个就视为相关结果,更精准是因为分词之后可以比较关键词的命中率,从而实现排序,将你更需要的结果排列在前面。

二.为何选择IK分词器

在Elasticsearch中,内置了很多分词器,但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是IK, Pinyin,Paoding, MMSEG等还有个smartcn分词,不过其实比较鸡肋,汉语实在博大精深,最了解的汉语的还是自己人,官方的standard分词器简直惨不忍睹……基本上就是把字全部拆成一个,准确率感人。目前一般推荐使用的是IK分词,词库丰富,且跟进了ES的最新版本,所以这次我们选择安装的也是IK分词器。

三.安装步骤

虽然ElasticSearch拥有直接安装plugin的功能,但是……IK分词器的最新版本并没有提供可以直接通过bin/plugin安装的包,如果你试过的话,会得到如下结果 阅读全文→