前面已经对”“有了简单的了解:
但是可以发现不是对所有的词都能很好的区分,比如:
逼格
这个词就没有分出来。 词库
实际上IK分词器
也是根据一些词库来进行分词的,我们可以丰富这个词库。
IK分词器(IK Analysis for Elasticsearch)
给了我们一个基本的配置: 修改我们es实例中ik插件的配置:
cd elasticsearch-5.3.0/plugins/ik/config/
main.dic
是住词库,stopword
是停用词库(把一些错误的分词加入进来,之后不会再被分词了);custom
目录中是我们的自定义词库。
热更新 IK 分词使用方法
官方文档:
我们来配置一下:
#进入es实例找到ik插件的配置文件elasticsearch-5.3.0/plugins/ik/config#编辑配置文件vi IKAnalyzer.cfg.xml
内容:
IK Analyzer 扩展配置 custom/mydict.dic;custom/single_word_low_freq.dic custom/ext_stopword.dic http://10.211.55.13/api/DictApi/GetDictionary
/api/DictApi/GetDictionary: