基于配置的词典扩充
IK 分词器还支持通过配置IKAnalyzer.cfg.xml 文件来扩充您的专有词典以及停止词典(过滤词典)。
步骤如下:
1. 部署IKAnalyzer.cfg.xml
IKAnalyzer.cfg.xml 部署在代码根目录下( 对于web 项目, 通常是WEBINF/classes 目录)同hibernate、log4j 等配置文件相同。
2. 词典文件的编辑与部署
分词器的词典文件格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。
(备注,如果您不了解什么是无BOM 的UTF-8 格式, 请保证您的词典使用UTF-8 存储,并在文件的头部添加一空行)。
您可以参考分词器源码org.wltea.analyzer.dic 包下的.dic 文件。
词典文件应部署在Java 的资源路径下,即ClassLoader 能够加载的路径中。(推荐同IKAnalyzer.cfg.xml 放在一起)
3. IKAnalyzer.cfg.xml 文件的配置
在配置文件中,用户可一次配置多个词典文件。文件名使用“;”号分隔。文件路径为相对java 包的起始根路径。
参考:IKAnalyzer中文分词器V3.2.3使用手册.pdf (见附件)
4. 同义词扩展
直接在solr_应用 下 \conf\synonyms.txt
备注: 添加中文在synonyms.txt后,Tomcat启动报错,不能读取文件。
原因:使用SOLR加入中文同义词需要把synonyms.txt的默认编码改成与自己系统使用的编码一致。
例如:你整个系统的编码都是用UTF-8,那么你就要把synonyms.txt这个文件的编码格式转换成UTF-8。原因是,对某个词进行同义的时候找到的词是乱码,而乱码在对于的索引中是没有存在的。这也就导致了中文不可以使用的原因。
解决方法:在eclipse里把synonyms.txt文件编码格式转成UTF-8(系统默认UTF-8),然后再输入中文同义词,保存,重启tomcat,问题解决。
分享到:
相关推荐
通过solr实现电商搜索排名打分,排序,可自定义打分规则
自定义的Solr 分词器,可以通过竖线"|"来分词,可以在博客http://blog.csdn.net/jiangchao858/article/details/68954044看到生成过程与使用步骤。
solr 安装与配置
solr的linux环境安装软件、扩展词典和停词配置,还有学习和开发文档
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一...
solr5.4的mmseg4j的相关jar包,还有solr5.4的配置,按我的文档可以配置好solr 的java开发和导库存环境.
包里包含了至今mmseg4j的所有版本及版本对应solr版本说明,还有solr配置和自定义词典路径相关配置文章
solr配置搜索引擎平台 一、 SOLR搭建企业搜索平台 二.... 三,,,,
毕业设计基于Springboot的个人博客系统源码,集成solr服务器毕业设计基于Springboot的个人博客系统源码,集成solr服务器毕业设计基于Springboot的个人博客系统源码,集成solr服务器毕业设计基于Springboot的个人博客...
Solr(Cloudera)使用手册
lucene,solr的使用lucene,solr的使用lucene,solr的使用lucene,solr的使用lucene,solr的使用lucene,solr的使用lucene,solr的使用lucene,solr的使用lucene,solr的使用lucene,solr的使用lucene,solr的使用
Solr安装与配置 完整的solr配置步骤,带截图,说明很清晰。
solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...
solr4.4.0入门配置步骤 solr4.4手把手入门配置 solr4.4配置 solr4.4.0入门配置步骤 solr4.4手把手入门配置 solr4.4配置
solr6.0以上版本可以配置的IKAnalyzer分词器
solr在window下的配置,solr(全文检索系统),solr是lucene的升华版,把数据库的数据导入到solr中,减少了数据库的压力,solr搜索代替并优化了like模糊查询,并且有中文分词器
图解Solr6.6.0安装与MySQL配置(全量、增量更新)
docker配置solr登录密码文件,内含配置密码的文件 、web.xml的文件 ,详情可以去看我的博客,博客地址:https://blog.csdn.net/huyande123/article/details/97110784
solr详细配置教程与solrj的使用
solr5 中文分词