博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
IKAnalyzer使用停用词词典进行分词
阅读量:7062 次
发布时间:2019-06-28

本文共 1590 字,大约阅读时间需要 5 分钟。

@Test// 測试分词的效果,以及停用词典是否起作用public void test() throws IOException {	String text = "老爹我们都爱您。";	Configuration configuration = DefaultConfig.getInstance();	configuration.setUseSmart(true);	IKSegmenter ik = new IKSegmenter(new StringReader(text), configuration);	Lexeme lexeme = null;	while ((lexeme = ik.next()) != null) {		System.out.println(lexeme.getLexemeText());	}}

第二个样例

import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.io.StringReader;import javax.imageio.stream.FileImageInputStream;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import org.wltea.analyzer.core.IKSegmenter;import org.wltea.analyzer.core.Lexeme;import org.wltea.analyzer.lucene.IKAnalyzer;public class TestStopWords {	public static void main(String[] args) throws IOException {		String keyWords = "2012年那个欧洲杯四强赛";		InputStreamReader isr = new InputStreamReader(new FileInputStream(new File("data/stopword.txt")));		IKSegmenter ikSegmenter = new IKSegmenter(isr, true);		Lexeme lexeme = null;		while((lexeme=ikSegmenter.next())!= null){			System.out.println(lexeme.getLexemeText());		}	}}

程序的执行结果是:

载入扩展停止词典:stopword.dic载入扩展停止词典:chinese_stopwords.dic老爹都爱

IKAnalyzer.cfg.xml的配置例如以下:

IK Analyzer 扩展配置
stopword.dic;chinese_stopwords.dic

注意点:

1、停用词词典必须是UTF-8编码。

2、这里非常多跟我一样的新手没办法成功的原因就是被无bom的UTF-8格式给折磨的,IK作者自己也这样说了。

3、假设你不知道啥叫无BOM,也不确定自己的文件是不是UTF-8无bom,那么请在第一行使用回车换行,从第二行開始加入停止词。

4、该配置文件以及停用词词典均存放在src文件夹以下就可以。

转载地址:http://bjnll.baihongyu.com/

你可能感兴趣的文章
NettyIO
查看>>
重写重要的库函数
查看>>
NYOJ176 整数划分(二)
查看>>
Spring IoC容器初始化过程学习
查看>>
后缀树
查看>>
Java中的代理
查看>>
顺序表的静态建立
查看>>
Java反射(Reflection)获取运行时类的结构
查看>>
来美国一年半了,命里有时终须有,命里无时莫强求(2)
查看>>
swiper轮播图(逆向自动切换类似于无限循环)
查看>>
阿里云域名解析+网站备案
查看>>
转载文章 RESIZING WIN32 DIALOGS
查看>>
开发规范(一) 如何记录日志 By 阿里
查看>>
1117bootstrap
查看>>
centos6.5上卸载和安装JDK7
查看>>
从文件加载至NSData
查看>>
Java连接访问Oracle--Connection.setSavepoint()方法使用
查看>>
LeetCode OJ:Maximal Square(最大矩形)
查看>>
抽象工厂 C++实现
查看>>
[KMP]字符串匹配算法
查看>>