@Test// 測试分词的效果,以及停用词典是否起作用public void test() throws IOException { String text = "老爹我们都爱您。"; Configuration configuration = DefaultConfig.getInstance(); configuration.setUseSmart(true); IKSegmenter ik = new IKSegmenter(new StringReader(text), configuration); Lexeme lexeme = null; while ((lexeme = ik.next()) != null) { System.out.println(lexeme.getLexemeText()); }}
第二个样例
import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.io.StringReader;import javax.imageio.stream.FileImageInputStream;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import org.wltea.analyzer.core.IKSegmenter;import org.wltea.analyzer.core.Lexeme;import org.wltea.analyzer.lucene.IKAnalyzer;public class TestStopWords { public static void main(String[] args) throws IOException { String keyWords = "2012年那个欧洲杯四强赛"; InputStreamReader isr = new InputStreamReader(new FileInputStream(new File("data/stopword.txt"))); IKSegmenter ikSegmenter = new IKSegmenter(isr, true); Lexeme lexeme = null; while((lexeme=ikSegmenter.next())!= null){ System.out.println(lexeme.getLexemeText()); } }}
程序的执行结果是:
载入扩展停止词典:stopword.dic载入扩展停止词典:chinese_stopwords.dic老爹都爱
IKAnalyzer.cfg.xml的配置例如以下:
IK Analyzer 扩展配置 stopword.dic;chinese_stopwords.dic
注意点:
1、停用词词典必须是UTF-8编码。
2、这里非常多跟我一样的新手没办法成功的原因就是被无bom的UTF-8格式给折磨的,IK作者自己也这样说了。
3、假设你不知道啥叫无BOM,也不确定自己的文件是不是UTF-8无bom,那么请在第一行使用回车换行,从第二行開始加入停止词。
4、该配置文件以及停用词词典均存放在src文件夹以下就可以。