首页 > 其他 > 详细

Assignment 1:Chinese Text Data Processing.

时间:2015-11-19 23:50:38      阅读:322      评论:0      收藏:0      [点我收藏+]

记录过程。

Lucene分词:http://blog.csdn.net/cyxlzzs/article/details/7999212

Lucene自定义词典:http://lilongbao.blog.163.com/blog/static/2128760512013689194583/

注意点:.dic文件要以utf-8保存

不过这里有一个疑惑:

.doc文件如果改为GBK保存,IKAnalyzer.cfg.xml文件的开头:<?xml version="1.0" encoding="UTF-8"?> 改为 <?xml version="1.0" encoding="GBK"?>  再运行,.java文件效果无效,也就自定义停止词典无效。

 

下面就是.txt文件的java读写实现。

java读取TXT文件的方法:http://www.cnblogs.com/manongxiaojiang/archive/2012/10/13/2722068.html

java逐行读取和写入文本文件txt:http://blog.csdn.net/softimes/article/details/7225879

已经改写,实现txt的java读入和写出。

 

将10个txt文件路径以String 类型读取,每个文件分词,每10个一行输出到新路径。

Assignment 1:Chinese Text Data Processing.

原文:http://www.cnblogs.com/Deribs4/p/4979255.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!