首页 > 其他 > 详细

Flink与HanLP集成使用

时间:2020-02-16 19:38:01      阅读:124      评论:0      收藏:0      [点我收藏+]

  自然语言处理是机器学习的一个重要分支,在智能翻译、智能问答、舆情监控、ChatOps等都有很好的应用场景,目前比较好的一个开源实现工具是何晗大神的HanLP,主页(http://hanlp.com/),GitHub项目(https://github.com/hankcs/HanLP),何大神还出了一本书《自然语言处理入门》,非常不错。

  由于工作需要,我们使用HanLP对监控平台收集到的异常信息进行聚类分析,以便找出导致系统出现故障的可能的根因异常,以下是将HanLP与Flink结合使用时的几个点,愿与感兴趣的同行一起探讨。

一、开发期

  1.在pom.xml中引入HanLP的jar包:

 

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.6</version>
            <scope>provided</scope>
        </dependency>

 

二、运行期

假设Flink安装在:/usr/flink

1.将hanlp-1.7.6.jar部署到Flink集群每个安装目录下的lib文件夹中

/usr/flink/lib

2.在Flink安装目录下建立hanlp文件夹(名字可以自己定义)

/usr/flink/hanlp

3.将下载的HanLP需要的data.zip解压后,放到步骤2的文件夹中

/usr/flink/halp/data/.....

】HanLP默认是本地文佳加载词典和模型的,如果把data.zip文件传到了其他存储介质,需要实现com.hankcs.hanlp.corpus.io.IIOAdapter接口以在不同的平台(Hadoop、Redis等)上运行HanLP

4.在/etc/profile中建立HANLP_ROOT环境变量,指向步骤2对应的文件夹

export HANLP_ROOT=/usr/flink/hanlp

 【】使用环境变量,可以不需要配置hanlp.properties

5.使设置的环境变量生效

 source /etc/profile

Flink与HanLP集成使用

原文:https://www.cnblogs.com/liugh/p/12317475.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!