我的工程实践项目是金融文本数据挖掘。
模型通常由2部分组成:
因此,领域建模的主要任务是:
随着时间的流逝,不断有新的新闻发出,旧的新闻文本中包含的信息已无太大意义。所以管理员需要定时的更新新闻材料库以及训练模型,使系统能够挖掘出最新新闻中隐藏的信息。此外,自动生成知识图谱也是必要的,在管理员更新新闻材料库后,系统应及时生成出最新的知识图谱。由于知识图谱的庞大,用户不一定能够发现哪些是最新新闻加入的实体关系。所以系统还应标识出哪些实体关系是最新加入的。
本系统最主要的域就是普通用户与管理员。
管理员:管理员id,账号和密码、操作记录
用户:用户名以及密码、查询记录、电话号码
爬虫:起始url、爬取方法
新闻:新闻标题、新闻发布事件、新闻url、新闻内容、新闻类型、新闻发布作者
原文:https://www.cnblogs.com/hallowode/p/11887649.html