面向文本数据的金融数据挖掘--209

2023-12-25 19:35:22

1、项目概述

在金融领域中，由于投资的高风险性，金融行业需要更为准确和可靠的实时数据。知识图谱作为数据驱动的人工智能，能够存储金融资讯、行情等海量数据中包含的实体、关系和属性。金融知识图谱可以实现金融资讯推荐，风险控制评估，依据生成资讯的多维智能标签，精准掌握复杂信息中的隐藏风险。通过获取开源信息，基于知识图谱中大量金融资讯的关联信息，识别命名实体并提取其之间的业务往来关系，结合相关财经新闻，预测金融行业的走势。未来，基于知识图谱的金融数据平台，在信息隐含关联挖掘方面有着不可替代的能力，促进金融升级转型。

2、项目需求

本项目中选取的目标领域为手机和化妆品市场，作为商品中受众广泛，使用者众多的商品，手机和化妆品市场受外部信息影响较大，因此与其市场相关的数据获取较为容易。对于手机而言，在这个智能化的时代，手机成为每个人生活中的“必需品”，具有庞大的市场消费。手机品牌较多，市场竞争激烈，消费者的选择较广，而且易受外部信息的影响，对于厂商而言，可以通过外部信息进行针对性的营销，提高品牌的口碑、销量与价值。对于化妆品而言，其受众大多为女性用户，在进行商品的选择时，对于品牌的依赖性较高。同时，我们还要注意到，近几年，小红书等平台逐渐走红，频繁推出所谓“爆款”商品，可见对于化妆品来说，评测对于顾客的选择有着很大的影响。而一些商家也看准商机，通过水军制造许多虚假评测信息，面对众多信息，消费者在选择时要学会区分。
本次共分为四个模块进行：数据爬取，关键信息提取，实体链接，构建知识图谱。

3、用例

1、抽象用例：预测市场走势
2、高层用例：
系统：开始状态：使用爬虫获取数据。结束状态：生成知识图谱
用户：开始状态：使用app了解信息。结束状态：根据知识图谱做出决策。
3、扩展用例：大部分时间是系统内部自动更新知识图谱。

Actor	System
1、信息存入数据库	2、读取数据库并提取关键字
3、输入生成知识图谱命令	4、将关键字链接起来并更新知识图谱
	5、返回知识图谱
6、根据构建的知识图谱预测接下来的走势

4、用例图

系统先爬取网络上相关历史信息，这些信息经过关键信息提取，实体链接后生成知识图谱，同时系统还不断爬取实时信息以更新知识图谱。用户浏览当下的金融咨询，结合已生成的知识图谱，对未来的市场趋势进行预测。

5、数据库内容

由于我们需要不断将新的信息存储下来，因此我们需要一个数据库
其主要形式为：
商品数据库：

名称	类型	含义
commodity_id	string	商品id
commodity_sum	int	商品销量
commodity_id_summent	string	某一商品相关的评论
time	string	时间

小红书的数据库

名称	类型	含义
art_id	string	文章名称
star	int	收藏量
art_com	string	文章的评论
art_brand	string	文章所介绍品牌

6、软件架构

我们采用简单的MVC架构即可。
其中模型用来存储数据库和知识图谱
视图提供用户与系统的交互（如添加信息）
控制器直接由用户使用

作者：209

码农公寓