核心技术
▶▶ 超级算法
事件标签标注算法
事件标签标注主要从企业风险识别和控制角度,兼顾业务商机发现,建立分层的业务事件标签体系,通过事件抽取模型对舆情中的主体打上相关的事件标签。企业及其关联方在不同时间点、生成全维度的事件画像,可供用户快速全面掌握企业的风险与商机。
事件热度分析算法
事件热度分析主要通过某一事件相关的所有舆情的舆情源数量、舆情源权威性、事件搜索热度指数、事件社交热度指数等因素进行汇聚计算得到事件的热度值,并提供未来热度及传播站点预测,让用户更好地把握事件的发展态势,为相关决策提供辅助支撑。
情感量化分析算法
舆情情感倾向量化分析对于精准把握企业风险、资产标的价格走势等都十分重要。情感量化分析支持根据业务需求,定义更细粒度的舆情情感分类,能够对舆情情感进行分等级量化,有助于用户对舆情采取对应的精细化的处置方案。
事件聚合算法
事件聚合通过对同一企业一段时间范围内的舆情集合进行关键词自动抽取然后进行聚类。在进行关键词抽取时,针对金融领域风控和投资研究的应用场景,融入领域知识库来提升关键词抽取的准确率,降低舆情碎片化的影响。
事件发展脉络算法
事件发展脉络通过将有关联的舆情报道进行聚合,按照时间轴完整呈现某一舆情事件从萌芽、发酵到衰减的发展全过程。通过计算历史舆情数据与事件关键词向量相似度进行排序筛选,然后对事件进行聚类后以时间轴进行组织,最终形成基于时间维度的事件脉络。
舆情分类算法
舆情分类是针对短文本结合舆情指标体系和文本的词向量表示建立分类模型,预测目标实体的舆情类型。通过分类来快速呈现目标实体的舆情指标。
舆情摘要算法
舆情摘要是通过非监督的方式,从多样性和新颖性的角度从一篇文章中提取出能概括文章中心思想的短文。用户通过摘要可以在极短的时间内了解文章中监控主体发生的主要事件,减少60%的浏览全文的工作量。
舆情传导算法
舆情传导是基于目标实体所发生的事件结合与相关企业的关系通过监督学习的方式,获得在目标实体所发生的事件的影响下,对关联实体的影响程度,提前预警关联方风险。关联风险预警有助于用户从侧面关注监控主体的异动,减少风险监控死角。
内容去重算法
内容去重从海量互联网数据中去除相似度比较高的文本,缓解数据分析的压力,支持分布式部署、文本自动去噪,运行速度快,去重精准度高。同一个主体的多篇数据去重包括标题,正文,事件的相似度去重,在数据量精简的同时优先推送发表时间更早,信息量更丰富,数据源更权威的数据。
主体识别算法
主体识别是为了从文本中识别出正面主体,负面主体、其他主体三种目标企业,以便能提取关于目标企业的舆情信息。采用命名实体识别方法,主要采用BERT-BILSTM-CRF、ECECTRA-CRF等深度学习算法。能很好的结合上下文识别出每个主体的情感属性。
情感倾向分析算法
情感倾向分析模块旨在通过一篇舆情来分析该舆情对目标企业的正面或负面的影响大小。企业的事件情感倾向大小有利于客户快速判断目标企业的风险或投研价值。
▶▶ 风险预警指标体系
舆情事件标签体系
基于模型训练定义的事件标签体系,负面事件标签6000+个,正面事件标签4000+个。企业事件标签包括资产风险,重要人员风险,信用风险,并购重组风险,涉嫌违法违规,监管处罚,司法诉讼,股权或控制权问题,生产安全问题,关联方风险等等多个维度的标签,
主体信息标签
基于超算中心的海量工商库以及金融数据库计算定义的主体标签1000+个。用户可通过标签总览快速了解企业主体基因。如大连圣亚旅游控股股份有限公司的所展示的基础信息、上市信息、财务指标及其他经营类标签。
关联方风险传导
通过分析主体的股权关系方、供应商客户、中介服务关系方、 担保关系方、质押关系方、相同地址方、相同对外投资,相同实控人等10余种关联关系,结合关联方事件类型、企业规模、行业属性、关系亲疏、时间脉络等影响因子计算关联方风险的传导强弱。
智能预警评级
系统通过个性化量化评级模型生成企业风险预警评级,用户可通过评分卡模式,选择指标/标签,设置评价维度、权重和分值等影响因子进行量化评级。
▶▶ 知识库体系
事件标签词库
事件标签层级体系。从最低粒度的具体词汇开始,定义不同粒度的风险事件。
主体库
主体全称及简称词库;包括上市公司,发债企业,央企国企、事业单位、金融机构等主体。
过滤规则
包含主体规则和事件过滤规则,用于提高主体和事件的识别准确率。
公司名行业用语库
公司名中包含行业词汇,有助于生成准确的简称。
主体标签库
含股票代码、行业标签、所属概念板块等

关联关系数据库
重要公司穿透关系,包含股权、中介服务、担保、采购关系等。
领域词汇表
用于文章类型界定;未来可以扩展到更多的领域类型
荣誉资质