知识图谱在金融业应用报告会笔记
文章内容仅供参考,以嘉宾报告内容为准。
# 金融数据结构化的关键技术和应用
鲍捷
# 应用场景
金融文档浩如烟海,将数据结构化具有很强烈的需求。
自动化监管:技术手段将信息披露、企业监管等文档结构化,代替人工自动进行合规、真实性等检查。 自动化审计:pdf和word中自动提取报表信息,根据标准规则,自动检查财务报告 银行:报表识别,文本数据结构化,外部企业数据,客户画像,产品和业务描述结构化,智能化柜台,智能化信贷审核
文因互联案例:新三板年报结构化、财务报表结构化、银行的知识图谱问答、行业研究报告抽取、上交所核心公告结构化、会计师事务所法规结构化和搜索、银行非结构化数据治理…
# NLP技术
自然语言处理技术:实际应用中,往往是 规则 + 模型(或者多种算法综合)的方式
研究还处在活跃状态,算法趋向于深度学习 依赖于大规模训练语料:标注成本高 实体提取 准确率基本达到生产可用;关系提取 准确率还不能达到生产可用的标准,某些具体领域可能会好一点。
# 关于构建金融知识图谱的探索与建设
孙强
# 背景与思路
金融行业数据繁多,传统方式处理信息非常低效。知识图谱的作用是,将各处分散的金融数据,按照内在的关系(经济规律、因果关系、相关关系)组织起来,达到数据的联动,从而发现趋势或变化。
由于智能水平的限制,很多图谱构建都是依赖于人工。
# 应用与案例
银行:风险监控,贷款评估,行业专家库、数据服务 券商:智能投研,智能投顾,投资机会推送 基金:量化投资,智能投研,自动研报 智能科技:经济数据支持,经济智能化产品设计
案例:某某成分被认定为有毒-》哪些药使用了这一成分-》哪些公司受到影响-》如何投资 案例:某某钢材去产能-》钢材影响哪些产品-》哪些公司受到影响-受益/损失-》如何投资
# 经验与困惑
需要与行业业务、逻辑密切结合 投研相关的知识图谱本身就是质量非常高的词库,可作为词库广泛运用在nlp、搜索、问答等领域 图谱能做什么?图谱不能做什么? 金融对数据的要求非常严苛
数据库的选用:neo4j可能比较炫酷,但是在查询效率方面可能不如传统的RDBMS,有时甚至比较老的工具反而更加好用一些
# 知识图谱行业落地案例分享:医疗和人机交互
刘升平
# 医疗行业
语言:患者语言(问诊、咨询,口语化),医生语言(口语,书面语,问诊、病历),专家语言(教材,文献,临床指南) 从语言提炼出知识。 知识:医疗知识图谱(疾病、症状、药物、部位等)+ 临床规则(诊断规则、用药规则) 根据知识进行决策。 应用:导诊分诊、预问诊、病历生成、病历质量控制、辅助诊断、医保审核
知识图谱的敏捷构建:
- 下载和抽取:web、半结构化、非结构化数据,得到 原始知识
- 清洗和转化:知识清洗,数据转化,单元测试,得到 交换格式知识
- 导入和融合环节:知识导入,实体对齐和融合,单元测试,得到 测试知识库
- 测试和修正环节:自动化统计和测试,得到 线上知识库
- 发版和优化环节:本体评估、问题分析和整理、制定下一迭代优化计划和方案
提到了知识图谱的自动化测试,定位和修复错误。在应用时也需要注意,不能假设图谱是完全正确的。
图谱测试的一些方法:
- 指标量化(图谱中包含多少词,多少个关系等)
- 根据现有存在的知识图谱,与当前构建的图谱比较,查看概念覆盖率,图谱完整性等
- 基于应用的效果评价:新的图谱版本,对应用的效果是否有改进
# 语境知识图谱(人机对话系统)
技术架构:语言识别,自然语言理解,对话管理,自然语言生成,转换语音
语义:字面意义,比如 温度有点低; 语用:在特定语境中传递的回话意义(话外之音),比如 是否把家里空调温度调高两度? 语义+语境=语用
语境:
- 物理语境:时间,地点,天气
- 言语语境:上下文,主题及脚垫
- 知识语境:常识,领域知识,用户画像
知识图谱在对话理解中的应用:
- 话语中的实体发现,实体链接
- 指代发现,以及基于实体的指代消解
- 对候选语义,结合知识来消除歧义
上下文融入对话: 上下文、会话session、对话主题 引入decoder中
聊天一致性: 把聊天助手的个性信息,导入到decoder的输出过程中
知识图谱问答: 1)semantic parsing —— 实际中,可能这种方法更加有效。(基于规则,写模板,或者结合一些统计学方法) 2)深度学习(检索、排序) 问题和知识都向量化,比较相似度。
Losin 揭开知识库KB-QA问答的面纱 https://zhuanlan.zhihu.com/kb-qa
知识图谱还可用于主动发起聊天话题:聊不下去了,就找一个相关的实体,从相关的实体出发,主动发起新的聊天。
# 知识提取在证券和银行数据治理中的应用
郑锦光
# 为什么数据治理对金融机构很重要
数据治理:数据管理,数据质量控制,数据价值,监管监督 银行的数据:非结构化(身份证照片、纸质文件扫描件、现场照片、文本记录等)。数据规模大(每年几百TB增长) 公开金融数据:公告,研报,新闻等
问题:数据量大,来源多,异构数据,分析要求高
# 案例
公告摘要:人工从公告中,提取出摘要信息,提取出重点数据信息; 财务报告复核:财务报告中很多指标会多次在文中出现,但可能数据会有错误,数据不一致,如何自动完成复核 法规智能检索系统:帮助机构迅速理解新出台的法规等。可自动抓取、分类、检索法律法规。
银行跨部门数据治理:将银行数据连接起来,支持对企业、个人用户的画像和风险分析 银行知识引擎:将银行内部数据结构化,为用户画像分析、机构事件分析、量化分析、问答系统等提供知识核心引擎 金融报告和企业智能搜索系统:将公司(公司所在地,主营项目等)和行业(发展状况等)分析资料,整合在一个平台中,便于维护和检索。 公司搜索引擎:覆盖A股及新三板企业,公司的投资、高管、定增等事件;智能分析企业业务,寻找对标企业;细分行业查询; 自动报告生成:一键生成指定企业的详细分析 公告自动预警系统:公告中提取摘要,获得相关企业的预警推送等。(类似之前提到那个投资风险自动预警)
# 知识图谱技术
技术框架:
- 各类文件,pdf、word、html解析器
- 文本清洗,章节结构分析,图语义识别
- 信息提取框架(实体,关系,事件)
- 知识推理
# 数据治理在金融零售业务转型中的重要作用
常国珍
# 银行零售业务痛点与应对措施
银行零售业务:客户群老化,单客贡献低,客户信息少,忠诚度不高
# 数据治理的主线
# 知识图谱在银行的案例
银监会-银监眼:了解每家银行的贷款情况,贷款量,贷存比,风险情况。具体到每一个客户的可疑点、关联关系、客户画像等