欢迎来到中国产业信息网设为首页|加入收藏|网站地图|繁体|产业网微薄
 

中国产业信息网行业频道

产业网 > 行业频道 > IT > 信息其他 > 正文

2019年中国人工智能在投研的应用发展规模及智能投研发展趋势分析[图]

2019年10月30日 14:10:19字号:T|T

    一、智能投研现状

    狭义:人工智能在投资研究上的应用。通过人工智能技术拓宽投资信息来源,提高获取信息的及时性,减少基础数据处理的工作量,通过自动化的数据分析,为投资决策提供参考,从而提高投资研究的效率。

    广义:人工智能在资本市场相关领域的应用。从使用者的角度来看,智能投研的受众包括各种类型的投资者(买方)、券商(卖方)、监管机构、银行和财经媒体等。从投资的标的来看覆盖一级市场公司、股票、债券、外汇等。而人工智能的应用场景涉及业务的各种环节,与投研直接相关的就包括研究、投资、交易和风险管理。

    1、供求

    大部分独立的智能投研公司主要在数据的处理环节。最终与投资交易直接挂钩的智能投研由投资机构自己搭建为主,同时会采购外部第三方的数据和服务,在内部进行整合。

智能投研的流程及功能

数据获取
数据处理
数据处理
数据输出
•数据爬

•另类数
•结构化
•标准化
•标签
•知识图
•智能搜

•可视化
•预测

数据来源:公开资料整理

    产业链的上游是数据源。(1)传统数据。金融行业本身已经存在大量标准化的数据,包括公司财务数据、公司公告、交易数据、宏观数据、行业数据、券商研报等,这些数据主要由金融数据公司进行整合。(2)爬虫数据。这些数据来自于互联网,相比传统金融数据库,这些数据的颗粒度更细,数据来源主要是地方政府网站、地方监管部门网站、社交网站、媒体网站等。(3)另类数据,主要指通过智能设备采集的数据,包括卫星图片、天气数据等,更多的是通过个人移动终端采集的各种数据。

    产业链的中游主要是数据的采集和标准化。产品形态包括数据处理的工具或者处理之后的数据产品。(1)数据抓取工具:直接对客户开放的基础产品,也是开发其他高级工具的底层技术。应用于标准化金融文本的关键信息摘取。(2)核查类工具:对于有明确规则的金融文本提供自动核查,包括核对财务数据。(3)产业链图谱:通过打标签和标签之间的关系建立,细化行业分类,展现产业链上下游、竞争对手、股权投资等关系,寻找潜在的投资标的或发现潜在的风险传导路径。

    产业链的下游是数据的需求方和应用场景,以金融机构为主。(1)券商主要包括三个部门的需求。投行部门:提交文件的审核、找项目。网金部:APP智能投顾功能的底层支持。研究所:报告的质控检查、信息搜索、公告数据提取。(2)投资机构。一级市场投资者:找项目,监控竞争对手。二级市场投资者:量化投资的策略因子、资产组合的监控及风险预警。(3)证监会&交易所:标准金融文本的审核、信息披露的监控等监管科技范畴。(4)其他需求。如银行的小微企业信贷风控、寻找潜在的企业客户;企业寻找合作伙伴等。

    2、参与者

    智能投研对于这些数据服务商来说可以提升数据采集的自动化程度,增加数据功能模块。彭博、汤森路透是全球市占率最高的两家金融数据公司,其优势在于数据全、颗粒度细、服务好,但价格比较高。商业模式也较为类似,除了提供数据终端之外,也是财经媒体,拥有自己的电视台、电台。CaptitalIQ、Factset、MorningStar与头部的两家公司形成一定的差异化竞争,虽然数据不够全,但在细分领域上做更深的数据挖掘和加工,且价格相对便宜。国内金融数据服务市场的集中度更高,基本处于万得一家独大的状态。

国内外主要的金融数据服务商

区域
主要机构
海外
彭博、汤森路透、CaptitalIQ、Factset、MorningStar
国内
Wind万得、东方财富choice、同花顺iFinD、恒生聚源

数据来源:公开资料整理

    在智能投研领域有大量的创业公司。这些创业团队一般都具有人工智能的技术背景和金融行业从业经历。

    2、互联网巨头

    具有明显的数据优势,可提供独家因子给量化基金。BAT在人工智能领域均有布局,重点放在通用的基础技术研发上。其中蚂蚁金服在金融行业的布局较广。蚂蚁金服在底层通用技术的研发包括人脸识别技术、图像识别技术、自然语言处理等,应用在泛金融场景中的包括智能客服、智能营销、智能推送、智能定损、安全风控等。从整个资产管理行业来看,蚂蚁金服在获客、客户运营方面有优势,在投研领域,互联网巨头在另类数据方面有明显的优势,可以提供独家的因子给投资机构。

    3、投资机构内部研发

    就投资而言,外部第三方以提供数据工具为主,具体落地到投资策略制定和交易执行一般在投资机构内部。投资机构通常会外部采购标准模块,叠加内部投资策略,构建内部智能投研系统。(1)海外智能投研使用已经较为普遍。成熟的金融市场有充足的投资工具,运用人工智能的量化投资已积累了一定量的历史数据。部分由人工智能管理的基金取得了超过业绩基准的超额收益。(2)国内的资本市场仍处于发展早期,历史数据和交易工具比较缺乏,前几年推出的大数据基金并未取得理想的业绩表现。目前国内有部分公募基金正在积极探索智能投研的应用,包括嘉实基金、天弘基金、富国基金、华夏基金等,智能投研的发展是资产管理行业的大势所趋。

    4、人工智能

    在智能投研中主要应用的人工智能技术包括图像识别、自然语言处理、情感分析、知识图谱等。这些技术的使用本身存在递进的关系。首先通过图像识别技术,对图像中印刷或者手写的文字进行识别,输出可以编辑的文档格式。其次是通过自然语言处理及情感分析对本文进行结构化处理,变成机器可读的数据。最后结合专家知识和机器学习等算法,建立起数据之间的关系网络,实现一定程度的分析功能。

    人工智能的能力边界。(1)优势:相比人工模式,人工智能拓展了数据来源,大幅提升了数据运算的能力。人脑习惯于线性关系和因果关系的分析,而机器能分析多元、非线性关系,寻找相关性而非局限于因果关系。(2)不足:就现阶段来看,人工智能在有明确边界、规则和目标的场景中,效果更明显。例如:数据工具类产品主要应用于审核、检查、核对等场景,这些场景的特征就是规则明确、目标清晰;人工智能已经可以实现自动写新闻,但自动写的研究报告可用性不强,更适合上市公司财务数据披露使用,原因在于研究报告的分析角度受撰写者的思考逻辑和知识背景差异而不同;人工智能在防范风险上的表现优于寻找机会,历史数据积累有助于风险模型的不断优化,而潜在的投资机会往往会突破原有的分析框架。(3)约束条件:数据质量影响智能投研的效果,随着底层数据质量不断提升,智能投研的效果会越来越好。

    5、自然语言处理

    自然语言处理(NLP)就是将复杂的人类自然交流的语言转化成标准化的计算机语言。自然语言处理包括两个部分,一是自然语言理解(NLU),使计算机理解人类的语言,二是自然语言生成(NLG),把计算机运算的结果以人类自然语言的形式呈现。

自然语言处理的四个层面

层面
描述
词典构造
构造包含尽量多的语法信息、语义信息、语用信息等
的机器语言词典,将其作为构建自然语言理解平台的
基础。
语法分析
对自然语言进行表层的形式化分析,包括词法分析和
句法分析两部分。词法分析是将自然语言进行切分,
并将每个切分的词加上词性标记,它是句法分析的基
础。句法分析是将句子的词语序列映射为句法成分的
层次结构。
语义分析
在语法分析的基础上理清句子的语义结构关系,对整
个句子的语义进行组合和表达并说明句子中词语搭
配上存在的各种语义限制条件。
篇章分析
研究句子之间的关系以及整个篇章中包含的知识。

数据来源:公开资料整理

自然语言生成的三个功能

功能
描述
内容规划
决定生成的文本所要表达的内容,并对已确定的内容
进行结构化描述,使之符合阅读理解习惯
句子规划
进一步明确定义规划文本的细节。
表层生成
将句子规划后的文本描述映射至由文字、标点和结构
注解信息组成的表层文本

数据来源:公开资料整理

    情感分析是自然语言处理中的一个重要研究方面,主要是对带有感情色彩的主观性文本进行分析、处理、归纳和推理。情感分析的发展得益于社交媒体的兴起,产生了大量个体参与的、对于人物、事件和产品的评论信息,通过机器学习,得出可量化的数据结论。

情感分析的步骤

步骤
描述
情感信息的提取
在文本中抽取有价值的情感信息
情感信息的分类
主要包括主、客观信息的分类和主观信息的情
感分类
情感信息检索
可以检索出与主题相关且包含情感信息的文
档。
情感信息归纳
可以将与大量主题相关的情感文档进行自动
分析和归纳并得出情感分析结论。

数据来源:公开资料整理

    自然语言处理的应用场景:大数据分析、日志挖掘及分析、自动摘要、文本分类、信息提取、文本朗读/语音合成、语音识别、信息检索、文字校对、机器翻译、问答系统等。在金融行业的应用包括舆情监测、智能风控、智能客服等。

    6、知识图谱

    知识图谱:将知识结构绘制成以各个知识单元概念为节点的地图。知识图谱的基础是自然语言处理,在计算机对文本中的知识点理解之后,再建立起各个知识单元之间的关系,形成知识网络,最后以可视化的形式展现出来,或者通过智能搜索引擎呈现。知识图谱的底层是文本、标签和表格,在此基础上构建图表、模式、本体和规则。

    投研领域的知识图谱。在投研领域,知识单元包括公司、产品、股东、管理层等,知识单元之间的关系包括上下游、竞争对手、合作、股权、担保等。知识图谱可以知识单元之间的关系网络直观地显示出来,当其中某个节点发生变化时,能快速识别出这个变化在关系网络中的传导过程及对特定主体的具体影响。

建立知识图谱的步骤

步骤
描述
实体识别
从新闻资讯、公司公告、券商研究报告等海量的信
息源中抓取实体。
关系构建
基于机器学习等方法发掘实体之间的各种关系

数据来源:公开资料整理

    二、市场空间及行业趋势

    要从数据服务广义的角度看智能投研的市场空间。(1)如果仅从投资机构的付费能力看,智能投顾的市场空间有限。头部的券商和具有一定资产管理规模的投资机构是收入的主要来源,机构数量和资产规模成为主要的限制条件。目前国内传统的金融数据服务被万得基本垄断,市占率超过80%,万得2016年的营业收入为13.3亿元,整个市场规模在20-30亿元左右。(2)间增量空间1:投资机构需求的多元化。从数据层面,从传统的结构化数据向非机构化数据拓展,而非结构化数据的规模占到80%。从服务层面,在数据功能上要不断完善,提高自动化程度,减少简单重复的人工作业;此外数据服务与软件服务相结合,形成综合性的投资管理平台。(3)增量空间2:目标客户的多元化。从金融行业领域来看,除了投研部门之外,金融数据服务的对象丰富,包括投行业务部门、银行信贷部门、监管审核部门等。其他潜在客户还有媒体、企业、政府、法律机构等。

    全球金融数据市场的规模达到260亿美元,全球的资产管理规模约为80万亿美元;由证券业协会统计的国内资产管理行业的约为50万亿元,而金融数据行业的规模仅为20-30亿,与海外市场相比,市场潜力巨大。

2014-2018年主要上市金融数据公司的营业收入(亿美元)

数据来源:公开资料整理

    资产管理行业是智能投研的主要客户来源,资产管理行业的机构数量、资产规模决定了智能投研行业的收入规模。根据调查数据统计,截止2018年末,资产管理业务总规模约为50万亿元,其中包含了公募基金、私募基金、基金子公司、证券公司及期货公司。从增速来看,由于近两年宏观经济增速下滑、资本市场波动及监管趋严等因素影响,资产管理规模增速放缓,其中2018年整体规模有所下滑,但从2014年以来,规模的复合增速达到了25%。随着资产管理行业成熟度提升,更多机构(保险机构、外资机构等)和资金(养老金、居民储蓄等)进入资本市场,资产管理行业规模长期将保持增长态势。

2014-2018年资产管理业务总规模(万亿元)

数据来源:公开资料整理

    一方面,投资机构通过自动化程序不断提升运营效率,包括投资研究和交易;另一方面,投资交易的风格越来越偏被动和量化,逐渐降低人为主观操作的比例,或者说通过技术手段更好的执行投资经理的投资策略,这些需求都要提升投资机构的科技投入。具体来说,β收益产品要求更低的管理成本和交易成本,提升跟踪标的的准确度,α收益产品的管理难度不断提升,需要持续发现新的、有效的投资策略才能获取超额收益。Smartβ产品介于主动及被动管理之间,人工智能可以帮助该类产品进行动态的因子调整,进一步提升获取超额收益的可能性。

    传统的金融数据服务公司在数据积累及客户资源上具备优势,通过外部并购优秀的创业公司可提升数据产品能力,利用最前沿的人工智能技术,赋能已有的数据业务,增强客户粘性、做大收入规模。例如标普全球公司最近两年连续收购了固定收益技术供应商Algomi、替代数据技术公司UrsaSpaceSystems和Kensho以及机器学习与分析公司PanjivaInc。

    尽管海外金融数据市场非常成熟,头部几家基本都有数十年的历史,但在一级市场上仍有大量的初创公司在细分领域进行探索,运用自然语言处理、知识图谱等人工智能技术开发差异化的数据产品。

海外典型智能投研创业公司

公司
简介
AlphaSense
搜索引擎,整合公司公告、新闻、研究报告中的
投资信息
Automated
Insights
自动写作,自动撰写新闻和上市公司的营收报
AlgoDynamix
风控系统,对全球金融交易所数据进行实时分
析,及时发现市场异常,对潜在风险发出预警
VisibleAlpha
财务模型,整合各家卖方报告的财务预测模型,
除了三表之外,还包括其他业绩驱动因素的分析
及预测。
Dataminr
社交数据的大数据挖掘,搜集社交媒体上的实时
数据,包括每天5亿条的推特,利用机器学习提
前发现可能会影响公司的事件。

数据来源:公开资料整理

    相关报告:智研咨询发布的《2020-2026年中国人工智能行业市场消费调查及投资前景评估报告

中国产业信息网微信公众号中国产业信息网微信公众号 中国产业信息网微信服务号中国产业信息网微信服务号
版权提示:中国产业信息网倡导尊重与保护知识产权,对有明确来源的内容注明出处。如发现本站文章存在版权、稿酬或其它问题,烦请联系我们,我们将及时与您沟通处理。联系方式:gaojian@chyxx.com、010-60343812。
 

精彩图片

 
 

 

产业研究产业数据

 

 

 排行榜产经研究数据