大数据和AI策略–面向投资的机器学习和另类数据方法(附280页报告)

标签: 199IT推荐文章 创业投资 大数据 投资&经济 研究报告 | 发表时间:2017-05-24 00:59 | 作者:DinK
出处:http://www.199it.com
J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义。

大数据,特别是另类数据集的构建和利用,已经极大地改变了投资领域的面貌。对冲基金和其他经验丰富的投资者日益增加了对“另类数据”(alternative data)的消费。只要可能影响投资决策但又不属于市场统计数据和公司财报这类传统信息的数据都称为“另类数据”。

不过,如果没有内行的数据科学家,这类数据就难以使用,而且有时候并不可靠。对冲基金只是在最近才能获得卫星图像分析之类的数据,所以没有多少历史数据用来核实其价值。部分批评者认为,如此复杂的公司和经济分析方法的好处被夸大了。

就在前不久,微软AI首席科学家、IEEE Fellow 邓力离开微软,加盟对冲基金公司 Citadel,担任首席人工智能官(Chief Artificial-Intelligence Officer)。这条消息再次引发了人们对于 AI 技术、尤其是机器学习技术在金融投资领域应用的关注。

J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义。我们节选了这一长篇报告非常小的一部分介绍给读者朋友们。

1、另类数据的可用以及分析这些数据的新定量技术——机器学习,正在成为竞争优势的新来源

 

大数据和机器学习“革命”:目前,联网设备以电子方式获得了大多数的记录和观察。这原则上允许投资者实时访问广泛的市场相关数据。例如,可用于评估通货膨胀数百万项目的在线价格,可以实时估计销售量的商店访问和交易的客户数量,可以评估石油钻井平台或农业活动产量的卫星图像。历史上,类似的数据只能以低频率(例如每月CPI、每周钻机数量、美国农业部作物报告、零售销售报告和季度收入等)提供。鉴于可用的数据量,有经验的量化投资者在理论上可以接近获得实时的某公司特定的数据,而这些数据不能从传统的数据源获得。在实践中,有用的数据不容易获得,需要购买,需要组织和分析另类数据集以提取可交易信号。大型或非结构化数据集的分析通常使用机器学习来完成。在设计定量策略方面,成功应用机器学习技术需要一定的理论知识和很多实践经验。

在苦苦追寻 Alpha (对于非金融领域的读者,可以简单地将 Alpha 理解为超额回报)的过程中,基金经理越来越多地采用量化策略。另类数据的可用以及分析这些数据的新定量技术——机器学习,正在成为竞争优势的新来源。这种“数据的工业革命”旨在通过信息优势和发现新的不相关信号的能力来提供 Alpha。大数据信息优势来自手机、卫星、社交媒体等新技术创造的数据。大数据的信息优势与专家、行业网络甚至企业管理能力不直接相关,更多体现的是收集大量数据并实时分析数据的能力。在这方面,大数据有能力深刻改变投资环境,进一步将投资行业趋势从自由决定性转变为量化投资风格。

有三个趋势使大数据革命成为可能:

 

1)可用数据量的指数增加;

2)提高计算能力和数据存储容量的成本降低;

3)分析复杂数据集的机器学习方法取得了进展。

有许多经常使用的概念可以用于描述大数据,这里我们给出最简明的用来描述大数据的维度:

大数据有三个重要的特征维度:

体量:通过记录、公报、图表、文件等等收集并存储的数据的规模,大数据的“大”的下限正在持续升高;

速度:数据的发送和接收速度经常被作为大数据的显著特征。大数据能够批量传送;大数据的获取是实时的,或是接近实时的。

多样性:大数据经常具有多样性的形式——结构化的(如SQL 表格或 CSV 文件),半结构化的(如 JSON 或 HTML),非结构化的(如博客或视频信息)。

2、另类数据集的分类

在投资管理中,大数据革命的核心在于能够提供具有信息优势的数据资源。另类数据带来的优势可能是在于发现传统的信息源中没有包含的新信息,或者发现的是相同的信息,但是速度更快,时间更早。例如,矿井或者土地的卫星图片能够在媒体或者官方报告前,揭示供应短缺。

我们旨在提供大数据的框架或分类。首先,我们根据数据的生成方式对数据进行分类。然后,我们考虑的是数据集的属性,也就是与投资专业直接相关的,例如将数据集映射到资产类别或投资风格,alpha内容,数据质量,技术规格等。

我们首先在高水平上对数据来源进行分类,指出它们到底是由个人(如社交媒体帖子)生成,还是通过业务流程(如电子商务或信用卡交易数据)生成,或由传感器(比如卫星图片、雷达等等)生成。
这种一方法扩展了Kitchin(2015年)和联合国报告(2015年)在非财务文本中早期的尝试。虽然这种分类法在某种程度上只是理论上的,但是,在分析这三个类型的数据时,确实存在共同特征,分析方法和共同的挑战。例如,个人生成的数据通常是非结构化的文本格式,需要自然语言处理。传感器生成的数据往往是非结构化的,并且可能需要分析技术,例如计数对象,或消除天气/云从卫星图像的影响。许多商业上生成的数据集,如信用卡交易和公司的“废弃”数据都面临共同的法律和隐私问题。

在根据数据来源对数据进行分类之后,我们还要提供另一个投资人士可能更为感兴趣的分类方法。一个零售版块的投资组合经理可能更关心的是特定的销售数据,而无所谓它们是卫星生成的还是消费者志愿填写的。高频交易者关心每天产生的数据,比如推特、最新发布等等,但不太关心有明显延迟的信息,比如信用卡数据。在下图这个“投资分类”中,我们为各种另类数据标示了不同的属性,这些属性和投资专业人士比如 CIO、投资组合经理等高度相关。

3、机器学习技术的分类:怎样才算是人工智能

 大型和较少结构化的数据集通常不能用简单的电子表格工作和散点图进行分析。我们需要新的方法来解决新数据集的复杂性和规模。例如,使用金融分析师的标准工具不可能对非结构化数据(如图像,社交媒体和新闻稿)进行自动分析。即使在大型传统数据集上,使用简单的线性回归往往会导致过度拟合或不一致的结果。机器学习方法可用于分析大数据,以及更有效地分析传统数据集。

毫无疑问,机器学习技术在应用于图像识别,模式识别,自然语言处理以及自动驾驶汽车等复杂任务时,产生了一些惊人的成果。那么,机器学习在金融中的应用是什么,这些方法相互之间有何不同?

首先需要强调,任务的自动化不是机器学习。我们可以指示计算机根据固定的规则执行某些操作。例如,如果资产价格下降了一定量(止损),我们可以指示电脑出售资产。即使给机器(也称为“符号人工智能”)大量复杂的规则,并不意味着就是机器学习,这只能说是任务的自动化。使用这个“符号人工智能”,机器在遇到与此前预编程的规则不匹配的情况时,只会选择自我“冻结”。

在机器学习中,给予计算机一个输入(一组变量和数据集),输出是输入变量的结果。该机器然后发现或“学习”在输入和输出之间起到链接作用的规则。

最终,这个学习任务的成功会被进行“样本外测试”,也就是,在未知的情景下,测试它所获得的这种连接变量和可能的预测结果之间的关系能力。

机器学习可以是监督的或无监督的。在监督学习中,我们试图找到一个规则,一个可以用来预测变量的“方程式”。例如,我们可能想要寻找一种能够预测未来市场表现的能力(趋势跟踪)信号。这可以通过运行先进的回归模型来评估哪一个具有较高的预测能力,并且对于regime变化最为稳定。

在无监督学习中,我们发现了数据的结构。例如,我们可能获得了市场回报,现在尝试确定回报的主要驱动力。例如,一个成功的模式可能会揭示,在某个时间点,市场受动量因素、能源价格、美元水平以及与流动性有关的新因素的驱动。深度学习是一种机器学习方法,可以分析在多个层级上学习数据(因此“深度”)。 我们经常说的自动化的目标是执行易于定义但执行起来乏味的任务,而深度学习 AI 系统的目标是执行难以定义但易于执行的任务。深度学习本质上与人们学习的方式更相似,因此是人为重建人类智慧的真正尝试。

深度学习用于非结构化大数据集的预处理(例如,它用于计算卫星图像中的汽车,识别新闻稿中的情绪等)。在假设的财务时间序列示例中,深度学习预测(或估计)了市场修正的概率。我们可以将大量的数据集输入到深度学习模型中。该模型可能首先确定一些对市场产生负面影响的简单特征,例如动量崩溃,波动性增加,流动性下降等。这些因素单提出来可能不会导致市场纠正(market correction)。此外,算法可以识别这些简单特征之间的模式和它们之间的非线性关系。从这些模型中,它可以构建更复杂的特征,如EM 驱动灾难(EM driven crises),财务压力,这些最终可能导致更为显著的市场纠正(market correction)甚至衰退。

4、在另类数据中实施机器学习的主要步骤

鉴于风险和不确定的回报,许多投资者都在思考何时应该采用更具量化性的、数据驱动型的投资方法。首先我们简要概述实施过程中的主要步骤(例如有多少需要外包、内部构建大数据/机器学习所需的人才、典型的技术设置等等)。

首先需要识别和获取数据。数据采集团队可以直接通过数据所有者/供应商或聚合第三方数据的专业公司(并与供应商和最终用户相匹配)来获取新数据源的使用权。一旦许可协议到位,数据需要存储和预处理。大数据很少呈现出干净的形式,一般都无法直接提供给机器学习算法使用。需要专门的团队预处理数据(例如检测异常值、缺失值等)。数据科学团队由量化研究人员组成,借助机器学习、反向测试策略和可视化技术分析数据,根据数据推导出可交易信号或见解。最后,信号由投资组合经理实施,或者在某些情况下以自动化方式执行(这将涉及到系统的另一层和将信号链接到执行系统的软件专家)。

我们认为,大数据与机器学习革命将深刻改变投资环境。随着越来越多的投资者采用大数据,市场的反应将更快,并将越来越多地期待传统或“旧”数据源。这将为量化经理和愿意采用和了解新数据集和分析方法的人们提供优势。那些不学习、拒绝进化的人将面临过时的风险。不管这些变化的时间表如何,我们认为,分析师,投资组合经理、交易者和首席信息官最终将不得不熟悉大数据和机器学习的发展和相关的交易策略。

PDF版下载可加入我们小密圈,199IT感谢您的支持!

您可能也喜欢的文章:

MGI:2016年全球基础设施投资缺口调查(附报告)

2017年全球AI和机器学习领域6大顶级专家

SEG:2017年Q1 SaaS行业并购趋势报告(附报告)

贝莱德:2017年Q2全球投资展望(附下载)

infocaptor:20年创业风险投资数据分析
无觅

相关 [大数据 ai 策略] 推荐:

大数据和AI策略–面向投资的机器学习和另类数据方法(附280页报告)

- - 互联网数据中心-199IT
J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义. 大数据,特别是另类数据集的构建和利用,已经极大地改变了投资领域的面貌.

马化腾:云计算、AI和大数据,是腾讯愿意大力投入的三点

- - 钛媒体:网罗天下创新事
9月8日,腾讯董事会主席兼首席执行官马化腾在清华大学洞见论坛上发表演讲,谈及科技和商业的融合时表示,随着数字经济的发展,科技越来越融入到各行各业,在数字化和智能化的大浪潮里面,科技是我们所有产业界都必须要去关注的. 马化腾表示,有三点基础性的因素是腾讯正在大力投入的,分别是AI、云计算以及大数据. 他还强调,过去把用电量作为衡量一个工业社会发展的指标,未来,用云量也会成为衡量数字经济发展的重要指标.

AI vs AI--当AI与自己聊天

- Tim - Solidot
Shawn the R0ck 写道 "最烦人的事情之一莫过于被强迫与一个白痴对话. 但当你发现你最讨厌与之交谈的白痴其实就是你自己的基于人工智能程序的拷贝...康奈尔创造性机器实验室决定看看当AI尝试跟自己交谈会发生什么. 他们的健谈的AI程序Cleverbot与自己进行文本交互,之后朗读出文本并且显示到视频中.

一家公司的 AI 教育观:AI 管「教」,真人来「育」

- - 极客公园
叮咚课堂 App 上线不过八个月,他们一面竭力在竞争异常激烈的在线少儿英语赛道上保持着刻意的低调,一面又疯狂地收获了平均 300% 月度的用户增长率. 这让他们创始人邱明丰对未来信心更盛了. 在艾瑞咨询发布的《2018 年中国在线幼儿启蒙英语行业白皮书》中提到,近年来人工智能在互联网教育领域大规模展开,但在在线幼儿启蒙英语教育中的应用甚少,随着资本的注入和行业的发展,其有望通过人工智能进一步提升用户在线启蒙英语学习的体验和效率.

贪吃蛇AI挑战赛第二季

- 温柔一刀 - 黑客志
如果你对这个活动感兴趣,可以先从这里开始,编写一个AI程序,然后将你的AI程序以及你对平台的改进建议发送到jin.cai20#gmail.com,主办方将会从中选择12名选手参加6月24到25持续一个周末的编程派对,并提供往返交通及住宿费用,下面是活动的详情:. 时间: June 24th – June 26th *.

AI 政策引发失业担忧

- - 最新更新 – Solidot
政府智库——中国发展研究基金会和红杉中国的报告 显示,中国出口制造业省份浙江、江苏和广东的几家公司在这三年内因自动化削减了 30% 至 40% 的劳动力. 北京正在实施雄心勃勃的政策以升级制造技术. 官方媒体对包括人工智能领域在内的政府发展目标的报道都集中在积极因素上. 然而,有关当局悄然对此类政策导致的裁员表示了担忧.

科创板,一瓶AI的卸妆水?

- - IT瘾-tuicool
编者按:本文转自 甲子光年,作者小北. “一级市场估值和泡沫怎么起来的,他们自己心里没点数吗. ”一位券商科技产业分析师在谈起即将到来的科创板时对我们说. “我们反正第一批肯定先不上. ”一位AI独角兽融资负责人面对我们对科创板的提问,回答略显暧昧. “你说那家公司为什么就值这么多钱呢. ”一位国内顶尖券商的投行业务部门负责人也曾反问我们,“反正他们的材料递到我这儿,我不会签字.

AI在运维中的应用

- - IT瘾-geek
要:随着X86分布式技术应用,服务器数量越来越多,网络拓扑结构越来越复杂,运维越来越辛苦,风险越来越高. 智能化运维AIOPS将AI技术应用在运维场景,是DevOps的运维部分,是“开发运维一体化云中心”的重要基础设施之一,其最大的价值在于缩短故障恢复时间,提高IT服务连续性. 本文描述一个运维及在这个场景下对AI的需求,目标是尝试将AI引入运维过程,提高运维效率、缩短故障恢复时间.

CDN缓存策略

- - 开心平淡对待每一天。热爱生活
   CDN这个东西,当然是个好东西. 所以看到有FAQ就理所当然的复制下来,其实,最近我突然想到一件事情,中国的地区域名还有一个很有意思的地域域名,那就是js.cn,所以,我悄悄的申请了两个域名,cache.js.cn和cdn.js.cn,就是想用来做这种CDN转发,当然,只是简单的. 我最初的想法是(有一小部分),如果我的服务器里有N多人装了DZ论坛,那么这些JS和CSS其实都是共用的.