机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?

标签: 机器学习 传统 统计 | 发表时间:2015-02-05 07:00 | 作者:Weicong Liu
出处:http://www.zhihu.com
尝试回答一下这个问题,也算是对自己阅读的一些论文的总结,顺带谈下一点自己的思考。前一阵子被吐槽说中英夹杂,也不是为了装逼,因为其实翻译过来,意思反而有了偏差。
如果你去搜索早期的神经网络、SVM的相关论文,会发现不少是做股票预测的。原因很简单,因为似乎我们可以天然地把股票投资的问题看成一个分类问题或者回归问题。回归的角度,我们可以根据之前的历史数据,预测下一个时间点的股价;分类的角度,我们可以根据历史数据,预测下一个时间点股价的正负。看起机器学习的方法可以完美适用了。不过这个结论显然是错的,因为如果真的完美适用,那么机器学习的大牛们怕是已经赚发了以致无心学术。
那么,问题在哪里?我个人的观点,大家没有太多关注机器学习算法能够work的assumption。以分类问题为例,分类算法能够work的assumption是在同一类下,样本数据应该是i.i.d.的。而股票价格数据特点就是,股票return的correlation极低,noise多,而且不stationary。如果明白了这两点,我们再回过头去看这类文章的思路,就发现了问题。绝大部分文章在提取特征方面基本没下什么功夫,就靠股票的return的信息来构成pattern。这样,因为股票return的不稳定、高噪声、低相关性,使得最终做成的pattern没法满足在同一类的情况下i.i.d的条件,因此,这类方法的失败也是必然的。如果你仔细观察,会发现这类文章喜欢使用IBM啊MSFT啊这样的股票做实验,为什么?因为这种顶级公司股票的价格比较稳定,噪声少,相关性强。
不过,近年来已经有一些研究者开始从别的角度思考问题。传统的机器学习方法使用的基本是是股票的日线图和月线图。实际的股票交易大部分是使用limit order book的,一些能够得到数据的研究者,开始思考将机器学习的方法应用于limit order book层次的数据上,典型的论文就是今年新晋的ACM fellow,Michael Kearns在ICML06上发表的Reinforcement learning for optimized trade execution 不同于之前的论文,这篇文章试图为历史数据的每一个时间点构建state,这样可以将增强学习的框架应用其中。这提供了与以前截然不同的思路,不过也并没有从assumption的层面证实文章的方法确实是适应limit order book数据性质的。
在种种的失败之后,开始有一些learning领域的研究者认识到,如果想在股票投资的问题上成功,似乎不能够独立于股票数据固有的性质。于是开始有一些方法,试图利用股票数据既有的性质,来设计online learning的算法。典型的是之前NTU计算机系的PhD, Bin Li在ICML,IJCAI的一系列paper。他的核心其实就是抓住了股票的mean reversion的性质。简单的理解,mean reversion认为股票有它自己的隐含价值,股价在这个值附近波动。他的这一系列paper,其实就是在怎么找这个'mean'方面有些许变化。在时间点t,最开始他认为这个mean就是t-1的股价,后来他又认为这个mean是过去一个窗口时间上的均值。这些paper的思路、算法都很简单容易理解,但是包含的思想是前人不曾有过的,就是利用股票数据的性质设计算法,而不是硬将数据往既有的机器学习算法里套。他现在已经凭借这些paper在武大金融系当上了副教授。
一家基金公司,通常会同时运行好多种strategy进行投资。这就产生了另外一个问题,应该如何给这些strategy动态地分配权值?机器学习领域有很多类似的问题,比如我要做一个分类问题,我有好多个分类器,如何ensemble它们使得它们的表现比较好?关于多种strategy的权值问题,Das在KDD11的paper,Meta optimization and its application to portfolio selection中有详细的讨论。这类方法被称为Meta-Learning Algorithm。
现如今的股票交易已经比几十年前要复杂的多,催生了很多新的交易场所和交易类型。这也给机器学习的专家们很多的机会。典型的例子是Michael Kearns在UAI09年发表的Censored exploration and the dark pool problem。这篇文章是描述暗池交易的,我在另一个回答里也提到过。向某个暗池提交v股的交易量,如果实际成交量小于v,我们知道其容量;而如果实际交易量就是v,则只能知道其实际容量是大于v的。假使在某时刻,我们需要在K个暗池中交易V手股票,我们就需要根据历史数据推断哪些暗池的容量大,在这些暗池里我们就多投入。如果暗池的容量都stochastic的,是不是就是另外一个更复杂的故事了?事实上已经有很多后续的工作来讲述这个故事,不过不是learning界,而来自主流的FE界和OR界。
那么learning界最为红火的deep learning在这个问题上是否有所斩获?前一阵子看新闻说,已经有几个人利用deep learning的技术开了家对冲基金公司,赚了很多钱。那么deep learning问题在交易上的作用可能体现在哪里?我自己没事儿也YY过这个问题,我觉得可能是在统计套利方面。最简单的统计套利方法是看股价的correlation,比如A和B两只股票价差一向稳定在10块钱,某天价差突然跌倒5块钱,统计套利就假设,这个价差会恢复到10块钱,那么我们就可以就此设计交易策略。如果股价价差真的恢复了,那么就可以实现套利。但是显然,这样的关系可能不是那么明显地存在于股票的价格中,可能存在于return中或者variance中,甚至更高复杂度的统计量中。deep learning提供了将原数据投影到另一个特征空间中的方法,而且是高度非线性的。那么,原数据中没有体现出来的correlation,会不会在这种高度非线性的投影空间中体现出来呢?如果有体现,是不是能够设计交易策略实现套利呢?这是我自己的一点点思考。

来源:知乎 www.zhihu.com
作者: Weicong Liu

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载

此问题还有 4 个回答,查看全部。
延伸阅读:
金融压力指数(Financial Stress Index)是什么?是如何计算的?
欧洲央行的长期再融资操作(LTRO)是什么?和美国的量化宽松(QE)政策一样吗?

相关 [机器学习 传统 统计] 推荐:

机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?

- - 知乎每日精选
尝试回答一下这个问题,也算是对自己阅读的一些论文的总结,顺带谈下一点自己的思考. 前一阵子被吐槽说中英夹杂,也不是为了装逼,因为其实翻译过来,意思反而有了偏差. 如果你去搜索早期的神经网络、SVM的相关论文,会发现不少是做股票预测的. 原因很简单,因为似乎我们可以天然地把股票投资的问题看成一个分类问题或者回归问题.

一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别

- -
选自datascience central. 作者: Vincent Granville . 在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学等领域的区别. 这些概念的区别也一直是人工智能领域热烈讨论的一个话题,Quora、多个技术博客都曾有过解答.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.

机器学习算法Boosting

- - 标点符
机器学习通常会被分为2大类:监督学习和非监督学习. 在监督学习中,训练数据由输入和期望的输出组成,然后对非训练数据进行预测输出,也就是找出输入x与输出y之间的函数关系F:y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归,或者说是连续变量预测.

Mahout实现的机器学习算法

- - ITeye博客
使用命令:mahout -h.   在Mahout实现的机器学习算法见下表:. EM聚类(期望最大化聚类). 并行FP Growth算法. 并行化了Watchmaker框架. 非Map-Reduce算法. 扩展了java的Collections类. Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能.

国内的机器学习几个人

- - 丕子
转: http://blog.csdn.net/playoffs/article/details/7588597. 推荐几个机器学习和数据挖掘领域相关的中国大牛:. 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习.

Apache Mahout 0.8 发布,机器学习库

- - 开源中国社区最新新闻
Apache Mahout 0.8 发布了,Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用. 该项目已经发展到了它的最二个年头,目前只有一个公共发行版.

Ruby的机器学习项目

- - 阳志平的网志-技术类
作者是辉瑞公司的小牛,可惜烂尾了. 我在改啊改啊,可惜现在是商业项目,暂时不能放出改掉的部分. 对了,顺便做个小广告,去年组织翻译的一本小书:社会网络分析:方法与实践. 已经上市了,感兴趣的可以翻翻:. 社会网络分析:探索关系背后的科学与技术. treat:自然语言处理. 类似于igraph,也是桥接处理nlp.

机器学习该如何入门

- - CSDN博客综合推荐文章
  对于这个问题的解释,说实话我很有压力,因为在分享篇文章之前就有朋友告诉我,这个百度上一搜一大片,还需要你讲吗. 正如同一千个读者眼里有一千个林黛玉一样,我解释的当然是我个人自从读研到工作这么多年对机器学习的学习到应用过程的独特见解.   首先我们看下图了解一下机器学习在AI(Artificial Intelligence 人工智能)领域的地位.