人工智能真的能成为投资高手吗？

首页国际国内

投稿注册登录

人工智能真的能成为投资高手吗？

2018-07-24 14:34 文章来自：FT中文网收藏(0) 评论(0)

人工智能机器学习

　自从阿尔法狗(Alpha Go)在围棋“终极人机大战”完胜棋王柯洁，OPEN AI的人工智能又在DOTA游戏中打败人类业余高手团队，并宣布即将挑战职业选手，关于“金融阿尔法狗”也将面世的说法就不绝于耳。内地市场还曾传出，研发阿尔法狗的DeepMind团队发表了一篇论文，指其人工智能投资系统“阿尔法股”（Alpha Stock）在A股市场潜伏交易36个月，但最终亏损不断扩大，令团队决定暂停该领域研究。

　　当然，这只是一个段子，“最强人工智能”在金融投资领域的尝试，至今依然在摸索中。然而一个普遍的疑问在于，与围棋和电竞不同，金融市场投资是一个受宏观环境、市场波动、突发事件等等众多不可控因素影响的复杂决策，人工智能如何能像真人一样完成如此复杂的决策？它们最终能击败顶尖的人类基金经理和投资专家吗？

　　人工智能是在模拟人脑吗？

　　要解答这个疑问，首先我们需要了解人工智能到底是如何去“学习”下棋、电竞和其他技能的。

　　今天外界对人工智能最大的误解，恐怕就是认为人工智能是对人脑的“模拟”，然而人工智能的工作和学习机制，事实上与人脑完全不同。当前被称为“人工智能”的，至少包括以下三种体系。

　　首先，人工智能的起步，在于人类最简单的一种思考能力：推断逻辑。逻辑学自古希腊开始对此已经深有研究，并且提出一系列明确简单的推断原则。以此为基础，人工智能的起步从具体“算法”开始，也就是让电脑遵循逻辑推理的命题和原则来完成任务。例如，向电脑输入某个知识体系，并且设定推理的算法，电脑就可以成为一套“专家系统”，通过自动推理来解答人们提出的问题，近年流行的人工智能医疗诊断，就是这样的“专家系统”。

　　其后兴起的第二个人工智能体系叫做“搜索系统”，例如寻求迷宫的解法，以及在地图上寻找最短路径。这一系统目前普及度也很高，许多家庭都在使用的“扫地机器人(300024,股吧)”就是这一系统的运用，能够找到清洁全家地板的最优化路线。

　　然而真实的世界总是千变万化，逻辑远远无法涵盖。今天真正让世界震惊，能够击败人类围棋冠军和电竞高手的人工智能早已突破“逻辑”的范畴，它们诞生于第三套系统：通过统计学方法，用大量的数据统计和分析来作出最优的决策。可以说，统计学方法带来了当前真正强大的人工智能，我们称之为“机器学习”。

　　还是从阿尔法狗说起，由于真正的围棋招数可能性远超于宇宙原子的数量，不可能通过逻辑来穷尽所有招数，因此在阿尔法狗以前，人工智能用逻辑推论方法来解决围棋，耗费多年而毫无寸进。此时，统计学为人工智能带来了一个重要的启示：我们可以通过对一小部分的策略的抽样研究，归纳出有效的策略。这正如要知道一个国家的经济发展，并不需要知道每一个人在做什么，而只需要抽样调查来研究是一样的。

　　简而言之，Alpha Go和Open AI用来打败人类的能力，源自它们庞大而高速的统计能力，通过统计学抽样去模拟围棋手或游戏玩家每一步每一招的可能性，从而找到致胜的招数，而并不是它们真的“学会”模拟人类大脑来思考。

　　人工智能是怎样自己“学习”的？

　　人工智能今天的强大，并不意味着他们开始“接近”人脑，刚好相反，他们的优势在于能够完成人脑根本无法处理的大量统计。以下围棋为例，每多一个决策，就增加了一个新的维度，需要计算的可能性也就呈指数级增加，所以在人工智能研究的早期，机器要通过如此大量的统计去“学习”也是困难的。

　　早期机器学习中，由于数据量过于庞大难以处理，人类采取了提示一些“捷径”的方法。其中最主要的方式叫做“监督学习”，也就是机器在人类提供经验的“监督”下去统计分析数据。俗话说“依样画葫芦”，这就比如一个新员工来到公司，老板就教了他一套自己工作的方法，让他有样学样去做，就是“监督学习”。此前版本的Alpha Go也是通过学习从古到今的大量棋谱数据来学习围棋，并先后打败了人类顶尖高手李世石和柯洁。

　　然而，经验毕竟是有限的，而且需要大量人力和时间去总结和标签。真实世界的大多数决策毕竟不像围棋，拥有数千年的经验积累和现成棋谱。那么，机器是否能够具备自己去挖掘经验的能力呢？

　　由此，机器学习进入了“无监督学习”领域，即让机器彻底去自己摸索，人类不给予任何总结的经验，不对任何数据进行标签。当前人工智能中的自然语言处理，让人工智能通过大量的语言输入去理解语言中词语关系的内在规律，就是“无监督学习”的一种应用。更常见的应用则是在网上购物的“推荐商品”中，机器通过分析大量的过往数据，“学习”去推荐买家最有可能感兴趣的商品。

　　第三种模式则叫做“强化学习”，可以算是“监督”和“无监督”各占一半的方式。

　　还是用企业新员工来打比方，这一次老板并不具体告员工要怎么做，但是到了年底会发出或多或少的奖金。当然，奖金的多少存在不同的可能性，是员工对客户服务态度好？还是工作特别勤奋？又或是拍老板马屁拍的好？在真实的人生中，这种分析显然是极为困难的。然而理论上，如果这个职员一直通过奖金多少来反省自己的工作，然后持续做同一份工作一百万年时间，那么他会无限逼近“奖金的真相”。

　　这种通过反馈来修改行动的模型，我们称之为策略-评估（Actor-Critic）模型，随着策略(Actor)所做的决策被评估（Critic）所修正，决策的质量一点一点逐步地改善，机器开始自己去学习，并找到独特的学习方法。人活不了一百万年，当然也就算不了一百万年。但是机器随着计算速度——即所谓“算力”的迅速提高，却有望解决这个看起来荒谬的难题。2016年的计算机已经比2007年速度快一万倍，今天普通工业级电脑已经可以展开深度强化学习，而且算力的提高速度还在持续加快。

　　2017年10月，Alpha Go进化为Alpha Go Zero。两者最大区别就是，后者在没有任何棋谱数据和人类经验输入的前提下学习围棋，每一步都由机器自己随机尝试，通过最后胜败的统计分析来判断每一步是“好棋”还是“臭棋”。算力强大的Alpha Go Zero仅仅用了三天，就从一张白纸成长为以100比0完胜旧版Alpha Go（即击败柯洁的版本）的顶级高手。最妙的是，至今人类也不知道Alpha Go Zero自己摸索开发出的算法是怎样。

　　同样是2017年，发明家马斯克旗下Open AI的人工智能玩家在电竞游戏DOTA这种存在各种陌生环境，需要团体协作的游戏中，连续打败顶尖业余人类玩家组合的队伍。在此之前，人工智能仅仅经历数周的自我训练和对战，游戏技巧的进步一日千里。这也代表着人工智能“深度学习”的能力，已经从围棋这种相对单纯的“分割空间”走向更为复杂的“连续空间”，开始处理更复杂环境中的决策。

　　人工智能会下棋就会投资？

　　相信大家已经看出，人工智能的深度强化学习的范畴，已经跟真实环境中的要求越来越接近。可以说，基于深度强化学习的“金融Alpha Go Zero”诞生只是时间问题。目前，我们正在研发中的人工智能量化投资模型，与上文中围棋或电竞游戏的方法非常相似：

　　在环境因素中，Alpha Go Zero分析的是对手和自己的下子，金融Alpha Go Zero分析的则是资本市场和宏观经济的各种信息。在回报方面，Alpha Go Zero分析获胜的概率，金融Alpha Go Zero分析的回报则是投资收益，是否达到投资目标。在行动范围方面，围棋Alpha Go Zero分析的是棋盘上没有被落子的位置，金融Alpha Go Zero分析的则是设计者规定的投资范围和标的。

　　在学习的过程中，围棋Alpha Go Zero评估潜在落子位置的价值，评估自己的落子位置策略和先后，金融Alpha Go Zero则评估各类资产的投资价值，评估每个可投资资产应当被依照什么比重来配置。

　　这只自我学习的“金融阿尔法狗”如何工作是人类难以想象的。正如围棋Alpha Go Zero不再需要经验和棋谱，“金融阿尔法狗”学习的是投资的“能力”而非仅是“技巧”。

　　与过去各类量化投资模型相比，这一进步的巨大意义首先在于，设计者不需要再对每类资产单独设计模型，不用提取“因子”或设立标签，大大减少了人力成本，而其学习也不受到资产类别的限制，可以自动灵活应变。由于不用人类提供标签和经验，设计者可以建立各种不同的目标，例如成本、风险、最大回撤、流动性变现等等，各种投资中需要考虑的因素和目标如何去平衡？这个问题交给机器自己。

　　此外，过往的量化投资算法往往本身就基于历史数据和经验归纳，很难再用同一堆历史数据去测试出它真实的投资能力，而且金融市场用历史推断未来往往失效。人工智能的强化学习则可以采取用一类资产的历史数据进行学习，再用另一类资产的数据进行测试，或者是用中国股市的数据进行学习，用印度股市的数据来测试，更能够测试出人工智能的真实能力。

　　这听起来或许神乎其神，但事实上，它符合我们生活中最简单的判断方式——要知道一个孩子是不是好学生，最好的方法是交给他新的学习任务，看他是否能很快攻克。要知道一个新人是不是好员工，最好的方法是交给他从未做过的工作，看他是否能顺利完成。人工智能是不是真的能自学成才，超越人类投资专家，也有待给予它们全新挑战去验证。