走进华尔街投资尽调的武器库（上）

2020-04-20

克服恐惧，勇敢地向过去说再见吧

编者按：本文来源创业邦专栏希贤书屋，作者关子明。

《走进华尔街投资尽调的武器库》（以下简称《华尔街武器库》）全文共计近4万字，图/表近70幅，分六章，鉴于微信公众号单篇文章推送的长度限制和文章的阅读性，在接下来一个月时间内，我会不定期分段3次连载，希望您能理解。

引言

作为近日财经新闻的热门话题，瑞幸咖啡被做空事件的新闻解读层出不穷，关于高管和股东的“八卦”新闻及道德批判很容易聚齐人气，快速裹挟着投资者情绪将股价带入“单边式”的二阶做空。当前价格（2020.04.06收盘价4.39美元）距离本次股价开始跳空开始前一日收盘价（2020.04.01收26.20美元）已经跌去近83%的市值，而若距离瑞幸上市后最高点（2020.01.07最高报51.38美元）则已经跌去近92%的市值，而更多的司法诉讼还在前方等待着造假相关责任人。瑞幸咖啡（LK）最近元气满满的股价走势图如下所示（5D, Interval 5min）：

图1元气满满的瑞星咖啡股价走势

前不久笔者《瑞幸跌落雪湖》一文试图通过另外的视角，希望跳出事件本身去独立思考瑞幸被做空背后的金融学意义和经济机制，很高兴能够获得大家的认可，今天想继续这个话题接着谈一谈华尔街做空中概股尽职调查的“核心生产资料”——另类大数据（在本文特指传统的企业微观层面财务/经营数据和常见的各类宏观经济数据之外的数据），通过对当下美国华尔街各大投资机构和对冲基金基于另类大数据的尽职调查前沿研究以及实践案例，带领大家走进更加精彩的尽职调查武器库。

美剧《亿万》（Billions）中华尔街对冲基金利用卫星数据分析经济和行情，以获取阿尔法收益，甚至还有更进一步识破珠中国珠三角某企业过度伪装货车异常繁忙运输出货的场景欺骗卫星数据，而与其他汇总数据不符进而被识破反被做空的案例，可见华尔街尽职调查的数据武器的先进程度。

图2《亿万》—— 一部强烈推荐的优质金融题材美剧

就像电影《王牌特工：特工学院》（Kingsman: The Secret Service）中的高级定制时装裁缝店，外表优雅的西装革履绅士气质之下实则是储藏着暗黑科技的武器库——对冲基金精英们尽职调查的秘密高级武器。

图3走进神秘武器库

1向上游“倒灌”的浑水

首先简单回顾浑水，笔者非常钦佩浑水多年来一如既往的职业操守和执业勇气，非常认同浑水及背后包括雪湖资本在内的非凡努力与专业分析，最近我看到有些媒体分析浑水创始人Carson Block如何走上专业做空中概股这条“黑客专业户”之路时，往往都是把他当年在上海创业时经历的一系列经商教训和不公待遇而被激怒作为其事业的起源动机，其实我觉得这是有失公允的，会让人对Carson Block贴上仇视中国商业环境的“愤青”标签，我相信一家持续卓越的机构仅靠极端的仇恨是不足以获得巨大商业成功的（感兴趣的读者可以自行阅读Carson Block的畅销书《Doing Business in China For Dummies 在中国经商无师自通》）。笔者在此推荐3年前腾讯财经对Carson Block的一段采访，市场66分钟，信息量很大。（插入链接）

图4Carson Block腾讯财经专访

时间轴再往前拨到2010年初时，Carson Block和让的南加州大学读书时好友Sean Regan挤在一辆白色面包车颠簸在中国河北的一条县镇小路上不是为了做空尽调，而是受Carson Block的父亲William Block就职所在机构洛杉矶WAB资本委托去专门尽调“东方纸业”的，而WAB的本意是通过专门研究美股的小市值公司并发现其中的优质标的进而向更多的对冲机构和其他机构投资人发送研究报告，而之后发生的东方纸业实际尽调结果令本来抱着“寻宝”心态的Carson Block大失所望，转而撰写了东方纸业的做空报告并亲身做空而让其小有名气并开启了新的事业。之后浑水更是通过做空辉山乳业、大连绿诺、分众传媒、中国高速频道等一系列中概股而将自己推向暗黑世界的“聚光灯下”成为最黑的那颗星，经过浑水“洗礼”过的中概股死的死，残的残，因此才有浑水现如今在中概股市场上令人不寒而栗的江湖地位。

表1浑水的过往做空案例（中国经济周刊整理）

最近网上很多文章嘲讽国内普遍存在的券商分析师和投资经理“低能”的现状，批评很多投资存在心甘情愿地去做会计师事务所、律师事务所或咨询公司的“下游”,只会“好吃懒做”地等着上游的中介机构投喂的各种产业咨询和财务报告，甚至很多分析师和投资经理虽然出身海内外商科名校，但是都不具备基本的审计抽凭的能力，无法交叉验证各种财务、生产、经营和贸易数据中勾稽关系出现的种种纰漏，更谈不上跟企业家这类“人精”斗智斗勇拆穿演技了。浑水公司主要通过大量查阅资料、调查关联方、公司实地调研、调查供应商、调研客户、倾听竞争对手、重估公司价值等等一系列手段，充分尽职调查企业以确凿的证据和第一手资料完成三类研究报告——商业欺诈（business fraud）、会计舞弊（accounting fraud）和根本问题（fundamental problems）。太阳底下没有新鲜事，浑水只是静下心来，俯下身来，去做了“上游”这些中介机构应该做的事情，甚至比他们做的更好，更准确，更真实。

回想当年十多年前我们当入行时在老东家的工作内容，跟厂子门卫打更的大爷抽旱烟唠家常，跟保洁阿姨聊薪酬谈办公室氛围，陌拜客户仓库厂房被大黑狗追的满院跑，翻墙头查电表睡工地数大车，一切的一切，都是为了找到关键的“信息元”。因为理论上讲，“信息元”都不会孤立存在，必然和别的节点有关联。对于造假的企业来说，要编制一个天衣无缝的谎言，需要将与之有关联的所有“信息元”全部疏通，金蝶用友再好也只是疏通做的好，因此“尽职”的调查是要想尽办法还原客户最真实的那本手工账。虽然回想当年工作起点很LOW，与很多初入投资行业的年轻人所想象的高大上的“金融”工作差距很大，但是这段工作经历对笔者投资职业技能的培养，尤其是尽调思路观的塑造，起到了非常重要的积极作用，以至于复盘读到浑水很多做空报告的尽职调查手段时，倍感亲切大呼过瘾！

而这次浑水再次成功做空而在国内掀起的“检验尽职调查能力标准”的大讨论，向上游的各家中介机构以及几家参与保荐的知名投行可谓是足足的“倒灌”了清流，打了谁的脸，相信各位读者自有判断。

向“上游”倒灌“清流”的浑水，也确实对得起自己名字中带有的research一词了。

图5浑水非常强调research

当然其实有很多揣着明白装糊涂的投资人，考虑到尽职调查过程中的成本和时间约束，分析师和投资经理的绩效激励导向，自然会导致很多投资机构的尽职调查就是走走过场，毫无“尽职”可言。因此如何更高效更准确的实现尽调数据的取得，如何对投资目标实现更安全更隐蔽地“翻箱底”，则成为投资人对上游的“数据供应商”提出的新要求、新课题，下面我们就进入到本文要重点讨论的内容。

2走进武器库

回顾过去几年，我们已经深刻地见证了发生在金融行业的“第四次工业革命”，即在传统财务报告数据之外，无论中美，无论商业银行还是对冲基金，有越来越多的包括但不限于交易、舆情、地理定位、投资者情绪等多种多样的另类大数据，以及基于机器学习和人工智能的数据分析新方法出现在金融行业的日常分析中。虽然有很大比例的投资者依旧对这些另类数据和机器学习算法持观望和怀疑态度，但必须承认的是金融行业的商业模式与量化投资的手段已经发生了巨大的变化，无论授信投资主体是ToC还是ToB，已经有越来越多的金融机构更加重视另类大数据的价值，“巧妇难为无米之炊”，金融另类大数据目前已经具有相当丰富的内涵，并且分析手段呈现更加立体的层次感。

图6摩根大通大数据与AI产业研究报告

摩根大通（J.P.Morgan）在2017年5月发布了研究报告《大数据与人工智能策略——面向投资的机器学习和另类数据方法》（Big Data and AI Strategies — Machine Learning and Alternative Data Approach to Investing，J.P.Morgan 2017，下文简称“摩根大通报告”），摩根大通全球定量和衍生品策略主管马可·科拉诺维奇博士（Marko Kolanovic，PhD）作为本报告主编，带领团队详细梳理了当前华尔街主流机构和对冲基金在产业实践中形成的机器学习和大数据投资框架，主要包括另类大数据综述和分析这些数据的机器学习方法综述两部分，报告第一章介绍了理解大数据和机器学习方法的一个初始框架；第二章根据另类大数据的类型及其对不同投资风格投资人的相关性，将其进性分类介绍；第三章详细阐述每一种机器学习方法的原理、实施和应用案例；第四章提供了一部超过500家另类数据供应商的指南，可以作为纵览大数据和机器学习产业全貌的路线图。

本报告长达280页，除了对另类大数据和机器学习的基本原理和产业应用做出全面且详细的介绍之外，在附录部分还附上大量的数学原理、计算（机）科学理论、数据处理性能分析、计算级编程代码和机器学习库，作者额外的理论思考，以及相关参考文献和术语表等，内容非常详实、全面、前沿，感兴趣的读者可以自行下载报告或联系希贤书屋索取后深入研究，本文笔者将仅对基本概念、分类和应用为大家做综述性介绍，在微信文章字数控制的约束条件下将自己的理解为各位读者将综述性内容按新的结构编排。

2.1大数据工业革命

现今连接在互联网上的设备以及越来越多接入物联网的设备，可以快速即时地将绝大多数的观察或记录信息化捕获。这种技术环境下理论上可以让投资人实时地获得广泛的市场相关数据。举例来说，数以万亿计的网上购物在线数据可以用来评估通货膨胀水平，商业实体的到店客户数量及交易数据现在完全可以用来实时地估计销售收入，卫星遥感图片也可以拿来用于评估农田产量和石油钻井活动。

图7另类数据的来源多样化

历史上投资人做出投资决策前的尽职调查和研究分析需要的相关数据，仅能通过更加低频的方式获得，比如说月度CPI数据、钻机每周工作量、美国农业部粮食作物报告、零售业销售报告及季度财务报告等等。考虑到未来更加丰富可用的数据量，现在成熟的量化投资机构已经可以做到获得传统数据来源压根无法提供的更多（近似）实时数据，既包括宏观层面的，也可以包括公司微观层面的数据。但是在业界实践中，这些有价值的另类数据的获得也并非易事，投资人往往需要购买并进一步的组织分析这些另类数据集，才能提取出对投资交易更有价值的信号。在这一过程中如果遇到非结构化的数据集经常需要使用机器学习的方法来处理分析。在设计量化投资策略中往往同时需要一些理论知识和丰富的实践经验才可以让机器学习技术成功地落地应用。

（注：非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。）

在开发“独门绝技”的投资策略并追逐阿尔法（即Alpha，相对于市场整体风险溢价贝塔之外的超额收益）的过程中，已经有越来越多的基金经理采用量化投资的手段。基于另类风险溢价投资之外，一种新的极具竞争优势的策略来源正在浮现，这种优势策略即基于有效实用的另类数据来源以及处理分析这些另类数据的新型机器学习技术的出现。发生在金融行业的“大数据工业革命”正在试图可以让具有信息优势的投资人来寻找更多的超额收益，具备更强的发掘交易新策略新信号的能力。

（注：另类风险溢价投资—Alternative Risk Premia简称ARP，可以简单地理解为风格投资，ARP为投资者提供对所有主要资产类别的系统性风险敞口，从价值、套利、动能和风险规避等众所周知的来源中获得超额回报。与Alpha投资、市场风险溢价投资—Market Risk Premia共同构成传统的三大量化投资策略，感兴趣的读者可以自行搜索“中国证券投资基金业协会举办的第七十九期晚间沙龙—AQR风格投资讲座”的相关内容）

大数据的信息优势来自于新技术背后蕴含的数据集，比如移动互联网、卫星、社交网络等等，并且大数据信息优势不再如以往的信息优势是建立在专家、行业人脉、公司高管等等基础上，而是来自于收集海量数据并实时处理的能力。在这一视角下分析大数据必将会深刻改变投资行业的格局，并且将投资行业未来的发展格局从优秀投资人个人单枪匹马的自由风格逐渐演变到量化投资的工业风格。

未来必将给金融行业带来深刻变革的“大数据工业革命”，其主要得益于当今时代良好发展环境带来的三大趋势：

·金融行业可获得数据量将会呈现指数级的增长：

截止摩根大通报告发布的时点2017年5月，近年来公开数据不断增加，收集数据的能力显著提升，有估计显示目前人类社会90%的数据都来源于近2年，而且在未来各类数据的数量还会不断增长！预计大数据洪流将使“数据大宇宙”里积累的数据从2015年末的4.4泽字节(或万亿千兆字节，即trillion gigabytes)快速增加到2020年的44泽字节，物联网（The Internet of Things ，IoT）将通过更多嵌入工业设备、生产流程、物流环节或产品应用场景里的传感器源源不断获取大量的另类数据，以及近年来全球尤其中美两国商业航天的快速发展，微纳卫星产业的技术进步、成本降低和发射便利也将进一步支持产生更多另类大数据，孕育出新的另类数据来源，对应下方图10中的New Datasets。

说到这里笔者以目前我们中国国内各地正在如火如荼开展的新基建产业链分析举例，可以看到工业互联网未来必将成为新的另类大数据来源（图片来自工业和信息化部赛迪智库，作者为中国电子信息产业发展研究院袁晓庆）。

图8 国内新基建孕育未来的另类大数据

·计算能力和存储能力的大幅度提升（成本逐步降低的前提下）：

随着并行/分布式计算能力和存储能力的提升，以及云计算的发展与成熟，这一系列技术进步带来的好处是更便于远程访问共享另类大数据资源。预计在2020年超过1/3的全部数据将会存储或传输都在云端。类似Apache Spark这样的分布式集群计算的开源框架正在变得越来越流行，与此同时发生的是技术供应商将提供的远程访问细化分为软件即服务(SaaS)、平台即服务(PaaS)或基础设施即服务(IaaS)三类。这种对远程储备资源的共享访问极大地降低了实现大规模数据处理和分析的门槛，因此意味着向广大投资者，无论是基本面投资还是量化投资，都打开了基于另类大数据设计投资策略的大门，该趋势对应下方图9中的Computing。

我们同样如果把眼光拉回国内，在去年举办的WGDC 2019大会上国内代表性企业纷纷分享了各自在计算和存储能力为代表的技术体系建设上所取得的成绩。

图9国内代表性企业的技术体系建设

·处理海量复杂数据的机器学习算法蓬勃发展：

在模式识别和函数逼近（可以简单理解为揭示变量之间的关系）等领域当前的技术已经有了显著的发展，这些分析方法作为统计学和计算机科学的综合交叉学科常以“机器学习”而被世人熟知，机器学习擅长分析处理海量数据尤其是非结构化的数据进而可以构建交易策略。除了经典的机器学习方法（可以理解为高级统计）之外，深度学习（Deep Learning，一种基于多层神经网络的分析方法）和强化学习（Reinforcement learning，通过鼓励计算机学习并探索算法策略以达成回报最大化或实现特定目标的问题）在金融行业的投资实践中也日益受到关注。虽然神经网络已经存在了几十年，但直到最近几年它们才在各行业中得到了广泛的应用。从2016年开始，例如亚马逊Echo、谷歌Home和苹果Siri等嵌入智能家居或移动互联网产品的智能应用开始广泛普及，而这些都是严重依赖于深度学习算法。高级机器学习算法在解决复杂系统问题方面表现出来的成功也在越发引诱投资经理们在金融行业去实践这些技术。该趋势对应下方图9中的Methods of Analysis。

图10大数据工业革命背后的诱发因素

其实曾在早在几年前就有学者研究（Regalado 2013）指出虽然大数据和机器学习被大肆宣传但当前能被真正分析处理的数据比例仅仅占到总量的0.5%，因此大数据产业的迅猛发展同时也给了市场各种参与者一个令人信服的理由去投身到如何能够更好更快理解大数据和使用机器学习工具的众多投资项目中去。摩根大通意图努力通过这篇报告提供全面的综述，让无论是基本面投资者还是量化投资者都可以基本掌握与自身策略开发相关的另类大数据源和机器学习方法，并且鉴于世面上有众说纷纭的各类术语，因此也建议读者可以通过摩根大通这篇报告在最后附录部分中提供的大数据—机器学习—人工智能术语表及简要说明（不过很遗憾，英文原版，尚无中文版）。

2.2如何消除恐惧

虽然有很多传统的投资人（尤其是偏文科教育背景的）对目前当下很多可以利用的大数据并没有很好的理解，脑中没有清晰的概念，甚至在对日益流行的机器学习方法感到新鲜的同时，更多的感觉却是不安和恐惧，其实大可不必如此，因为这些从实质上来说并不是什么新概念。

事实上，许多的投资人在日常工作中已经在有限的范围内开始处理另类大数据并且使用基于机器学习算法的投资工具了。虽然当下聚焦在大数据本身的很多技术是新出现的，但是人们对更新、更快信息的渴望长久以来一直都是关于投资的永恒特征，举几个历史上有趣的小例子：

关于减少信息延迟进而获利的例子最典型的就是早在1815年6月内森尼尔•罗斯柴尔德（Nathaniel Rothschild）就通过信鸽来传递滑铁卢战役的战况，以求第一时间得到反法联军胜利的消息进而实现在伦敦证券交易所(1773年就伦交所就成立了)尽早的多头操作；

股神巴菲特的老师，被称为“现代证券分析之父”的本杰明∙格雷厄姆（Benjamin Graham，1894～1976年），他在1934年首次出版《证券分析》（“Security Analysis”，Graham and Dodd1934）和1949年首次出版《聪明的投资者》（“The Intelligent Investor”，Graham1949）这两本被誉为投资圣经的著作，其在当时最为显著的特征就是系统的收集企业各类会计数据和财务比率，进而从中发展出了价值投资理念。虽然现在看来格雷厄姆价值投资理论中提到的这些数据再普通不过了，但在当时的时代条件下也完全可以称其为投资的“大数据”分析了；

到了上世纪50年代，萨姆·沃尔顿（Sam Walton，全球著名零售业王国沃尔玛的创始人）就通过租用飞机飞跃自己超市的上空计数停车场汽车数量来评估其不动产投资的合理性，而目前广泛使用的卫星成像技术（遥感）相对航拍来说只不过是一项技术上更为先进、扩展性更强、视野范围更大的手段罢了，无论是航拍还是卫星遥感最终实现投资过程中欲具有信息优势的出发点是相同的；

机器学习方法通常是常见熟知的数学统计方法的简单扩展而已，监督学习（Supervised Learning）方法旨在建立两个数据集（Dataset）之间的关系，并试图使用其中一个数据集去预测另外一个数据集，这些方法通常与改进的回归模型一样简单并可以适应完善不断变化的市场规则、处理数据异常值和变量相关性。无监督学习（Unsupervised Learning）方法试图去理解数据的结构以及隐藏在数据背后的主要驱动因素，而这些无监督学习方法的数学模型通常与著名的统计方法（PCA，Principal Component Analysis即主成分分析）密切相关。

虽然大数据和机器学习并没有很多人宣传的那么神秘和高不可攀，但是必须也得承认，业内实践中比如两个金融时间序列数据的简单回归，与基于大数据的机器学习分析框架，两者之间还是存在显著差异的。大数据分析显然需要一些新技术和基础设施来提取更有价值的交易信号。

在消除科技恐惧感这方面最具正能量的案例就应该当属股神巴菲特了。

早在巴菲特在2013年的股东大会时曾说，因为自己看不懂，不理解公司及它的竞争地位，而不愿意购买苹果公司的股票，而在2016年开始建仓苹果，之后一路增持，根据最新的伯克希尔哈撒韦年报显示，截止2019年底股神巴菲特总计持有苹果公司5.73%的股份，市值将近660亿美元，远超美国银行、摩根大通、富国银行、可口可乐这样的经典“巴式”传统股。

表2巴菲特的重仓股（2019年年报）

其实巴菲特虽然给世人一直重仓银行、大众消费（经典的可口可乐）和航空公司的“人设”，但其实早在2011年他建仓买入IBM的股票时开始，算是巴菲特近年来第一次真正意义上投资科技股。从2011年开始投资IBM到2017年出清IBM的全部股份，他前后向IBM注资超过百亿美元。其后，巴菲特先后投资了微软，苹果，亚马逊等科技股，甚至在2019年股东大会上（往年都在5月，今年即2020年股东大会还未举办，受疫情影响可能会取消），巴菲特（当年89岁）和芒格（当年95岁）这两位将近百岁的老人，回答了投资者大量关于投资苹果公司、亚马逊等科技股的疑问，并就5G前景，科技股投资逻辑等分享自己的看法，应该说非常与时俱进了。

甚至就在今年2月25日来自美国的新闻报道说，巴菲特终于扔掉了他一直使用的价值20美元的老式三星翻盖手机SCH－U320，而用上了最新款的苹果手机iphone 11，也是他人生第一次使用智能手机，赞不绝口。（如果读者对巴菲特和伯克希尔哈撒韦公司感兴趣，欢迎阅读笔者目前正在连载的长篇《莫比乌斯环上的先知与教父》）

连巴菲特这样今年90的老人都在拥抱科技，并顺利融入其中并享受其中，还有什么好恐惧的呢？

图11克服恐惧，勇敢地向过去说再见吧

2.3新式武器的机会与陷阱

如果把另类大数据和机器学习方法比作华尔街投资尽调的高级武器的话，那么就像人类历史上所有出现过的战争武器装备的“命运”一样，无论是冷兵器、热兵器甚至是核武器，新式武器的使用既会带来立竿见影的机会和优势，同时又会带来极大的陷阱，而无论战争武器装备怎样发展，从孙子兵法传承数千年到现代的重要军事思想却始终支配着这些装备，无论它诞生于哪个时代。

而回到华尔街，回到当代金融产业中来，经济学规律也同样在支配着新式武器的“命运”，我们需要提前预判到新式武器的机会与陷阱。

未来另类大数据和机器学习将会如何改变投资产业的格局？我们认为肯定是巨大而深刻的变化。随着越来越多的投资人开始采用另类大数据，市场将会对信息做出更快的反应，最为关键的是，投资人可以通过基于另类大数据的机器学习算法来进一步提前预测到传统的或者“老式”数据（例如，企业季度财务报告数据、甚至发布更低频的一些宏观经济数据指标）。这种变化必将会为量化投资人和那些愿意采用和理解新数据集与方法的投资人提供了巨大的竞争优势。最终“老式”数据集将会失去大部分的投资预测价值，而捕捉到另类大数据有效信息的“新式”数据也将会发展的越来越标准化，金融业界里的各参与主体将会持续努力地去发现呈现更高频的另类大数据，同时也将会不断完善和补充“老式”数据集。

机器学习在未来也将会量化投资者，甚至可能是一些传统的基本面投资者日常使用的标准工具。当前华尔街正在普遍实践的系统化投资策略，比如风险溢价、趋势跟踪、多空组合的权益类对冲量化投资等都将越来越积极地采用机器学习工具与方法。“另类大数据生态系统”中将会越来越多的出现收集、聚合和销售“新式”数据的专业化企业，同时无论在交易的买方还是卖方都将会出现更多评估这些“新式”数据的研究团队。著名研究机构“AlternativeData”曾经对当前全球另类数据产业做出非常全面的统计研究（链接：https://alternativedata.org/stats/），从其中另类数据供应商的数量、买方另类数据投入的开支、基金平均开销等方面的快速增长可以看到另类大数据市场的快速蓬勃发展，华尔街投资的新式武器未来的数据弹药正在源源不断增援的路上。

图12另类大数据发展现状

虽然随着“另类大数据生态系统”的蓬勃发展，具有高夏普比率交易信号的数据集有可能将会满满消失，即简单的说，通过某“独门绝技”的非内幕交易数据集就可成功打造一支投资基金的可能性，但肯定的是大部分的另类大数据信号在分析构建量化投资组合的情境下仍然是非常有价值的。

下面再来分析另类大数据和机器学习可能会给华尔街带来的潜在陷阱。

投资业界在逐渐使用新式武器的过程也绝对不会一帆风顺，甚至有些类型的数据可能会将投资人带入死胡同——说白了就是另类大数据中无法挖掘出阿尔法（Alpha，即超额收益），数据中提炼出来的交易信号虽有价值但却无法承载太大的交易量或效用衰减很快，甚至有可能就是简单的因为另类的大数据太昂贵而无人购买（收益不足以弥补成本）。有些投资机构可能在不必要的基础设施上花费了太多，比如建立复杂的数据模型和IT架构，但实践下来的结果并不能证明这些付出带来的边际收益改善是合理的。一定要跳出AI的陷阱，认识到机器学习算法并不能完全取代人类的直觉，高深复杂的模型一旦引导不当，很可能会发生数据过拟合（简单理解见下图所示）或欠拟合（构建无用的知识体系，发现的是虚假的数据关系和模式）。还记得引言中提到的美剧《亿万》中那个欺骗卫星的例子吗？

图13知识、经验与过拟合

掌握新式武器的人才或许也将会是陷阱，或者说另一个风险来源。投资机构聘用缺乏特定金融专业知识或金融直觉的数据科学家，可能并不会带来预期的投资结果，甚至还会导致投资团队内部的文化冲突。在金融投资行业实施另类大数据和机器学习时，理解数据和信号背后的经济学原理比开发复杂的技术解决方案更为重要，许多大数据和人工智能概念听起来可能很有道理，甚至是花言巧语，但并不能带来有效可行的交易策略。

因此本文特别需要强调的是，笔者多年来在业内实践和观察的体会非常坚信：一个基于大数据机器学习分析的成功交易策略，必须也要建立在对市场敏锐的直觉、对数据背后的经济驱动因素的深刻经济学理解，以及丰富的交易策略设计经验的基础上。摩根大通的这篇研究报告也在开篇后不久便强调了这一点。

2.4拆解武器之另类大数据**

整个社会在过去十数年间系统化地去收集各种各样的另类数据，并将收集来的数据组织和传播就逐渐形成了大数据的概念。另类大数据中的“大”字具有三个特征（图14）：

·体量大（Volume）：

通过（语音图像）记录、交易、表格、文件等等方式收集并存储的大数据规模非常巨大，并且人们心目中对“大”的主观下限也在不断地被向上修正。

·速率快（Velocity）：

通常被标识为“大数据”的数据其发送和接受的速率也具有“大”的特征，数据以批处理模式的进行流处理或接收以达到实时（real-time）或接近实时的速率。

·种类多（Variety）：

另类大数据往往以各种格式被记录和存储，既有例如SQL数据库表格和CSV文件格式的结构化数据，又有例如JSON和HTML格式的半结构化数据，甚至是例如博客文章或语音视频这样的完全非结构化数据（非结构化的解释可参考上文2.1节注）。

图14大数据的“大”体现三个特征

另类大数据若想能够成功地在金融行业转型过程中逐渐被业内人士广泛深入的应用，其核心是发现能够提供信息优势的新数据来源，另类大数据的信息优势是发现传统数据源中没有的信息甚至交易信号，或者能够比传统数据更早更快地发现相同的信息或信号。例如，通过遥感卫星成像技术对矿山或农田的进性图像分析可以在财经新闻或经济主体官方大规模报道之前就提前发现重大供应中断，提前预判到重大投资风险。

接下来笔者将按照摩根大通报告的顺序为读者提供一个拆解另类大数据的分类框架，首先我们根据另类大数据产生的方式对其进性分类，然后我们再根据另类大数据与投资行业中不同岗位和分工的专业人士之间的直接相关性，将另类大数据集映射到不同的资产类别、投资风格、数据质量或技术规范上去。最难能可贵的是摩根大通报告提供了按照分类架构提供了非常全面详细的另类数据集和供应商清单，并提供了投资业界具体实践的案例和分析，限于微信长文的字数限制，笔者仅做概览和个别另类数据集的介绍。

摩根大通报告中对另类大数据的分为三类：A. 个人生成数据（Data generated by Individuals），比如社交网络上的帖子等；B. 业务流程数据（Data generated by Business Processes），比如电子商务或信用卡交易数据；C. 传感器数据（Data generated by sensors），比如卫星遥感图像、雷达数据等。每种分类下面的细分类别详见图15所示，并且后文还会有详细论述。

图15摩根大通报告对大数据的分类框架

虽然摩根大通的这种分类方法有点偏理论，但其智慧之处在于这三种类别中每种分类的都有一些共同的特性、共同的数据分析方法和共同的挑战。举例来说，个人生成数据通常采用的是非结构化数据格式，往往需要自然语言处理技术对其进性分析；传感器产生的数据通常也是非结构化的，需要类似自动智能计数、卫星遥感图像云层/气象自动消除等这样的技术来进一步分析；很多的业务流程数据，比如信用卡交易数据、公司废弃的商业数据等，则非常需要考虑到共同的法律或隐私顾虑。无独有偶著名研究机构“AlternativeData”对另类大数据的数据来源和应用对象也有其自己的分类框架，见图16所示：

图16Alternative-Data-Stack

摩根大通报告的数据分类是在2015年国际官方统计协会（International Association for Official Statistics，IAOS）的报告《大数据与官方统计的机遇、挑战和风险》（“Big Data and Official Statistics: Opportunities, Challenges and Risks”，Kitchin and Rob，2015）和同样2015年联合国（United Nations）在阿布扎比举办的官方统计大数据全球大会（Global Conference on Big Data for Official Statistics at Abu Dhabi）上发布的报告《大数据分类的修订与进一步发展》（“Revision and Further Development of the Classification of Big Data”，United Nations，2015）这两份报告的基础上完善扩展而完成的。

图17联合国关于大数据分类的权威报告

下面我们对摩根大通报告中的这三类数据详述如下：

A个人生成数据（Data generated by Individuals）

这类数据主要通过文本的媒介来记录，通常是非结构化数据并且多平台分布。我们还可以进一步将个人生成数据分类为：1）来自社交媒体的数据，比如来自Twitter、Facebook、LinkedIn等等；2）来自专业网站的数据，比如商业评论网站Yelp；或者电子商务企业，比如亚马逊（Amazon）上记录的相关个人数据；再或者类似APP Annie这样的移动应用分析公司所记录的个人生成数据等。

详细分类可见下图摩根大通报告中列表目录，并且该报告“丰富慷慨地”提供了每个细分数据种类下，业内常见的数据供应商或技术方案解决方案服务商的企业和产品介绍。

表3-A个人生成数据（Data generated by Individuals）细分种类

限于篇幅限制，这里仅以另类数据子集“A.1.iii: Blogs, Picture and Video Analytics”（博客、图片和视频分析）举例如下表所示：

表3-A.1.iii另类数据子集“博客、图片和视频分析”举例

B业务流程数据（Data generated by Business Processes）

这类主要是指企业或公共机构所生产或收集的数据，其中一个重要的子类别就是商业交易记录，如信用卡消费数据。企业在记录类似银行流水单、超市扫描单据、供应链数据等等这类数据时，不经意间所产生的副产品或“废弃品”往往可以归到本类数据。业务流程中产生的数据通常是高度结构化的数据（与个人生成的数据相比），因此这类数据往往可以作为很多公布非常低频的企业经营财务指标的先行预测指标。业务流程生成的数据也可以来自公共机构，一个常见的例子就是美国联邦政府在过去几年里通过互联网提供的大量数据。

同样详细分类可见下图摩根大通报告中列表目录，并且该报告“丰富慷慨地”提供了每个细分数据种类下，业内常见的数据供应商或技术方案解决方案服务商的企业和产品介绍。

表3-B业务流程数据（Data generated by Business Processes）细分种类

限于篇幅限制，这里仅以另类数据子集“B.2.i: Real Estate”（房地产企业数据）举例如下表所示：

表3-B.2.i另类数据子集“房地产企业数据”细分种类举例

C传感器数据（Data generated by sensors）

现如今嵌入到各种联网（有线网络、无线网或物联网等）设备中的传感器（可以是固定的，也可以是移动的比如卫星）可以机械持续地收集大量数据，而这类数据通常时非结构化的，并且其规模往往要比前文介绍的个人生成数据和业务流程数据要大的多。这类数据最著名的例子要数能够用于监测各种经济活动(建筑、航运、商品生产等)的卫星遥感图像数据。另外的地理定位数据可以用来跟踪零售业的客流量(前提是智能手机数据愿意分享)，船舶进出港航行数据，出租车和货运卡车的行程时空数据，等等。在固定感兴趣的位置设置的拍照设备、天气气象装置、空气或土壤水源的污染监测传感器等也可以生成大量的此类数据。在2.1节我们曾经说过，未来或许最有前途的是物联网（The Internet of Things ，IoT）可以将通过更多嵌入工业设备、生产流程、物流环节或产品应用场景里的电子传感器源源不断获取大量的个人或商业另类大数据。

同样详细分类可见下图摩根大通报告中列表目录，并且该报告“丰富慷慨地”提供了每个细分数据种类下，业内常见的数据供应商或技术方案解决方案服务商的企业与产品介绍。

表3-C传感器数据（Data generated by sensors）细分种类

限于篇幅限制，这里仅以另类数据子集“C.1.iii: Satellite imagery for Metals and mining”（金属和采矿业的卫星图像）举例如下表所示：

表3-C.1.iii另类数据子集“金属和采矿业的卫星图像”细分种类举例

著名研究机构“AlternativeData”长期以来独立地对另类大数据市场开展全面详细的跟踪研究，也开展的大量的研究分析，并且在其网站上可以方便地分类检索全球范围内的另类大数据供应商（共计445家），比如我们选择卫星数据（Satellite）如下图18所示（节选部分检索结果）：

图18AlternativeData提供的供应商检索

著名研究机构“AlternativeData”通过长期的跟踪研究发现投资业内能够获得的另类大数据中，数据提供商中数量最多的是“社交/情绪数据”供应商（Social / Sentiment Data）；收入水平最高的是“信用卡/借记卡数据”供应商（Credit / Debit Card Data）；五个最受欢迎的数据种类分别是“社交/情绪数据”（ Social / Sentiment Data）、“公司私有数据”（Private Company Data）、“信用卡数据”（Credit Card Data）、“供应链数据”（Supply Chain Data）和“网络爬虫数据”（Web Data Scraping），并对投资业界的使用状况和评价（准确性、洞察性）做了统计如下图19所示：

图19投资业界对另类大数据的使用状况和评价

在本节的最后笔者想跟各位读者分享摩根大通报告中非常有趣且很接地气的思考视角——数据属性（Attributes of an alternative dataset）。继根据数据的来源（个人、业务流程和传感器）对另类大数据进性分类后，摩根大通又从数据属性的角度对另类大数据进行了一种描述性分类，而投资行业的从业人士，无论身居何种岗位，从事何种工作，都可能会对这种分类感兴趣，因为可以在这种分类视角中快速的找到适合自己的位置。

举例来说，消费零售行业的投资经理更加关注于识别出某特定标的商店销售数据的领先信号，进而做出投资决策，却并不会过多关心这些数据是来自商店停车场的卫星遥感图像，还是来自客户共享的地理位置信息还是电子邮件收件箱中的电子收据。高频交易的量化投资经理则会关注所有日内信息基础上产生的交易信号，甚至包括tweets和各种新闻稿，但是却很少关注信用卡数据，因为这些数据往往拿到手中时存在很严重的延迟，并且无法广泛地应用这些数据。数据分析师更关注在收集和分析数据过程中处理出现的“异类”，比如数据检索、异常值和缺失值而应采用的不同技术手段。

我们不妨把摩根大通报告中提到的基于数据属性的分类方法，称之为“投资视角分类”（原文为Investment Classification，通过阅读报告上下文，笔者认为这个翻译可以更准确表达报告原意）。“投资视角分类”这种思考另类大数据的分类方法可以为每个数据集的属性分配一个类别，并且将其关联到投资业不同岗位人士的工作内容，包括从首席投资官、投资经理、交易员到数据分析师等等都可以在这一分类下找到自己工作相关的另类大数据及工作对策。详细如下图20所示，共分为七类：A.金融大类资产（Asset Class）；B.投资风格（Investment Style）；C.超额收益（Alpha）；D.知名度（Known）；E.处理程度（Stage of Processing）；F.质量（Quality）；G.技术指标（TechnicalAspects），并在下文做出解释。

图20摩根大通的“投资视角分类”有趣且接地气

A金融大类资产（Asset Class）

大多数的另类大数据聚焦于股票和大宗商品领域。在利率和货币市场方面，可供选择的另类大数据数据相对较少，若有，那么这些另类大数据对于投资者来说则显得更有价值。

B投资风格（Investment Style）

另类大数据通常都是与某个行业或某支股票相关的，因此多头/空头的股票投资人就会对这类数据相对更感兴趣，还有大量与宏观经济环境有关的数据(如消费信贷、中国经济活力、贸易航运数据等)则对宏观策略投资人更有价值。有些另类大数据可以用来替代或领先于传统的市场风险指标，而某些另类大数据提供的信号仅适用于高频量化投资的交易员。

C超额收益（Alpha Content）

投资视角分类下最重要的当属能否挖掘出超额收益这个视角了。首先超额收益的大小本身，一定要结合另类大数据的购置成本来综合考虑。另类大数据的购置成本差异很大，比如说情绪分析可能只需几百或几千美元，但信用卡消费借贷的复杂数据则可能达到每年几百万美元的成本，并且基于另类大数据的交易策略是一定要测试的，其能产生的超额收益都是先通过回测来初步估计。投资者如果遇到并没有挖掘出来超额收益的另类大数据不应感到惊讶，这很正常。即使有时测试可能发现某另类大数据集确实能够产生足够大的超额收益（alpha），来使其能够支撑开发出一个独立可行的交易策略。遗憾的是，事实上这种情况真的很少见，虽然大多数的另类大数据能够产生正值的夏普比率（Sharp Ratio），但并不足以支撑开发出独立的投资策略出来。但尽管如此，很多另类大数据还是非常有价值的，因为这些数据产生的交易信号若结合使用就能够产生一个实践可行的投资组合级交易策略。

除了挖掘超额收益的能力以外，投资人还需要评估另类大数据集中信息的正交性(是否别的另类数据也或多或少包含了相关信息)，并且还要特别关注基于该另类大数据开发的投资策略能够承载多大的潜在容量（或者说策略有效前提下管理资金的最大体量）。下图21展示了在评估某个另类大数据集时，投资人最终可能会采取的购买态度。

图21对另类大数据采取的“尽职调查”（DD）

D知名度（How well-known）

与“超额收益”视角很接近的分类就是数据集的“知名度”。一个另类大数据越被世人知晓掌握，那么它就越不可能开发出来一个好的交易策略。例如众所周知的公共数据集财务比率(市盈率P/E，市净率P/B等)，这类数据中或许能挖掘出来相当低的超额收益，但完全不能仅基于此就开发出来一个赚钱的投资策略 (但在一个投资组合的风险溢价评估时综合使用它们还是有价值的)。随着科技的进步和信息的爆炸，越来越多的另类大数据集将不是那么为人所知，完全崭新的另类大数据集在未来将会频繁出现。

为了评估到手的另类大数据的“知名度”，投资机构中的数据管理人员可以咨询另类大数据供应商是否能够提供该数据集现有客户的使用情况。一个另类大数据集的初始客户通过在使用过程中评估投资策略改进效果并反馈给数据供应商，进而可以不断影响该数据集未来采集和整合的范围，从而又影响到后续客户。甚至有些初始客户会要求数据供应商保证该数据的独家性（或排他性），或者有限范围内销售，这样就导致数据供应商必须承诺仅将该另类大数据销售给预定义的有限客户。

E处理程度（Stage of Processing）

数据的处理程度也是一个很重要的视角。基本面投资者肯定更加喜欢经过处理的交易信号和市场观察结果，而不希望眼前仅仅是拿到一大堆的原始数据。另类大数据的最高级别程度的处理就是以研究报告、风险预警或交易策略的形式直接呈现到购买者（投资人）面前。

处理程度再稍微低一些的数据集，则是数据提供商出售的可直接输入多信号交易模型中使用的单一交易信号。通常另类大数据都是这样的轻处理级数据，常以表格格式(如CSV)或标记格式(如JSON/XML)的半结构化的数据格式呈现。轻处理级数据也仍然会有一些异常值和缺失值，并且不易直接作为交易模型的输入，其潜在的超额收益和映射到可交易工具的程度仍然需要继续评估，投资人需要经常考虑轻处理数据背后的周期性经济驱动因素和异常值等问题。

最后处理程度最低的原始数据则对绝大多数投资者来说没有任何用处。举例来说，对于一位没有卫星遥感分析技术，不懂得季节或气象因素修正处理经验或者识别存储类型专业知识的投资人来说，原油仓储油箱的卫星图像文件对其毫无使用价值。

F质量（Quality）

数据的质量对于投资机构里的数据科学家或数据分析师们来看，则是另外一个非常重要的属性。更长历史跨度的数据通常更适合用于测试，典型的代表就是卫星遥感图像数据一般需要连续3年以上，情绪数据需要5年，而信用卡数据则需要7年以上，但相反的如果不到50条记录的数据集一般被视为没有使用价值。缺失值或异常值是判断数据质量时一个很重要的考虑因素，如果另类大数据集中的数据已经被回填，则必须强调缺失值的估算方法，并且要指明数据的缺失是因为随机原因还是固有的模式缺陷。处理数据质量的方法要尽可能透明，这样才能便于投资人评估数据样本能否代表数据总体以及应该如何修正误差。鉴于另类大数据经常没有固定的标准化格式，抽样方法和对数据集的理解也经常会发生变化，因此另类大数据的供应商应该客户构建强有力的售后服务支持体系。

G技术指标（TechnicalAspects）

另类大数据最后的一个属性就是它自身存在多种技术指标，其中包括数据频率（或称数据颗粒度）：可以是日间、日频、周频，甚至是更低频次更新的数据；时滞：数据供应商通常批量提供数据，但由于收集过程中可能发生的问题，或者实操与法律约束等原因，其提供的数据可能会有时滞，其长短通常也是考察另类大数据的一个技术指标；数据格式：另类大数据应以合适的格式来提取后存储，最好是CSV格式或静态数据的JASON格式；API（应用程序接口）：应该设计得更加健壮，使得它不会轻易宕机或导致额外的时滞，并且应该能够灵活地适应不同的编程语言；利益冲突：只要数据提供商售卖或交易另类大数据集，不应疏忽潜在可能会发生的利益冲突（参看前文介绍的数据排他性或交易限制）；法律和声誉风险：几乎使用绝大多数的另类大数据集不会带来法律或声誉风险。然而购置这些另类大数据的投资人客户应该明白，甚至应该预判到购买那些并没广泛公开或传播的数据信息可能会潜藏的法律风险。

第二章笔者在摩根大通报告的基础上为读者呈现了当今华尔街在另类大数据的军备竞赛，各类型另类大数据供应商雨后春笋般地在西方发达国家尤其是美国萌芽并成长，作为另类大数据的主要采购客户，华尔街的各类大型投资机构和对冲基金也充分重视数据的采购、加工和应用，在公司各岗位、各投资条线都会各司其职管理另类大数据，并科学严谨地去努力挖掘出更多的超额收益。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。