亚裔人会成为下任美国总统吗?美国国债会变得一钱不值吗?去问问“未卜先知”的微软纽约研究院研究员吧!

神奇预言家

来源:环球企业家  |  作者:刘泓君  |  阅读:

亚裔人会成为下任美国总统吗?美国国债会变得一钱不值吗?去问问大卫·罗斯柴尔德(David Rothschild)吧!

这位微软纽约研究院研究员在第85届奥斯卡金像奖颁奖之前,通过数学建模准确预测了本届24项奥斯卡奖中的19项,在其余5项大奖的预测中,其预测结果亦与最终获奖结果趋同。

“这是科学的证明。”在奥斯卡颁奖结果揭晓的当天晚上,罗斯柴尔德在Twitter上如是说。“我们可利用娱乐、体育及政治话题建立各种各样的预测模型,以回答更难的问题,并进一步推广到商业及经济领域。”罗斯柴尔德对《环球企业家》说。

如此令人瞠目的预测并非孤例。2012年的美国大选,罗斯柴尔德就成功预测奥巴马的当选。更令人匪夷所思的是,他居然用1.27亿张选票建构了一个变化莫测的总统大选模型,其在51个选区中成功预测50个选区的选举结果,最终准确率高达98%。“我总是对数据很感兴趣。我一直以来都积极的参与到政治活动中。”罗斯柴尔德对《环球企业家》说。

事实上,罗斯柴尔德的数据预测博客(Predict Wise)已涉及政治、体育、娱乐、经济等方面的十余种预测。相比于其他一成不变固定结果的预测,该预测更偏向于根据事件变化而显示实时结果的可能性—这是其颠覆传统预测模型的秘密所在。罗斯柴尔德会告诉你,现在迈阿密热火队获得2013年NBA联赛总冠军的可能性最高,为43.2%。

还想期待什么榜单提前出炉?赶紧把罗斯柴尔德的博客添加在收藏夹里吧!

颠覆者

罗斯柴尔德的预测工作始于2008年的美国总统大选。当时,他找到了一种简单聚合的方法,并自称此法可以胜过现在所有的预测模 型。

从美国大选入手源于其对政治的兴趣。罗斯柴尔德至今依然清楚地记得,2004年美国总统大选时,其身边的朋友会对大选结果进行各种猜测和八卦,各种预测数据会被广泛传播。很多人会拿着这些完全没有依据的数据随意提问,甚至还利用众包网站寻找答案。为了参与其中,罗斯柴尔德从2006年开始每天关注此类信息并从事研究,工具之一即是微软Xbox游戏平台。

罗斯柴尔德起初并未想过可借助该平台建立自己的民意调查问卷库,甚至还能收到数百万的反馈结果。鲜为人知的是,罗斯柴尔德在读研究生期间,曾苦苦央求一家著名的调研公司,在其问卷调查中补充两个由其提出的问题。虽然,他最后只拿到了1000份答卷,但这一收获已令罗斯柴尔德兴奋良久。

\

在美国,预测总统大选的数据机构和个人不胜枚举,甚至由此还诞生了一批有影响力的数学家,抽样调查方法的创始人、著名民意调查者乔治·盖洛普(Gallup GeorgeHorace)即是其中的佼佼者。在罗斯柴尔德看来,自从盖洛普通过在代表性人群中随机抽样来创建高效的数据预测起,收集民意调查数据的方法在过去的75年内几乎没有什么改变。

罗斯柴尔德显然是旧传统的颠覆者。其所建立的数据模型在Xbox的帮助下可以打破传统的研究方法,建立更加经济有效的数据模型。他为这种全新的预测模型建立了四个衡量指标,即相关性、实时性、准确性、成本效率。

难点之一便是相关性。例如在选举中,人们更喜欢讨论在全国范围内预计为奥巴马投票的人数比例,但事实上这并非大家最关心的问题,人们希望判断谁最可能会赢,而仅凭人数比例多寡往往难以断定输赢。因此,在设计问题时,预测者必须考虑数据的相关性。

实时性是指预测情况是不断更新的。例如北京时间下午两点可能会发生重大事件,股市的情况也会随之改变。当人们看到预测时,结果也会随着时间而动态变化—罗斯柴尔德电脑中的预测界面显示很像是一张股价波动的K线图。人们可以在想要的时间点得到当时的结果,社交网站的数据引入对结果准确性影响颇大。

准确性更加偏重于事件发生的可能性。例如在奥斯卡最佳导演奖角逐中,5个提名候选人均可能得奖。大家想知道哪个人得奖的可能性最接近100%,但预测结果显示可能性各占50%。影响准确性的三个关键性指标在于错误有多大(你对每个获胜者的获胜几率预测离100%有多远),预测的准确程度如何(若声称80%的可能性,其发生几率是否就是80%),以及这一预测的未来表现如何。

罗斯柴尔德的办法是选择成本效益最高的方式。这将确保其准确预测其他更多的事。

此类研究的最大难点在于数据收集。在样本采集中,四种不同类型的数据显得颇为重要:投票数据、预测市场数据、基础数据、用户生成数据。罗斯柴尔德对数据的要求近乎苛刻。他表示,虽然采集新的数据源可能会花上几个星期,但这些数据若不能令预测更加高效,他就不会让这些数据进入预测模型。

别以为这样就可以预测奥斯卡奖了。事实上,奥斯卡的预测迥异于政治预测。因为相对于政治数据而言,奥斯卡的原始数据非常有限,缺乏投票数据后,预测市场数据将更加艰难。另一 个难点在于,奥斯卡共有24个奖项,共需预测24个类别的结果,奖项结果之间又会相互影响形成所谓的突发事件。例如最佳 影片奖和最佳改编剧本奖之间有着强烈的相关性,所以《林肯》和《逃离德黑兰》在这两部影片的获奖可能性趋势波动相 似。

团队作战是罗斯柴尔德的另一个秘笈。他庆幸没有与其他的经济学家一样进行着枯燥无味的学术研究,而是来到了微软纽约研究院,并与同事优势互补。毫无疑问,在传统印象中,数据预测似乎是永无止境地面对电脑,宅在办公室。但对罗斯柴尔德而言,数据可以让他接触到更多的人。即使在吃午饭的时候,他也能与同事的随意讨论中,蹦出许多新鲜想法。

一个可以佐证的案例是他曾需在45天内完成75万次采访,提出数百个问题。如此庞大而繁琐的数据处理令其手足无措。同事听说后则帮他建立系统自动程序,通过编程就能轻松解决困惑。此外,团队中还有社会学家和心理学家,能够设计真正有效的图形和计算机界面捕捉用户心理,搜索专家亦会帮助其研究社交媒体数据。罗斯柴尔德甚至可以根据研究需要,与微软雷德蒙、北京、班加罗尔等研究院同事合作,随时组建团队。这种轻松的氛围极易激发创造力,微软很多产品均诞生于微软研究院,例如Bing搜索、Windows 8等。

模型复制

罗斯柴尔德从事预测的目的并非只为好玩。

要知道每次美国总统大选,各党派都会投入数十亿美元的竞选资金。如果有更加经济的方法提供更加准确的预测,就可以更加高效地分配资源,把这批经费用于最为需要的地方。而对奥斯卡这种娱乐项目的预测,最大的意义在于令罗斯柴尔德根据反馈结果,尝试不同类型的数据建模。

令他兴奋的理由是奥斯卡数据建模被证明是可扩展的。他可以继续用此类方法来研究其他问题,例如Windows 8是否会大卖。此类商业化应用比预测公众事件更加复杂,但亦是其未来的预测方向之一。虽然罗斯柴尔德并未命中本届奥斯卡的所有奖项,但他仍然坚信自己的数据模型是同类中最好的。

“我的目的不仅是更准确地预测政治或娱乐事件,而是用这些测试来验证我的模型。这样我就能继续预测难度更高的商业和经济问题。” 罗斯柴尔德对《环球企业家》说。

与微软其他产品的合作,亦是其将研究投入实践的方式之一。他曾利用Xbox组织民意调查,亦曾利用Bing收集民调数据及社交网络数据。借助微软云计算产品Office365的数据可视化,罗斯柴尔德的研究成果已被广泛运用。现在如果想提前知道奥斯卡最佳女主角是谁,不妨通过一款名为“奥斯卡预测器”的Excel应用瞧瞧专业预测网站PredictWise的预测结果。

上述可能引发公众对隐私保密的忧虑。但罗斯柴尔德并不担心。他认为微软研究院对用户隐私有着严格的保护,更重要的是类似于政治、娱乐这类公众化问题,不会涉及用户的私人数据。现实的情况则是罗斯柴尔德常苦恼于现有的数据资料太多而不知如何选择,而非数据匮乏。

目前大数据仍未充分应用于回答人们未来所真正关注的问题,通常只回答过去人们关心的问题。这是从事此类数据预测最易犯的错误。社交媒体提供了大量的数据,但数据越多,并不代表其越有用。“的确,数据可以回答越来越难的问题,但过程会比想象中慢很多。” 罗斯柴尔德解释说。

但显而易见,上述问题并不会阻碍罗斯柴尔德探寻大数据的准确性和应用范围。罗斯柴尔德希望回答的是在未来5至10年里,什么形式的数据对人们最有价值。

值得一提的是,精准数据预测也存在着社会风险,现在并 没有标准答案。未来大数据预测究竟会朝着更加精准的方向 进化,还是像《连线》杂志前主编凯文·凯利(Kevin Kelly)所 说的“只是由经验规则引导的有限的前瞻”?一切尚待检 验。