财新传媒 财新传媒

阅读:0
听报道

电视节目《星际迷航 (Star Trek)》 曾让我们充满期待:心灵传动,食物“复制器”和另一种不靠谱的创造 — 数据科学家。该节目还向我们介绍了达塔(Data),一个能获取生成的每一条信息的人形机器人,而史波克(Spock)本人不仅是一名尖耳朵的瓦肯人,对于以前所未有的方式挖掘信息力量的一个角色来说,他还是酷爱逻辑的原型。

扮演领导角色的人应精于海量数据的组织、形象化和转化,这种想法不再局限于科幻迷。如今,当企业内的前进道路上出现歧途时,对于该怎么做,数据科学家发挥着重要作用,RelatelQ 的产品副总裁 DJ 帕提尔(DJ Patil)这样表示。在 LinkedIn 工作期间,他帮助创造了“数据科学家”这个词。“各公司在会议室里都需要一个史波克,”他补充说。

公司无论大小,都在留意这条建议,因为他们一直都明白“大数据”的战略意义。它不再仅仅是一个时髦术语:从理解客户到优化供应链,每一件事,数据、数据科学和数据分析都是绝对关键的工具。有鉴于此,公司、政府及其他机构都干劲十足地投入到了数据科学技术和专业技术中。

最近 20 年来,数据科学的焦点已经从数据收集转向数据利用。从数据中,我们能学到什么?它在向我们说明什么?我们该如何以一种引导战略行动的方式来组织、获取数据,并使其形象化?随着数据和用于梳理它们的算法变得更强大,在未来,这会有怎样的变化?

即将在中国天津召开的世界经济论坛新领军者年会上,全球工业和政府领导人要解决的问题中,上述问题仅是其中几个。论坛全球青年领袖兼 Enlitic 的首席执行官杰里米·霍华德(Jeremy Howard),已经从事数据科学工作长达 20 年,亲眼目睹了社会看待信息收集的方式上发生的地震式转变。“20 年前,鲜有系统从数据中收集并获取信息,”他说。他接着说:企业内“也没有适用于数据使用的系统和战略”。

但所有这一切在谷歌的影响下发生了改变,在数据科学研究不仅可以怎样更好地开展,而且特定种类的数据可以怎样更高效地收集、理解并用于帮助业务上,谷歌充当着行为榜样,霍华德说道。“特别是,该公司开发了一种称为 MapReduce 的软件技术,用来处理庞大的数据宝藏,该技术将任务分解成许多较小的组成部分,以在多台机器上执行任务,”《经济学家》(The Economist) 杂志的数据编辑肯尼斯·库奇尔(Kenneth Cukier)说道。这种开源版本的新颖处理方式称为 Hadoop,并且已得到非常普遍的采用。

“如今,数百家企业利用数据科学改变了他们所从事的行业,”霍华德表示,“现在,我们有更多的工具用来处理数据并从中获取深刻见解,这太让人激动了!”

数据革命的影响正通过行业与社会一步步往外扩展。“以前用数据格式一直无法呈现的事物,现在我们都能数据化了,”库奇尔补充道,“我们之所以能做到这件事,是因为能以过去几乎无法想象的方法,较低成本地收集、存储并处理数据。”自动驾驶汽车便是一个明显的例子。“我们将明确教导一台车怎样驾驶的问题,转化为输入大量数据,让这台车计算出在不同情况下应该做什么,”他说。

在另一方面,一家旨在让发展资金更透明的创新实验室 AidData,根据非洲地区正接受财政援助的地方的 GPS 数据,提供了详细的地图。该地图揭示,在当局认为的援助去向和援助实际到达的地方之间,存在明显的“不符之处”。“我们简直惊呆了,”库奇尔说,“在肯尼亚,地图显示,尽管有数千万美元的国际发展援助资金流入了该国,但有很多部门和地方并没有获得财政支援。”以前,这些援助机构没有发现这一点是因为过去无法进行计算和统计。现在,以前没有的庞大数据集,结合分析数据的新方法,已经开通了新的交流、行动和资本的渠道。

Jeremy_Howard_Chinese_

 

 

 

 

 

 

 

 

算法的改变

这次革命的一大推动力量是一种新算法,它让我们能够处理包括视频、图像甚至是声音在内的海量资源的信息,霍华德表示。他预测,“深度学习”算法将改变一切,很可能不仅仅是互联网。该算法是一个算法子群,可应用于各个领域,比如面部识别、自动语音识别、自然语言处理、书写和音频/视频信号识别等。

尽管深度学习出现于学术圈已有 40 年时间,但在很大程度上,它并不引人注目。直到几年前,当时,一群来自斯坦福、普林斯顿和哥伦比亚大学的科学家帮助发起了 ImageNet 大规模视觉识别挑战,在该挑战中,竞赛者寻求设计能够快速识别图像中的对象的算法。2012 年,多伦多大学的一组研究人员利用深度学习算法显著提高了给图像中的对象分类的准确性,2014 年的竞赛结果在准确性上展示出更多进步。“自那以后,每个人都放下自己正在做的事情,投身于该技术,”霍华德说。谷歌、百度和 Facebook 等公司都投入到了该技术中。

但是,尽管深度学习算法有可能给数据科学世界带来一场颠覆性的革命,但该革命才刚刚开始。在学术界,很多新方法已经引进并采用了它。例如,霍华德最近会见了诺贝尔奖获得者天体物理学家布莱恩·施密特(Brian Schmidt),澳大利亚国立大学的一位教授,并与其探讨了如何利用深度学习来更好地了解宇宙。

学术界之外的影响越来越广泛。自动驾驶汽车已经受到我们的关注,这种车能识别交通信号并做出恰当的反应。随着算法让放射科医生能更好地了解并解释 CT 和 X 光扫描,医疗诊断会变得更精确。Skype 正在试验能在个人与群组之间发送实时语言翻译的语音识别算法。

行为榜样

尽管在日常应用中抛头露面之前,深度学习还有一段路要走,但企业界内部已经发生了一场文化转变,开始认识到数据科学的这种日益重要性。

“有史以来第一次,我们在[战略性地]使用大数据的行业中有了行为榜样,”霍华德说。曾几何时,大数据专家可能一直闷在学术机构里,但现在,越来越多的行业领袖,比如谷歌和沃尔玛,都投入到了大数据基础设施和数据科学专业技术中。更重要的是,我们开始看到,在董事会上,数据科学专家充当着公司的“史波克”。某些大公司和政府机构,在他们的会议室里,已经有了数据科学家,帕提尔表示。但革命步伐是缓慢的。“会议室里的人之所以在那里是因为他们的主要专业知识不是数据专业知识,”霍华德补充说,“因此,很难让他们信任数据驱动的方法,因为这不是他们过去开展业务所采用的方式。”

那么,巨变发生在哪里?哪里有在高管层及更高层次上发挥领导作用的数据科学家?不必惊讶,在反应灵敏的初创企业世界里,便可以发现他们的身影。但是,霍华德表示,对于让数据科学家占据富有影响力的地位,行业巨头们始终怀有戒心。

陈述方式的改变

新闻业是已经被数据科学根本转变的一个行业。按照库奇尔的说法,新闻业在过去更多是一种寻找轶事的事业。发生某些事情后,记者便会去采访当事人,并且/或者报道一种与所发生事件相关的趋势。数据将为这种报道提供支持。“我们是观察结果的受害者,如果我们无所不在,这就太好了,”他说。

但是,我们经历了 180 度的大转变。“现在,数据是报道的基础,而轶事只是让报道更有声有色,”他说,“新闻业转变为数据新闻业,原因是,我们现在可以在数据的基础上进行报道。”有更多的信息和算法可用来帮助从数据中提取价值。得益于更好的成像程序,我们现在还能更形象地呈现报道,包括用图表、图形和对数据的形象化转述。

在该领域,FiveThirtyEight.com 的创始人纳特·希尔福(Nate Silver)已率先发起冲锋。他开始使用数据来预测棒球比赛,后来又用其预测 2008 年的美国总统大选,现在,他运营着一个团队,成员包括记者、设计师、多媒体专家、量化分析师和数据库拓展专员。他们证明,人们渴求新闻和硬数据。

大数据带来大责任

对于使用大数据改进世界状况的潜力,有很多乐观的理由。从可以追踪未披露的政治或人道主义危机的 Instagram 帖子上的地理标签,到有助于管理大规模庄稼的传感器网络,再到用来确保选举公正的生物识别,数据指向了一个更多理解、更开放和更易触及的世界。

“当每个人都能获得数据时,你便可以创造一个更稳健、理性上更坦诚的环境,”帕提尔说道。电子病历 (EMR) 的出现可能会给医疗科学带来一场革命性的转变,因为疾病模式和诊断将更容易追踪。“只要我们能拆除数据孤岛,”霍华德强调说,“我们就拥有拯救亿万生命的算法。”。由于可靠性、安全性和隐私问题,“没人说,让每个人都能得到这些数据,”霍华德说,“但是,我希望看到,我们能更好地就数据分享的好处展开交流。”

的确,对于任何创新来说,都有阴暗的一面:最近的 NSA 丑闻引发了关于信息收集和隐私的尖锐问题。随着数据提供的强大力量而来的是重大的责任。

“我们不能对数据犹豫不决,”帕提尔警告说。但是数据能帮助我们阐明问题,然后有可能解决它们。此外,判断永远无法被算法替代:你必须明白什么时候应忽略数据,比如这样的时候:你的 GPS 告诉你向右转,开过那座悬崖。“数据为我们的判断提供参考信息,但直觉也能帮助我们,”帕提尔说。而这种事,即使史波克也会承认完全符合逻辑。

———————————————————————————————-

作者:阿莱娜·莱文(Alaina Levine)是一位科学作家与撰稿人。

原文刊载于世界经济论坛博客 (http://forumblog.org/china/)

世界经济论坛博客是一个独立且中立的平台,旨在集合各方人士观点讨论全球、区域及行业性重要话题。转载请注明来源。

话题:



0

推荐

达沃斯博客

达沃斯博客

1014篇文章 5年前更新

本博客为世界经济论坛中文博客在财新网的镜像博客。这里是一个独立且中立的平台,旨在集合各方人士观点讨论全球、区域及行业性重要话题。

文章