“大数据”成为2018年的关键词汇,被认为将会带来生活、工作与思维的重大变革。
       谷歌、亚马逊等互联网企业在利用大数据方面所做的工作使数据行业看到了新的发展路径。大数据在教育、医疗、汽车、服务性行业的应用所彰显的能量使企业、研究者对大数据的未来充满信心。《连线》杂志主编克里斯·安德森甚至早在2008年就断言数据洪流将会带来理论的终结,科学方法将会过时,其原话是“面对大规模数据,科学家“假设、模型、检验”的方法变得过时了”。

       技术的变迁在任何行业都是值得欢欣鼓舞的,但不妨在此处借用苏珊·朗格在《哲学新视野》中的论述表达一点谨慎:

       某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速的抓住它们,作为进入某种新实证科学的法宝,作为可用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间把所有东西都挤到了一边。

       苏珊·朗格认为这是由于“所有敏感而活跃的人都立即致力于对它进行开发这个事实造成的”,这一论述放置在今日对大数据的狂热崇拜之中也极为恰当,大数据的流行并不意味着其它的理解与思考方式就不再适合存在,正如微软的Mundie先生所说,   “以数据为中心的经济还处于发展初期,你可以看到它的轮廓,但它的技术上的、基础结构的、甚至商业模型的影响还没有被完全理解。”但不可否认的是人们确实将更多的学术兴趣转移到这一领域,而一旦人们能够以审慎的思路开始清晰的阐述它们,即便一时不能提供完美的解决方案,至少也是能让人有所获益的途径。

       人们在谈论大数据的美好图景时当然没有完全忘记它可能带来的风险,但担忧多集中于大数据的后果,如信息安全,而没有集中于如何看待大数据本身。本文将就当前尤其国内技术环境下,进入大数据时代所面临的风险和存在的问题做简要分析,以希望能厘清概念,澄清一些误解。

       大数据的面临的风险主要表现在以下几方面:
       一、海量数据的计算速度

       零售业巨头沃尔玛每小时处理超过一百万客户交易,输入数据库中的数据预计超过2.5PB(拍字节,2的50次方)——相当于美国国会图书馆书籍存量的167倍,通信系统制造商思科预计,到2013年因特网上流动的数据量每年将达到667EB(艾字节,2的60次方),数据增长的速度将持续超过承载其传送的网络发展速度。

       来自淘宝的数据统计显示,他们一天产生的数据量即可达到甚至超过30TB,这仅仅是一家互联网公司一日之内的数据量,处理如此体量的数据,首先面临的就是技术方面的问题。海量的交易数据、交互数据使得大数据在规模和复杂程度上超出了常用技术按照合理的成本和时限抓取、存储及分析这些数据集的能力。

       现在谈到大数据,难以避免言必称美国的倾向,那么美国究竟如何应对这这方面的问题呢?

       美国政府六个部门启动的大数据研究计划中,包括:

       • DARPA的大数据研究项目:多尺度异常检测项目,旨在解决大规模数据集的异常检测和特征化;网络内部威胁计划,旨在通过分析传感器和其他来源的信息,进行网络威胁和非常规战争行为的自动识别; Machine Reading项目,旨在实现人工智能的应用和发展学习系统,对自然文本进行知识插入。

       • NSF的大数据研究内容:从大量、多样、分散和异构的数据集中提取有用信息的核心技术;开发一种以统一的理论框架为原则的统计方法和可伸缩的网络模型算法,以区别适合随机性网络的方法。

       • 国家人文基金会(NEH)项目包括:分析大数据的变化对人文社会科学的影响,如数字化的书籍和报纸数据库,从网络搜索,传感器和手机记录交易数据。

       • 能源部(DOE)的大数据研究项目包括:机器学习、数据流的实时分析、非线性随机的数据缩减技术和可扩展的统计分析技术。

       从这份研究计划可以看出,绝大多数研究项目都是应对大数据带来的技术挑战,目前我们所使用的数据库技术诞生于上世纪70年代,大数据时代首先需要解决的是整个IT结构的重新架构,提升对不断增长的海量数据的存储、处理能力。

       笔者最早进入数据分析领域是在1986年,使用的机器是长城,520,小的IBM机器,在完成数据输入、问卷输入之后,做一个最简单的命令操作,需要等三个小时之后才能出结果,我们现在面对大数据时的处理能力,形象化来讲就是当年PC机对小数据的处理能力。

       这也就是大数据常和云计算联系在一起的原因,实时的大型数据集分析至少需要使用像MapReduce和Hadoop那样的分析技术并有数千台电脑同时工作,因为想做到实时分析,需要在数据库中空出分析工作空间,控制对资源和数据的访问,同时不影响生产系统。[8]在现有的技术条件下谈大数据需要充分考虑到硬件设施和分析技术的不足,因为这是前提,这也正是数据中心成为谷歌、亚马逊最高机密的原因,Facebook的开源硬件计划得到众多企业包括国内的腾讯响应的积极响应也是基于这方面的现实需要。

       二、海量数据带来的风险是处处都是假规律

       “如果只就人类的认识是零星、细小的而言,小之中蕴含着智慧,因为人类的认识更多的是依靠实验,而不是依靠了解。最大的危险必然是不顾后果的运用局部知识。”舒马赫在《小的是美好的》一书中用这段话来表达对核能、农业化学物、运输技术大规模运用的担忧,也适用于今日调查行业、企业、研究者对全数据的迷信、忽视抽样所带来的风险。

       对于海量数据数据的计算能力随着分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等新技术的普及可以解决,但这只是关于数据处理的第一步(甚至这种处理方式本身都存在很大风险),还并不是最大的风险,大数据最为严重的风险存在于数据分析层面。

       三、封闭数据与断裂数据

       封闭数据和断裂数据所带来的问题在第二部分已经提到,它们会产生虚假的统计学关系,影响分析结果的准确性和可检验性,下面具体对这两方面的问题做一个分析。

       (一)封闭数据使数据缺乏多样化

       “数据增值的关键在于整合,但自由整合的前提是数据的开放。开放数据是指将原始的数据及其相关元数据以可以下载的电子格式放在互联网上,让其他方自由使用。开放数据和公开数据是两个不同的概念,公开是信息层面的,开放是数据库层面的。开放数据的意义,不仅仅是满足公民的知情权,更在于让大数据时代最重要的生产资料数据自由地流动起来,以催生创新,推动知识经济和网络经济的发展。”

       开放是大数据的题中之义,也是我国政府、企业在大数据时代必须适应的转变,而我们目前面临的情况仍然是一个平台一个数据,数据壁垒造成的局面是:有所有数据,同时又什么数都缺。

       比如在医疗领域,大数据被认为为医疗领域带来希望 ---计算机可以在模仿人类专家在直觉方面更进一步,而不必依赖EBM这样的小数据集了。医疗信息体系仍在使用陈旧的数据屏障,在这个体系中,只有通过审核的、标准的、被编辑过的数据才能被接收,由于缺乏一致性,许多可用的数据被拒之门外。这个屏障创造了同质化的数据,而排除了能使系统真正有用的多样性。

       再以新浪、搜狐、网易、腾讯四大微博的数据平台为例,四家公司的数据各自为阵,相互独立,关于微博用户行为分析都是基于对自己现有用户的分析,这种封闭的数据环境下,很多层面的具体分析都将受到很大的局限,比如重叠用户的分析,什么特征的人群会只在一个平台上开设账号,什么特征的人会在不同平台上都开设账号,在不同平台上使用风格是否相同,在不同账号下活跃度是否相同,影响因素是什么?这是在封闭的数据环境下无法进行分析的。

       数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此,因此我们需要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。

       (二)断裂数据使数据缺乏结构化

       封闭数据使我们无法看到多样化的数据,断裂数据则使数据缺乏结构化。来自IDC的报告显示,2012年全球数字信息中90%的数据都是视频、声音和图像文件这样的非结构化数据,缺乏结构化本身是可以通过新技术解决的问题,正因为如此才使这个问题变得棘手。对新技术的过分追逐,一方面会使得数据本身的真实性、完整性遭到破坏,另一方面会使对数据背后的人和生活意义的分析得不到充分重视。

       1.行为背后看不见人,缺失生活意义。

       以淘宝为例,当淘宝想研究“究竟是什么人”在淘宝上开店的时候,他们发现并不像想象中的那么容易。

       在淘宝公司的实时地图上,可以利用GPS系统清晰的知道每一秒全国各地正在发生的交易,但是对于这些人的族群特征,实时地图并不能告诉他们更多。同样的问题出现在腾讯游戏部门的用户研究中,他们并不能从实时的监测中知道是谁在玩他们的游戏,他们有什么爱好、是什么性格、为什么喜欢一款游戏?他们知道的只是一个ID账号,这就是断裂数据带来的问题:表面上全面,实际上都是片段式的数据。全数据确实可以在一定程度上掌握人的行为,但是无法知道是什么样的人的行为。明白这一点,就可以理解为什么谷歌会推出Google+,以获取具体的用户信息,包括姓名、爱好、朋友、身份等具体数据。任何一个平台都有其数据收集方面的优势,也有其短板,表面上拥有海量数据,但其实都只是一个片段,缺乏连续性和可识别性。

       巴拉巴西在《爆发》中介绍了一个网站LifeLinear,用户通过在搜索框中输入自己的名字就可以查到自己一天任何时间任何地点的监控录像,无论在哪儿,你的行踪都会被网站记录下来。这是作者虚拟的一个网站,但信以为真并输入网站名字进行搜索的人不在少数,因为理论上它是可以实现的,一是借助城市中的无线监视系统,反馈数据到单条检索数据库中,指示计算机追踪所有的人。二是,也是最为关键的是每个人都有固定的生活习惯、行为规律,系统可以据此为每个人建立行为模型,然后预测你可能出现的地方,并在那儿等你。

       这样一个系统的建立依靠技术系统,但更主要的是对每一个个体的全面了解和分析,假设、模型、检验缺一不可。在这本书中巴拉巴西介绍的另一位数据公开者,他把自己的位置数据、财产信息都传到网上,但是关于这个人你一无所知,因为没有任何关于他性格、喜好等个性化信息,是“什么都有,但什么都缺”的典型案例。

       2.大量的非结构化数据颠覆原来分析的基本范式。

       在大数据时代,需要处理的数据不再是传统意义上的数据,而是文字、图片、音频视频等种类多样的数据,大量的非机构化数据对数据分析提出了新的挑战,因为只有能被定义的数据才是有价值的信息。

       使用人人网的用户大概不会陌生,在个人主页上会出现好友推荐,这很简单,只需要分析用户的好友,找到朋友之间的关联,就可以找到这一点。但是当人人网需要决定在广告位上投放何种广告时,则需要对大量的由用户产生的文字、照片、分享内容与好友的互动进行分析。海量的非结构化、半结构化数据如何加以结构化并从中找出规律,这需要新的算法、新的分析思维。

       四、缺失数据

       奥斯卡·王尔德在1894年说,“如今几乎没有无用的信息,这真悲哀。”严格的说,他一半都没有说对。只有有价值的数据才称得上信息,从数据中获得尽量多的信息并非易事,随着数据量的扩大,缺失数据产生的比例也会相应扩大,尤其当一个样本中出现多项缺失时,会加大处理的难度,除了构造模型失之准确之外,还有时间复杂度方面的问题。

       对所有大数据来讲,分析哪个问题数据量都不够大,对于所有人来讲,数据都是缺失多于正常数。在数据收集和整合过程中采用新技术手段避免这一问题将使这一问题在分析上带来的分险变得更突出,比如BI公司为了避免数据的不完整性采用快速修复技术整合分散数据,这将使我们失去最原始的真实数据,这使得研究者很容易舍弃与假设不符合的数据,也使验证结论变得不再可能。

       比如雀巢在200个国家出售超过十万种产品有55万家供应商,但由于数据库一团糟它并未形成强大的采购议价优势。在一次检查中它发现,在900万条供应商、客户和原材料记录中有差不多一半是过期或重复的,剩下的有三分之一不准确或有缺失。供应商名称有的简写有的不简写,产生了重复记录。[18]这一个案例中就包含了封闭、断裂、缺失数据的问题。

       固然缺失数据可以尝试通过模糊数据集理论得到解决,但许多研究情境对数据的要求是有确定性的。大数据时代需要的不只是全数据、海量数据、实时数据,而是真正的开放、更可能接近精确、着眼于人和社会的分析方法和思路。封闭的数据平台,对断裂数据、缺失数据在分析上构成的风险的忽视会使我们仍然停留在小数据时代,更糟糕的是,数据还在小数据时代,方法上却已经在单纯鼓吹各种应对大数据的新技术,这种不匹配造成的混乱比大数据本身带来的混乱还要危险。

       在一定意义上,我们可以运用已收集的数据,先来了解如何把事情做得更好。从这个角度上,我们再来考虑创新和大数据应用。毕竟,大数据产生影响的不只是通过协同过滤技术来预测你需要什么产品,也不只是什么时候买机票会更划算一些,这只是使人类和商业变得更聪明有趣的一个方面而已,纽约大学商务教授Sinan Aral说:“科学革命之前通常是测量工具的革命”,[19]大数据如此汹涌的发展之势和席卷一切的雄心势必将会影响到科学理论研究领域,这也是为什么我们需要保持一点冷静和审慎判断的原因。此外,大数据在推动信息共享,促进社会进步方面显示出来的潜力也值得我们为更完美的解决方案努力。

       诚如格尔兹所说:“热力学第二原理、自然选择原理、无意识动机概念,或生产方式的组织并没有说明所有的东西,甚至连人的事情都没有一一说明,但他们毕竟解释了某些事物;认识到这一点,我们的注意力也就转向确定这些事物到底是什么,转向使我们摆脱这些观念在其最盛极一时之际导致的大量伪科学的缠绕。”在文章的最后,借用格尔兹在《文化的解释》提出的观点,表达对大数据研究的看法,因为时至今日,大数据这个概念的模糊之处仍多于其所昭示的,可待完善与研究之处仍然很多,我们的工作才刚开始。