大数据定义解析:从数量到预测信号的全面探讨

日期: 2025-01-02 20:02:46 |浏览: 18|编号: 63811

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

大数据定义解析:从数量到预测信号的全面探讨

什么是大数据

“大数据”一词已变得无处不在,但对该概念的混淆仍然存在。有人从数量大、速度快、类型多的特点来定义大数据;有人从数据量大、速度快、类型多的特点来定义大数据;有些人将大数据视为一项新技术,例如大数据处理技术Hadoop和非关系型数据库NoSQL;有人从大数据与数据的区别角度提出,大数据不仅包括人们过去收集、存储和分析的交易数据,还包括人们点击网页等行为。从互联网获得的交互数据和机器自动收集的观测数据;其他人则认为大数据是一种新的预测信号。在传统情况下,当数据被记录后,人们无法再对它们采取任何行动,并且组织不断地管理“失败数据”,而在“新世界”中,组织可以使用信号数据来预测将要发生的情况并进行干预以改善数据。情况。

值得注意的是,无论如何定义,几乎业内所有人都普遍认为,大数据不仅仅是更多的数据,而是大数据是一个大事件,将在未来几年带来重大机遇。

大数据和数据有什么区别

“大数据”一词翻译自英文“Big Data”。很多文章在介绍大数据概念时,重点强调它的“大”,即需要处理的信息量太大,已经超出了一般计算机处理数据时可以使用的内存量,因此工程师必须改进处理数据的工具。

然而,大数据有多少年历史了?这个问题没有标准答案,因为大数据的标准在不断调整。麦肯锡全球研究院报告对大数据的定义是:大数据是指规模超出传统数据库软件工具捕获、存储、管理和分析能力的数据组。这个定义是故意主观的,也就是说,我们不使用超过 TB 的数据作为大数据的标准。我们假设随着时间和技术的进步,大数据量将继续增加。还应该注意的是,不同行业的定义可能有所不同,具体取决于常见的软件工具类型以及特定行业的数据集的典型大小。因此,当今许多行业的大数据规模可能达到数十到数千 TB。

有些人可能会有这样的疑问:大数据不就是数据分析的另一种说法吗?大数据和数据有什么区别?与传统的数据挖掘相比,大数据与其说是量的进步,不如说是质的飞跃。人们在大数据基础上能做的事情,在小规模数据基础上是做不到的。

Gartner报告认为,大数据是海量、高增长、多样化的信息资产,需要新的处理模型才能拥有更强的决策力、洞察力和流程优化能力。这个概念虽然简单,却有着丰富的内涵:一是认为大数据是一种信息资产;其次,这种信息资产具有海量、高增长率、多元化的属性;第三,指出大数据的应用价值和创新意义包括更强的决策力、洞察力和流程优化能力。

笔者比较认同Knuth的定义,将大数据视为一种策略和习惯,一种新的世界观和方法论。例如,无需分发口腔试纸、无需联系医院,谷歌就可以根据大量真实病例给出与流感情况一致的结果,而且比CDC领先两周,因为它分析了数千亿数据。建立了强大的预测模型。从2009年10月开始,“谷歌流感趋势”网站开始提供全球每周流感疫情预测。对于数据比较完整的国家,预测可以精确到省份,并且可以显示七年的历史数据。

另一个代表性的例子发生在能量测量领域。美国软件公司Opower已与多家电力公司合作,在数百万家庭安装智能电表,每15分钟读取一次用电数据。据此,Opower每月向每个家庭提供一份个性化报告,将家庭的电费账单与周边邻居进行比较,显示该家庭的用电量在美国同类家庭中的水平,以鼓励节约。预计每年可为美国消费者节省 5 亿美元的电费。可见,大数据已经成为政府节能减排的千里眼和千手,并深入到千家万户并定制解决方案,这在家庭抄电表的传统工作方式下简直是不可想象的。

开启数据利用的想象

分析师 Matt Aslett 将大数据定义为“以前由于技术限制而被忽略的数据”。确实,虽然从数据中发现价值的实践由来已久,但真正到了大数据时代,数据的价值才被真正发现,人们有了用数据说话、用数据做决策的意识,用数据来管理、用数据来创新得到了真正的体现。唤醒。

置顶网副主编赵晓敏提出了一个非常有趣的观点。他认为:“大数据的出现,标志着人类对数据的利用进入了一个新的阶段。它代表一种概念(数据能量)和一种思想(从数据采集到数据分析到数据呈现的整体概念)。 )以及一系列新工具(汇集、统一、处理、分析和呈现结构化和非结构化数据以及语义和机器数据的工具)。它赋予人类认知数据的新能力,并进一步开辟了可能性。人类在数据利用方面的想象空间。”

赵小民进一步阐述,如果你看看地球上的各种能源,你会发现大数据与它们有很多相似之处。物质成为能量的前提在于人类对物质的认识。远古时期,人类因闪电引火而发现了火和木两种能源。随着人类文明的进步,人类逐渐发现了越来越多的能源,如煤炭、天然气、石油、太阳能等。它们在地球上静静地存在了亿万年,人类掌握了相应的技术和工具后才被利用。数据也是如此。如果数据有一个生成/采集-应用/处理-保存/管理-分析/挖掘-然后保存或删除的循环,那么它从产生的那一刻起就有了它应有的价值。这仅取决于您发现它们的能力。这需要新的概念、知识、技术和相应的工具。即使原始人知道地下有石油,他们也无法开采。同样的原理也适用于所谓的数据分析。

从人类发展史来看,不断发现新能源是不言而喻的命运。当我们掌握了越来越多先进概念的基础,并基于它们开发出越来越先进的工具时,自然就会出现新的惊喜。就像汽车刚发明时一样,没有人会想到电和水会成为汽车的可行燃料。从这个角度来看,当前大数据所带来的种种奇迹,正是人类在数据采集、管理和分析领域的进步。这是必然的,不是人类的顿悟。

新的数据技术不仅是数据爆炸的基础,也提供了应对数据爆炸的解决方案。信息和通信技术的融合和发展,廉价存储、传感器和数据采集技术的快速发展,通过云和虚拟化存储设施增加信息链接,以及创新的软件和分析工具是驱动大数据发展的技术基础。 。这些数据分析技术跨越数据库、统计学和机器学习等学科。

从某种角度来看,大数据实际上是人类能源发展历史在信息技术领域的再现和映射。大数据中提到的数据采集、聚合、保存、管理、分析和呈现,对应着能源的探索、挖掘、聚合、存储、提炼和利用。从数据利用的愿景来看,大数据与原来的数据仓库、数据挖掘、商业智能等概念是一样的。它是人类信息技术发展到一定阶段的必然结果。它赋予了人类新的数据认知能力,进一步打开了人类在数据利用上的想象空间。

第三次工业革命的战略资源

美国经济学家杰里米·里夫金提出了第三次工业革命的概念。他认为,通信技术和能源技术等基础设施的变革是工业革命的主要驱动力,引发了经济社会的变革。互联网技术与可再生能源的结合正在催生第三次工业革命的基础设施——能源物联网。第三次工业革命的主要内容是解决上一次工业革命没有解决的问题。

在农业化浪潮中,木匠也许是制作家具的好手,但对于扩大再生产、创造社会价值却是外行。在工业化浪潮中,生产者有能力和环境大规模生产对社会有用的东西。但由于信息不对称,生产者在生产和服务中往往存在盲目性。生产者缺乏信息,不知道消费者需要什么。他们常常不遗余力地生产市场不需要的东西。就是他们创造了很多有价值但无意义的东西,所以他们无法实现价值。因此,第三次工业革命的使命是通过信息化、数据化实现价值最大化,通过个体之间一对一的关系发展起来,以数据为中介,经济上表现为多样化、差异化、个性化的体验。

2012年4月21日,《经济学人》专题讨论第三次工业革命,强调3D(三维)打印是第三次工业革命的核心驱动力。正如第一次工业革命实现了机器生产替代手工作坊,第二次工业革命实现了规模化生产,以3D打印为代表的数字化制造将推动新软件、新工艺、机器人和个性化网络服务。产品的普及最终将实现大规模定制生产和分散就近生产。

在第三次工业革命中,数据和计算将成为战略资源并发挥重要作用。如果把计算看成是能源,像电力、太阳能一样可以流通的资源,并统一价格收费,我们会用三步计算和五步计算,不关心计算从哪里来,就像我们不知道今天的5度电是来自大亚湾还是三峡。未来,大数据相关技术和能力将成为国家至关重要的核心战略资源。

为了提高中国在第三次工业革命中的发展速度,为下一个经济周期做好准备,我们每个企业、科研团队和政府都有责任通过一些计划有目的地收集、加工和分析。 ,指标数据,IBM(国际商业机器公司)建立了“智慧地球”项目,现在,中国的一些行业(如通信运营商、金融银行企业、政府交通部门)正在制定类似的行业规划来收集和处理通过信息转换处理海量数据。未来,这些数据可能会产生难以想象的数据。要实现价值,当前的企业家和政府部门也需要做好准备。

总之,无论是基于智能电网的能源物联网,还是基于3D打印的数字化制造,大数据都以第三次工业革命的“新石油”的形式存在,是重要的战略资源。可以想象,未来云计算、物联网、大数据将成为基础设施,移动互联网、3D打印技术将成为通用平台,数据分析、机器人等人工智能控制将成为服务手段。那么数据、知识和价值将是按需的。分布式、多元挖矿将成为新经济形态的不竭动力。

3D打印

3D打印是基于计算机三维设计模型。通过软件分层离散化和数控成型系统,将金属粉末、陶瓷粉末、塑料、细胞组织等特殊材料利用激光束、热熔喷嘴等逐层堆积、粘合,最终叠层成型技术,打造出物理性的产品。产品。

普通喷墨打印机将墨水喷射到纸张表面形成二维图像。在3D打印过程中,软件通过计算机辅助设计完成一系列数字切片,并将这些切片的数据传输到3D打印机,3D打印机堆叠连续的薄层,直到形成实体物体。 3D打印机与传统打印机最大的区别在于,它们使用的“墨水”是真正的原材料。有些打印机还可以组合不同的介质,使打印的物体一侧坚硬,另一侧柔软。

这也不同于传统制造业利用模具、车铣等机械加工方法对原材料进行成型、切割,最终生产出成品。 3D打印将三维实体变成多个二维平面,通过对材料进行加工并逐层叠加来生产。 ,大大降低了制造的复杂性。这种数字化制造模式不需要复杂的流程、庞大的机床或大量的人力。任何形状的零件都可以直接从计算机图形数据生成,从而使制造能够扩展到更广泛的生产人员。

科学家们正在使用 3D 打印机来创建简单的活体组织,例如皮肤、肌肉和血管片段,有一天我们也许能够创建大型人体器官,例如肾脏、肝脏甚至心脏。如果生物打印机可以使用患者自己的干细胞,则可以减少器官移植后的排斥反应。人们还可以打印食物。例如,康奈尔大学的科学家已经成功打印了纸杯蛋糕。英国埃克塞特大学的研究人员推出了一款巧克力3D打印机,其成熟产品现已上市。

大数据的特点

2001年,Gartner分析师Doug Laney在与他2001年研究相关的演讲中指出,数据增长在三个方向上存在挑战和机遇:Volume,即有多少数据;和速度。 ,即数据输入输出的速度;多样性,即多样性。

基于Lenny的理论,IBM提出了大数据的4V特征,得到了业界的广泛认可。

一是体量(Volume),即数据巨大,从TB级跃升至PB级;

第二,多样性,即数据种类繁多,不仅包括传统的格式化数据,还包括来自互联网的博客、视频、图片、地理位置信息等;

3、速度,即处理速度快;

第四,Veracity,即追求高质量的数据。尽管不同的学者、不同的研究机构对大数据的定义不同,但这四个基本特征都被广泛提及。

大容量

天文学和遗传学是最先被大数据彻底变革的领域。 2000 年斯隆数字巡天启动时,新墨西哥州的望远镜在短短几周内收集到的数据比天文学史上还要多;一旦智利大视场全景巡天望远镜在2016年投入使用,五天收集的信息量将相当于前者10年的信息档案。 2003年,人类首次破译人类遗传密码,花了10年时间完成了30亿个碱基对的测序; 10年后,世界各地的基因机器可以在15分钟内完成相同的工作量。 。

随着各种便携式设备、物联网、云计算、云存储等技术的发展,人和物体的所有轨迹都可以被记录,数据因此大量产生。移动互联网的核心网络节点是人,不再是网页。每个人都成为了数据生产者,短信、微博、照片、视频都是数据产品;数据来自无数自动化传感器、自动记录设施、生产监控、环境监控、交通监控、安全监控等;从自动流程记录、刷卡机、收银机、电子不停车收费系统、互联网点击、电话拨号等设施,以及各种服务流程登记等,通过收集大量自动或手动生成的数据互联网到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成大数据的海洋。

我们周围有多少数据?数据量增长的速度有多快?许多人试图测量一个准确的数字。

2011 年,马丁·希尔伯特和普里西拉·洛佩兹在《科学》杂志上发表了一篇文章,追踪了 1986 年至 2007 年人类创建、存储和传播的信息量。其研究范围涵盖约60种模拟和数字技术:书籍、图画、信件、电子邮件、照片、音乐、视频(模拟和数字)、电子游戏、电话、汽车导航等。

据他们估计:2007年,人类存储了超过300 EB的数据; 1986年至2007年,全球数据存储能力每年增长23%,双向通信能力每年增长28%,通用计算能力每年增长58%;预计到2013年,全球存储的数据量可达1.2ZB左右。

这么大的数据量意味着什么?据估计,如果将所有这些数据记录在书本中,这些书本可以覆盖整个美国 52 次。如果存储在 CD-ROM 上,这些磁盘可以堆叠成五堆,每堆都可以到达月球。公元前3世纪,希腊时代最著名的图书馆——亚历山大图书馆,竭尽全力地收集了当时它能收集到的文字作品,这些文字作品可以代表它当时在世界上能收集到的知识量。时间。但当数字数据洪流席卷全球时,每个人都可以获得大量的数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍。

多样性

随着传感器、智能设备和社交协作技术的快速发展,组织中的数据变得更加复杂,因为它不仅包括传统的关系数据,还包括来自网页、互联网日志文件(包括点击流数据)、搜索原始数据、半结构化和非结构化数据,例如索引、社交媒体论坛、电子邮件、文档、来自主动和被动系统的传感器数据。

大数据时代,数据格式越来越多样化,涵盖文本、音频、图片、视频、模拟信号等不同类型;数据来源也变得越来越多样化,不仅产生于组织内部运营的各个方面,也有来自组织外部的。例如,在交通领域,北京智能交通分析平台数据来自路网摄像头/传感器、公交车、轨道交通、出租车以及省际客运、旅游、应急交通、停车、汽车租赁等交通行业,以及问卷调查和 GIS 数据。 4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机位置数据每天1800万条,出租车运营数据每天100万条,电子停车收费系统数据每天50万条,定期调查覆盖8万条家庭等,这些数据无论是数量还是速度都已经达到了大数据的规模。探索这些不同形状和速度的数据流之间的相关性,是大数据做以前没有人做过的事情并且可以做以前没有人能够做的事情的机会。

大数据不仅是处理海量数据的有力工具,而且为处理不同来源、不同格式的多样化数据提供了可能。例如,为了让计算机理解人类的意图,人类必须以计算机能够理解的形式告诉计算机所要解决问题的思路、方法和手段,这样计算机才能按部就班地工作根据人类的指令来完成某种特定的任务。任务。过去,人们只能通过编程等标准化计算机语言来发出指令。随着自然语言处理技术的发展,人们可以利用计算机来处理自然语言,实现人与计算机基于文本和语音的有效沟通。为此,一家专门提供结构化语言解决方案的组织应运而生——语言数据公司。自然语言无疑是一种新的数据源,也是一种更加复杂多样的数据。它包含大量的省略、指称、纠正、重复、强调、反转等语言现象,以及噪音、歧义等清音、口语、音变等音系现象。

Siri是苹果在iPhone上使用的语音控制功能,是多元化数据处理的代表。用户可以通过语音、文字输入等方式与Siri进行交流,调用手机自带的各种应用程序、阅读短信、询问天气、设置闹钟、安排日程,甚至搜索餐馆、餐厅等生活信息。电影院、阅读相关评论,甚至直接进行预订或门票,Siri 都会根据用户默认的家庭住址或位置来判断和过滤搜索结果。为了让 Siri 足够智能,苹果引入了谷歌和维基百科等外部数据源。在语音识别和语音合成方面,未来版本的 Siri 可能会让我们听到中国各地的方言,比如四川、湖南、河南等。

多样化的数据源是大数据的力量所在。例如,交通状况与其他领域的数据之间存在很强的相关性。研究发现,从供水系统数据中可以找到早上的洗浴高峰时间,加上一个偏移量(通常是40-45分钟)可以估算出早上的交通高峰时间;夜间办公楼还可以从电网数据推算出关灯时间集中,加上偏移量来推算夜间堵车时段。

速度快

在数据处理速度方面,有一个众所周知的“1秒定律”,这意味着必须在秒级的时间范围内提供分析结果。超过这个时间,数据就会失去价值。

例如,IBM 有一个广告,内容是“1 秒内你能做什么?” 1秒可检测台湾铁路故障并发出预警;它还可以检测德克萨斯州的停电情况,以避免电网瘫痪;它还可以帮助全球金融公司打击行业欺诈并保护客户利益。

在业务领域,“快”已经渗透到企业智能化运营、管理和决策的各个环节。各种描述“快”的新词出现在业务数据的语境中,例如实时、快如闪电、光速、思想瞬间、价值交付时间等。

英特尔中国研究院总工程师吴甘沙认为,速度是大数据处理技术与传统数据挖掘技术最大的区别。大数据是一种以实时数据处理和实时结果为导向的解决方案。它的“快”有两个层次。首先,数据生成速度快。一些数据是突发生成的。例如,CERN 的大型强子对撞机在运行过程中每秒可产生 PB 级数据。有些数据是一点点产生的。但由于用户数量庞大,数据无法在短时间内处理完毕。里面产生的数据量还是非常大的,比如点击流、日志、射频识别数据、GPS(全球定位系统)位置信息等。其次,数据处理速度快。正如水处理系统可以从水库引水进行处理一样,它也可以处理直接流入的新水。大数据也有两种范式:批处理(“静态数据”转化为“使用中的数据”)和流处理处理(将“动态数据”转化为“使用中的数据”),实现数据的快速处理。

吴甘沙提出,在武术的世界里,只有速度才能立于不败之地。为什么要“快”?首先,时间就是金钱。如果价值是分子,那么时间就是分母。分母越小,单位值越大。面对同样的大数据“矿”,“挖矿”效率才是竞争优势。其次,和其他商品一​​样,数据的价值也会贬值,同样数量的数据在不同的时间点会有不同的价值。 VoltDB(内存数据库),NewSQL(新型可扩展性/高性能数据库)的先驱,发明了一个叫做“数据连续体”的概念:数据存在于连续的时间轴上,每个数据项都有其Age,不同年龄的数据有不同的价值取向。新生成的数据具有更多的个体价值,而长期生成的数据在聚合时可以更有价值。第三,数据与新闻一样及时。许多传感器数据在几秒钟后就失去了意义。日本地震后九分钟,国家海洋和大气管理局的超级计算机就能够计算出发生海啸的可能性,但这九分钟的延迟对于生命瞬间被海浪吞噬来说仍然太长。

越来越多的数据挖掘趋向于前端,即提前感知和预测,直接提供服务对象所需的个性化服务。例如,对于大多数产品来说,寻找顾客“接触点”的最佳时机不是结账后,而是顾客还在提着购物篮购物时。电子商务网站从点击流、浏览历史和行为(例如添加购物车)中实时发现客户的即时购买意图和兴趣,并相应地推送产品。这就是“快”的价值。

真实性

基于以上三个特征,IBM总结出了大数据的第四个特征——真实性。数据的重要性在于支持决策。数据的大小并不能决定是否能够帮助决策。数据的真实性和质量是获得真实知识和想法的最重要因素,也是做出成功决策的最坚实基础。

对高数据质量的追求是大数据的重要要求和挑战。即使最好的数据清理方法也无法消除某些数据固有的不可预测性,例如人类的情感和诚实、天气状况、经济因素和未来。在处理这些类型的数据时,数据清理无法纠正这种不确定性。然而,尽管存在不确定性,数据仍然包含有价值的信息。我们必须承认并接受大数据的不确定性,并确定如何充分利用它,例如,通过数据融合,通过组合多个不太可靠的来源来创建更准确和有用的数据点,或者通过不计后果的高级数学方法,例如杆优化技术和模糊逻辑方法。

业内也有人将大数据的基本特征从4V拓展到11V,包括低价值密度(Value)、可视化(Visualization)、有效性(Validity)等。例如,低价值密度意味着具有物联网的广泛应用,信息感知无处不在,信息量巨大。然而,在连续不间断的视频监控过程中,潜在有用的数据只有一两秒。如何通过强大的机器算法更快地“净化”数据的价值,是大数据时代亟待解决的问题。

国际数据公司报告中有一句话概括了大数据基本特征之间的关系:大数据技术利用高速收集、发现或分析,从超大量的多样化数据中经济地提取价值。

除了上述主流定义外,还有人用3S或3I来描述大数据的特征。 3S指的是:尺寸、速度和结构。 3I指的是:

(1)没有明确定义(Ill-de.ned):很多主流的大数据定义都强调数据规模需要超过传统方法处理数据的规模。随着技术的进步,数据分析的效率不断提高。满足大数据定义的数据规模将继续相应增长,因此没有明确的标准。

(2)恐吓:从管理大数据到使用正确的工具来捕获其价值,利用大数据的过程充满了挑战;

(3)立即:随着时间的推移,数据的值将迅速衰减。因此,为了确保大数据的可控性,有必要缩短数据收集和获得数据见解之间的时间,从而使大数据真正实时大数据。这意味着能够尽快分析数据对于获得竞争优势至关重要。由于相关表达式具有相同的目的,因此不会在此处详细介绍它们。

数据爆炸

在人类对信息的使用史上,总共发生了五次媒体技术革命。每次媒体革命都产生了数据爆炸,并促进了人类文化的跨越发展。

历史学家伊丽莎白·艾森斯坦(Elizabeth Eisenstein)发现,古腾堡(Gutenberg)在1439年发明了印刷机(第三次媒体革命)之后,从1453年到1503年的50年中印刷了大约800万本书,这是1200年以来的手稿比所有欧洲都多。君士坦丁堡的建立。换句话说,欧洲的信息存储花了50年的时间增加了100%(当时欧洲占了世界大部分信息存储),但如今,它大约每三年增长了100%。

这次媒体革命产生的数据洪流是如此剧烈,以至于以前的媒体革命无法与之匹配。美国电影“ Avatar”的制作团队使用了近40,000个处理器,电影制作期间产生的数据量达到了3pb。但是,国会图书馆在同一时期存档的网络数据大小小于100TB,这意味着“ avatar”的生产“ avatar”生成的数据量等同于与中的数据量30美国国会图书馆。这只是数据爆炸的缩影。我们正在经历前所未有的数据爆炸。数据扩展的能力不仅在增长,而且数据生成速度也在加速。

表3-1五媒体革命

媒体革命/时间/内容

第一媒体革命

人类史前

语言的出现:语言促进了人类思维能力的增强,并为人们提供了彼此交流并传输信息的有效工具。

第二媒体革命

公元前3500年

写作的出现:作为信息的载体,写作可以长期保留知识和经验,并使信息交换以克服时间和空间的障碍,并可以在长距离或世代相传中传输信息。

第三媒体革命

15世纪

印刷的普及:书籍,报纸和期刊已成为信息存储和传播的重要媒体,打破了知识的垄断,并大大促进了信息的共享和文化的普及。

第四媒体革命

19世纪中叶

电话,收音机和电视的发明:使用电磁波传播信息的使用局限于时间和空间的局限性,使声音和图像可以立即行驶数千英里

第五媒体革命

20世纪中至后期

计算机和互联网的使用:数字化,多媒体和网络正在迅速发展。人类进入了信息社会。信息对整个社会的影响逐渐增加到了前所未有的重要立场。信息量,信息传播速度,信息处理速度和信息应用速度。程度等。几何进程都会增加。

媒体革命是数据爆炸的重要原因。联合国报告认为,与经济和社会发展有关的大数据通常具有以下特征:

(1)数据是通过数字化生成的,可以数字存储并通过计算机处理;

(2)数据是由人类日常生活和活动中的数字服务被动产生的;

(3)自动收集数据,收集并存储在生成时;

(4)可以在空间或时间上跟踪数据,例如手机的呼叫位置和时间;

(5)实时分析数据。这些功能使收集大量数据成为可能。在传统的数据收集方法(例如注册声明和人口普查)下,获得如此大规模和多样化的数据是根本无法想象的。

数字数据的增长

希尔伯特(Hilbert)的研究发现,全球数字数据的数量将每三年翻一番,而模拟数据的数量基本上并没有增加。 2000年,世界数据中四分之三的数据是存储在报纸,电影,乙烯基记录和盒式磁带等媒体上的模拟数据,而数字存储的信息仅占世界数据的四分之一。 2002年,数字化的全球数据存储能力首次超过了模拟技术。 2007年,只有7%的数据是存储在报纸,书籍,图片和其他媒体中的模拟数据,其余的都是数字数据。预计到2013年,非数字数据将占2%。从1986年到2007年,在全球数据总数中存储在纸质媒体上的数据比例从33%下降到0.007%。

电子书已更换了纸质书籍,数字图像替换了电影图像,数字声音替换了模拟声音,数字视频替换了模拟视频,甚至公交卡也取代了传统的公交车票。存储在手机上的门票可以用作电影票,登机牌...当文本,图像,声音和视频都可以用1和0代表时,可以记录,存储,编辑和传播数字格式,数据将开始完全进入我们的工作和生活。信息生产和传播变得更加简单,并且可以通过计算机智能处理此信息。

数字化的力量很强大。 2010年纸质版本的“百科全书不列颠尼加”,全套价格

1,395美元,包含32卷,重58.5kg。但是,它的整个内容不能适合4G USB闪存驱动器。鉴于此,“英国百科全书”的出版商在2012年3月宣布,这位244年历史的“大不列颠百科全书”将不再发布纸质版本,其内容将被完全数字化。实际上,四年前,英国百科全书总裁乔治·考格兹(George Kautz %。

互联网上运行的Wikipedia是代表性的数字百科全书。 2001年,Wikipedia的第一年,创建了20,000多个参赛作品,平均每月有1,500个条目。截至2013年8月,Wikipedia的英文版本拥有超过429万件物品,是英国百科全书的43倍。 282种语言的所有282种语言的Wikipedia版本都超过200万个条目,总注册用户超过300万,编辑人数超过12亿倍。来自世界各地的参与者可以编辑Wikipedia的任何文章和条目,他们共同形成了一个自由,充满活力,自由和开放的全球知识主体。数字化是所有这一切的基础。

非结构数据的增长

一些研究认为,该组织一直在分析数据仅占数据总量的20%。这些数据主要是结构化数据,其他80%的数据尚未得到很好的使用。数据的这一部分主要是非结构性数据。

结构数据是指存储在固定字段集中的数据,例如属于传统数据技术的关系数据和电子仪表数据。非结构化数据是指在数据库两个维逻辑表中难以使用的数据,包括文本数据和未签名的视频,音频和图像数据。半结构数据在两者之间。它是将数据元素与标签和其他符号划分的数据。扩展标签语言和超级文本标记语言属于半结构数据。从广义上讲,非结构化数据包括半结构和多结构数据。

目前,非结构化数据被认为是总数据的85%以上,并且增长率比结构数据快得多。据说它快10-50倍。尽管上述数据的准确性尚未研究,但不能否认非结构性数据具有丰富的价值。但是,如何管理非结构化数据并将“数据坟墓”转换为“数据金矿”千X的挑战。

在医疗行业,既有结构化的电子病历和非结构数据病理切片和其他图像文件。这些数据在数据传输,临床显示和医学科学研究方面具有重要价值。但是,它们的集成和利用仍处于非常主要的阶段。另一个例子,在银行申请存款和贷款业务时,许多文件,户口书籍,身份证,收入证书等。这些纸张原始材料将以扫描或拍照的形式转换为电子文档,永久保存。目前,这些文件仅在准备调查中发挥作用,并且尚未得到很好的发展。

非结构性数据管理功能是大数据的核心功能。在IBM发布的白皮书“分析:现实世界中的大数据”中,它报告了基于95个国家 /地区和全球26个行业的1,44名商业人员和信息技术专业人员的研究结果。在超过一半的大数据项中,受访者说,他们的组织采用了先进技术的文本记录来分析自然状态,例如呼叫中心对话内容的文本记录。这些分析技术包括对微妙的语言特征的解释和理解,包括情感,语和意图,以帮助公司了解当前的客户情绪状态,并获得可以直接促进客户管理策略的宝贵信息。

非结构数据的开发和利用已在国家一级价值。 2012年7月6日,中国正式建立了一个非结构化数据管理标准工作组,以在中国非结构性数据管理领域建立和改善标准系统,制定相关的国家标准,并参与非国际标准化工作 - 结构化数据管理。 ,从而增强了中国在非替代数据管理领域的总体竞争力。

物联网

国际电信联盟发布的互联网报告定义了物联网:诸如QR码阅读设备,射频识别设备,红外传感器,GPS和激光扫描仪之类的信息传感设备,并根据商定的任何项目连接到Internet协议将与Internet连接到Internet进行信息交换和通信,以实现智能身份,定位,跟踪,监视和管理网络。

与传统互联网相比,物联网具有其独特的特征:

首先,这是各种感知技术的广泛应用。物联网在物联网上部署了各种类型的传感器。每个传感器都是信息来源。由不同类型的传感器捕获的信息内容和信息格式不同。传感器获得的数据是真实的,根据一定频率收集环境信息,并不断更新数据。

其次,这是互联网上的一种基于锅的。物联网技术的重要基础和核心仍然是互联网。通过将各种有线和无线网络与Internet集成,对象的信息可以实时准确传递。传感器在物联网上收集的信息需要通过网络传输。由于大量的数量,形成了大量信息。在传输过程中,为了确保数据的正确性和及时性,必须将各种异质网络和协议适应各种异质网络和协议。

第三,物联网不仅提供了传感器连接,而且还具有智能处理的能力,并且可以对对象实施智能控制。物联网结合了传感器和智能处理,并使用各种智能技术,例如云计算和模型识别来扩展其应用程序字段。从传感器获得的大量信息中分析,处理和处理有意义的数据,以满足不同用户的不同需求,并找到新的应用程序领域和应用程序模式。

物联网的精神本质是与在任何情况下不受限制的用户提供免费互动。它依靠云服务平台和嵌入式处理软件,这些软件互连,技术颜色较弱,并加强了与用户与用户的良性交互。 。更好的用户体验,更及时的数据收集和分析建议以及更多的免费工作和生活是对智能生活的身体支持。

例如,在“ 7月21日”北京的极度大雨之后,政府采取了许多解决方案。重要的是要在立交桥下安装水位。水位将发出预警至一定高度的警告。技术应用。在小点的情况下,数据量不够大,只能解决一些问题。当水位的点增加时,将收集更多数据,这对于发现一些规则并发出警告非常方便。它是由数据收集从几个独立点变为相互连接的大量网络的事物驱动的。数据挖掘已从历史数据的挖掘转变为实际时间数据的挖掘。这是大数据的重要性。

信息时代的三个定律

正如牛顿力学建立了工业文明的基础一样,信息时代的三个法律也在推动数字文明快车表达汽车,从而深刻地改变了我们的世界。这三个法律是摩尔的法律,吉尔德法律和马式法律。

早在2000年,Li Kaifu指出:“这些法律的重要性非常重要,并且可能并不总是存在,因为网络经济每天都在变化。但是它们完全适合当今的在线经济,这是毫无疑问的。如果他们不跟随他们,就会有成功的机会。

摩尔定律

1965年,英特尔创始人之一戈登·摩尔(Gordon Moore)根据计算机硬件的开发提出了著名的“摩尔法”。该法律认为,可以在同一区域集成电路上容纳的晶体管数量将每18个月翻一番,同时其性能将增加一倍。

晶体管的整合越高,其价格便宜。在1960年代初期,晶体管大约为10美元,但是随着晶体管变得越来越小,当可以将1,000晶体管放在发线上时,每个晶体管的价格只有一千分之一的美。观点。这使得物理记忆的性能在增加时不断下降。 1955年,IBM推出了第一个商业硬盘内存,每个MB的存储量需要超过6,000美元;到1993年,1MB的存储量仅为1美元;在2010年,价格下降到不到1美分。大多数专家认为,计算机硬件技术将继续发展,价格仍然会下跌。直到2020年,摩尔的法律仍将有效。有些人总结了基于此的“钟声法”,也就是说,保持计算能力不变,微处理器的价格和数量每18个月减少了一半。

根据摩尔法律和贝尔法律,全世界的数据存储和处理不仅变得更快,更方便,而且更便宜。国际数据公司估计,由于计算机技术进度的持续促进,2011年公司创建,收集,管理和存储信息的成本在2005年下降到1/6,并且公司数据的总投资在同一数据上降至1/6自2005年以来,周期有所增加50%。国际数据公司认为,数据生产成本符合反摩尔特法则,也就是说,数据生产成本将每两年降低约50%,并且这种趋势将持续到2015年。数据产生了成本并增加了投资规模。

吉尔德·劳

吉尔德的定律也被称为“柳条法”,并由乔治·基德(George Kid)提出。该法律认为,最成功的业务运营模型是,最低资源价格将尽可能多地消费以保留最昂贵的资源。在蒸汽发动机出现的时代,由于蒸汽机的成本低于当时传统运输马匹的成本,因此智能商人将蒸汽机投入使用。当今最便宜的资源是计算机和网络宽带资源。基于此,吉尔德的预测:在未来25年中,主网络的带宽每6个月将翻一番,其增长率将是摩尔定律预测的中央处理器增长率的4倍。

根据国际数据公司的统计数据,2005年的全球数据流量为300亿GB。到2010年,这些数据增加了近900%,达到1.27亿GB。又转了两年后。预计到2020年,在2010年到40zb的数据流量将超过30倍。近年来,数据流量的现实使对数据基础架构的需求和投资极为强大。如今,几乎所有著名的电信公司都乐于铺设电缆。当带宽变得丰富时,互联网浏览的成本也会下降。

根据吉尔德的观点,在可预见的将来,有一天,每个人都可以免费访问互联网。他认为,随着1970年代昂贵的晶体现在很便宜,主要网络仍然是稀缺资源的网络带宽,有一天将变得足够足够,互联网访问的成本将大大降低。实际上,在美国,许多互联网服务提供商为用户提供了免费的互联网服务。

随着带宽的增加,更多的设备将能够以有线或无线方式访问Internet。移动通信技术的发展产生了3G(第三代移动通信技术)。 3G和2G之间的主要区别(第二代移动通信技术)是传输速度和数据的提高,因此移动客户端(例如3G移动电话)具有处理图像,音乐和视频流的能力。 4G(第四代移动通信技术)集成了3G和WLAN(无线LAN)。它可以以100Mbps的速度(mega /秒)下载,比拨号量快2,000倍,并且上传的速度可以达到20Mbps。 。 4G网络可以传输高质量的视频图像,以满足几乎所有无线服务上所有用户的要求。像各种行业的业务许可证一样,4G业务只能在颁发4G许可证后由行业和信息技术部运营。目前,中国移动,中国电信和中国Unicom已获得4G许可。中国莫比尔表示,到2013年底,中国移动的4G网络覆盖范围将覆盖100多个城市,4G终端采购将超过100万台,覆盖超过5亿个城市,从而建立了世界上最大的4G网络。

移动互联网业务的快速发展使一些人首先体验“永远在线”的工作和生活方式。移动社交网络将成为客户在数字化中生存的平台。移动广告将是移动互联网的主要利润来源。手机游戏将成为娱乐先驱。移动电视将成为时尚人士的新最爱。移动电子阅读填补了缝隙时间。移动定位服务提供了个性来提供个性以获取信息,移动搜索将成为开发移动互联网的助推器。手机的内容共享服务将成为客户的胶粘剂。移动支付包含巨大的商机。移动电子商务和移动e -Crovernment的春季即将到来。

泛量

物联网支持的技术基础是Pan -Computing,并且实现“无所不能计算”的网络称为pan -in网络。

公共计算强调了环境的整合,而计算机本身则从人们的视力中消失了。在一般计算模式下,人们可以随时随地获取和处理信息。它的核心想法是小的,便宜且网络的处理设备,在日常生活中的各个地方广泛分布。计算设备不仅将依靠命令线和图形接口来执行人机交互,还依靠“自然”相互作用方法。计算设备的设备,大小将减小为毫米甚至纳米级别。

在开放的分配环境中,无线传感器网络将广泛流行。整个世界都是互联网的世界。针对不同目标的无数计算和通信设备在网络中连接。 。 PAN计算的目的是建立充满计算和通信功能的环境,同时,该环境逐渐与人融为一体。在这个集成的空间中,人们可以随时随地透明地获得数字服务。将诸如平板电脑,Google文档或远程游戏技术(例如云计算应用程序),4G或宽区域WiFi和其他高速无线网络等移动设备集成,以削弱计算机作为获得数字服务的中央媒体的位置。每辆车,每个相机,每个手表和每个电视都具有几乎无限的计算能力时,计算机将在幕后完全撤退,因此用户无法感觉到自己的存在。

近年来,在网络技术(例如物联网,互联网,电信和传感网络)的共同开发下,社交的社会化逐渐形成。根据环境感知和内容感知的能力,PAN -ACALCULUTION通过无所不能的信息服务和应用提供了Pan -In -Law和社会。如今,随着许多新的移动通信应用程序(例如手机支付和医疗监控)的持续出现,预计将成功地将移动通信网络转换为智能网络。同时,为了满足对计算的需求,移动通信网络还将引入一系列更改。

Matkurf的定律

Matkurf定律的提议是以太网的发明家Robert Matkurf。法律认为,网络的价值与网络用户数量的平方直接成正比,即n连接可以创造N的正方形优势。

Matkurf定律的核心思想“更昂贵”。例如,手机被一个人称为一个人。该信息是从一个端口到另一个端口。好处是n;在互联网上,每个人都可以连接到n个网站。 n人们可以在n个网站上看到信息,因此获得的信息传输益处是n。换句话说,互联网上的人越多,互联网的好处就越大。随着用户数量的增加,Internet的价值增加或辅助方程的数量。因此,无论是伊拉克战争还是科索沃战争,轰炸的目标是在网络节点上进行选择。这是因为网络的节点对网络的函数至关重要。如果进攻节点,破坏网络的效率更有效。

传统经济时代的罕见事物是最有价值的,因此人们通常不愿意共享技术和信息以使自己无敌,这是中国人经常称其为“独特技能”。但是,在在线经济时代,共享程度越高,用户组拥有的程度越大,价值的价值越大,最大值的反映。务虚会不可能与他人共享信息和技术。因此,如何充分理解Matkurf定律的本质,改变思想,摆脱传统模型并进一步适应互联网经济的新挑战,已成为所有组织都必须考虑的问题。

Matkurf定律背后的理论是网络的外部性质。即使有更多用户,效果也不会像原始用户那样有效,共享的人越少,但其有效性就越大。信息资源的特殊性是可以在不损失土地的情况下消费,但是信息的消费过程可能同时是信息的生产过程。它包含更多的消费者知识和感受的知识或感觉。花费的人越多,它包含的总资源就越大。

根据摩尔法律和吉尔德定律,未来的计算机成本将继续下降,并且该网络将成倍发展。随着网络用户的数量扩大到数亿美元,网络的价值越来越估计。法律重合。这三个法律是有机的和统一的。他们概述了信息技术开发的过程,并且是大数据运行的基础。

第4章思维变更:大数据学说来了

IBM的高级数据专家Jeff Jonas提议让数据“说话”。这听起来很普遍,但这并不容易。

随着数据数量的越来越大,数据格式变得越来越多样化,数据生成越来越快,数据的处理变得越来越困难。如何处理大数据是我们面前的大考验。如果处理不好,大数据将成为大型行李和大问题。如果正确应对,大数据将带来巨大的价值。但是为此,首先,我们需要对数据值和利用率进行颠覆性更改。

一切都可以量化

测量可以测量的所有内容,并将无法测量的所有内容变成可以测量的所有内容。

- 伽利略

“没有量化不能管理它”已成为管理学术界的共识。借助技术背景和“一切都可以量化”的思考,在这些大数据的思考革命之后,未来的政府和企业可以获得更多基于管理对象的知识,准确量化和管理,并实现更可靠的可靠性预测以及更明智的决定。

我们的数字足迹

“一切都可以量化。”这是斯蒂芬·贝克(Stephen Baker)在《当我们成为一群时》一书中提出的观点。

在对数字报告和分析的杰作和分析中,斯蒂芬·贝克(Stephen Baker)向我们展示了我们正在进入一个生动的定量世界,告诉我们谁在统治着人类:每天,我们都会在我们身后拖动个人信息。长“尾巴”,我们单击网页,切换电视频道,通过自动收费站开车,使用信用卡购物,使用手机等。数学精英可以尽一切可能以惊人的准确性来衡量和分析我们的每个行动,并将我们标记为工人,购物者,恋人,选民,博客,甚至抑郁症。

有一群基督教:“任何痕迹都将通过社交网络,电子邮件,手机,医疗交易和在线信用卡交易。技术,尤其是语义网络技术的应用,被转换为可加工数据。

耶鲁大学经济学和法律教授Yien Eris谈到了《超级数字天才:为什么数字思维思考是一个聪明的人》一书。每次购买,甚至每次消费记录,收到的每张超速票,人生中人类的足迹都可以在数据中记录在数据中。

现代记录和存储信息的技术进步使这些数字足迹的形状大大丰富了公共管理的手段。美国政府已经制定了恐怖分子跟踪的大数据挖掘计划。美国政府认为,如果恐怖分子需要计划袭击,他们一定会在各个角落留下一些痕迹。通过在各个部门产生的数据,他们可以发现和追踪恐怖分子。广东省土地税集中和管理信息系统将自动将收集的异常管理数据更改为任务模型,积极地将其推向税务管理员,以帮助税务管理员清楚地了解纳税人的现有和潜在的不规则税收行为,并增强管理的管理税收源管理目标和有效性,还降低了纳税人对纳税人的风险。

佛蒙特大学的快乐测试师

可以衡量幸福吗? In 2011, Christopher Denfoss, the University of Volm, presided over a study of happiness, not only detecting the happiness of people around the world, but also developed the two seemingly storms and geographical location. The relationship between incompetence information.

A Weibo can not only reflect the hot topics of the present, but also expose the emotional information and location information of the publisher. From 37 million Twitter information released by more than 180,000 households around the world, Danfoss screened information with accurate geographical location information, which accounts for about 1 % of the total. In order to evaluate the user's happiness, the research team of the University of Vermont developed a happy tester: this test instrument can detect the vocabulary of positive and happy emotions in the text (for example, "fresh", "excellent",,, "excellent", "Coffee" and "lunch"), as well as the vocabulary of negative emotions (for example, "no", "no", "hate", "damn", "boring"). The happiness tester will use this as a basis to evaluate the happiness index of each message.

The question of Danfoss's interest is how the content of the information changes with the change of the user away from home. So how can we know where the user's home is? When the data was collected, the result was clear at a glance. People usually have two most common places, and these two places are not far away, one is home and the other is the work place.

The study also discovered another interesting phenomenon: the farther away from home, the more happy vocabulary contained in people sent. So, if you feel low emotional or tired and anxious, then come and talk about a trip!

Discover unknown data world

Through the GPS, the direction and position can be data; analyzing the status of Weibo, the mood can be data; installed the sensor, the air quality can be data, the development of information technology opened a door for us, the world, the world, the world, the world The levels that have never been quantified are presented in front of us in a variety of data forms.

For school education, the biggest problem is how to overcome the shortcomings of a pair of more teachings and provide personalized and persistent guidance and evaluation for each student. This online class can do this.

If you also think that online education is a lens, a long -range video, it really underestimates its strength. The current online classroom is actually a master of quantitative and data collection. It can record the time you stay on a slide, and judge whether you review again after answering the wrong question, count the number of questions you ask questions online, participate in the discussion, and then on this basis Induction and evaluation.

In order to collect as many learning behavior data as possible, Harvard University and MIT have made huge sums of money to create a large number of high -quality courses for free for learners from all over the world. These data will be used to improve school education, and then consolidate their leaders in the education community.

As Schionberg predicted: "Seeing the world as information, the ocean that can be used as a understandable data, and provides us with a perspective that has never been examined. It is a kind of The world view of life.

Public management and service agencies such as the government are currently sitting on such an unprepared "information fountain". For example, if the monitoring camera is only used for security defense, it is a pure cost. Through big data technology, data can be invested in different fields, realizing "one money and two goods", and monitoring the camera is even regarded as an investment that can increase income. Digging flow data and traffic data from videos, analyzing its identity characteristics, walking path, stay mode and gathering hotspots, which are very valuable for urban planning and management. Combining the information collected from countless cameras, you can also see the changes of a area and a city. For example, it is more stores in the decoration, or more. Still more clothing stores and so on. These changes come together, we can see the economic trends, changes in the natural environment, and even the degree of happiness and tension of people.

Behind everything is hidden data that has not been excavated. If you do not have the concept of big data, it is likely to lose your arms with many valuable data. For example, buses in a certain city have discarded the data that can reflect important commuting information because of non -segments, so the data that can reflect important commuting information has been discarded by the staff. Once the thinking changes, the data can be cleverly used to stimulate new products and new services.

Google Digital Library

Just as the live printing replace the carving printing, separates Chinese characters and letters, and then combines freely, it has greatly improved the efficiency of printing and promoted the spread and popularization of knowledge. Today, Google Electronic Library is through modern identification software to data data and pictures.

Google Library is an idealist project released by Google in 2004. It dataized by the book content allowed by the National Copyright Regulations to establish a rich Google Electronic Library, allowing people in any corner of the world to read through the Internet to fully realize the borders and no distances of knowledge transmission.

In the early stage of the project, Google mainly used the scanner to electronic the content of the physical books, so the content of the book collected in the US Congress Library became an electronic courseware that can be used in a university classroom in Asia. The digital communication of the Internet is greatly convenient for those who are eager to know. However, this electronic reading method first requires readers to clearly clear the content they searched, and secondly, the search engine finds the content they need in the ocean of digital book in the vast ocean. Because there is no dataization and analysis of the content of the digital text, the scanning pictures of these books are actually only stored in the Google Digital Library.

In the past two years, with the development of identification software and communication technology, Google has transformed these digital pictures into processed data to make it "jump on paper." With the help of optical character recognition software that can recognize digital images, the words, words, sentences, and paragraphs on scanning pictures. After processing, Google's digital images will be smoothly transformed into data content, so that the potential value of this information will maximize the maximum value of the information to the maximum to the maximum value The release of the degree to create an open and connected knowledge world 。

All things are associated

"People who buy this chocolate also like this kind of jam especially." "You and these successful people above will love the brand's furniture." This is a guest professor and data analysis expert Tom Davin Potter from Harvard Business School. The way of big data in the eyes. Finding the correlation from data and making predictions on the future through this relationship is the core idea of ​​big data methodology.

Tracking "Butterfly Effect"

"The butterflies in the tropical rain forest in the Amazon River in South America, occasionally fanning a few wings, can cause a tornado in Texas in the United States two weeks later." Lorenz, an expert in MIT, called this phenomenon " Butterfly effect ". It tells us that a thing that seems to have nothing to do with it may be related to one thing thousands of miles away and bring huge changes.

In the era of big data, everything can be described by all things and establish a specific model. Through complex calculations, we present a world full of connected.

It may be difficult for you to think that the Weibo comment on the Internet is closely related to the stock price of a company. On the day of Facebook's first public offering of stocks, the emotions on Twitter gradually turned to negative, and the stock price of Facebook also fell 25 minutes after the opening. When the emotion on Twitter turned to the front, Facebook's stock price began to rebound 8 minutes later. When the stock market was close to the close and the emotion on Twitter turned negative, 10 minutes later, the stock price of Facebook began to fall again. Every emotional steering on Twitter affects the fluctuation of Facebook's stock price. It seems that the two are not too many people, or it is difficult to find a convincing explanation in a short period of time. But if you can't find a reasonable explanation, you have to ignore this correlation, and you have to say it is a loss.

Pennsylvania State University Biologist Marcel Salat and software engineer Shaxian Kanto found that people's attitudes to the vaccine can be positively correlated with their actual injection of influenza drugs. They used the relevant metadata in Twitter users to conduct a further investigation and found that the children who did not vaccinate the vaccine were found, and then evaluated the risk of influenza explosion. This is the interesting analysis and practical value of data generated by social networks.

Another case of household name is "beer and diaper". In the Wal -Mart supermarket, there is a very interesting phenomenon: the two kinds of wind and cows, such as beer and diaper, are actually put together. The reason why she arranged for this is because supermarket executives found that tens of thousands of consumer shopping baskets found that beer and diaper are two associated products and are often purchased at the same time. It turned out that American women usually take care of their children at home. They often instructed their husbands to buy diaper for their children on their way home on their way home. While buying diapers while buying diapers, they also hit their love beer. Similarly, spinach is sold better next to the salad sauce. In the tornado weather, the egg tart should be promoted. These seemingly absurd laws really increase the sales of the supermarket.

Let the data speak, we will notice many existences that have never been realized before. At present, a competition for discovering data correlation and development of data value is staged around the world. It opened a treasure hunt game, and people's views on data and attitudes towards correlation value are the key to dominating the game.

"What" is more important than "why"

A company is grasping various data from social media to predict the box office by looking for relevant factors affecting the results of the box office. It selects 30 parameters for movies, and 50 parameters are selected for actors, including where to grow up, graduate schools and graduation time, role played, ratings and box office, what scandal, who has good relationships, netizens evaluation wait. Based on these parameters, the company predicts the box office of the movie "1942" is 380 million yuan, which will lose money. The producer Fang Huayi believes that the company is "black", but the last box office is really only 360 million yuan.

The most interesting thing behind the whole thing is the seemingly weird parameters selected by the company. Everyone knows that these parameters are related to the prediction results, but they don't know how to be related. In other words, everyone can only know "what" and don't know "why." From the emphasis on causal relationships to the thirst for correlation, it is the fundamental transformation that big data brings to us.

Finding cause and effect is a long -term habit of human beings. Even if it is difficult to determine the cause and effect, it is difficult to use, and human beings are still used to "why". In daily life, people are always keen to look at everything around them with causality. Scientists are also trying to explore the unchanged truth and cause and effect relationship behind the phenomenon as a guidance for subsequent behaviors.

Entering the era of big data, the database of the trend is coming, the speed of information updates and environmental changes far faster than we think and verify the speed of thinking and verification. The complicated relationships require us to sort out quickly. We do not need to know the reasons behind the phenomenon.

The correlation may not be able to inform us why something happened accurately, but it reminds us that this is happening. In many cases, the help of this reminder is great enough. If the electronic medical records show that the specific combination of orange juice and aspirin can treat cancer, then finding the specific pathogenic cause is not as important as this treatment method itself. Similarly, as long as we know when it is the best time to buy a ticket, it doesn't matter if the ticket price fluctuates frequently.

The desire for the correlation will lead us to the flat world, expand the field of thinking and vision, and gain more angles to understand the world. We no longer need to build an analysis on the basis of a small amount of assumptions that have been established before collecting data.大数据可以让过分沉迷于因果关系的人对世界、对人类自己有一个开放性的解释。

预测:大数据的核心

在气象经济学界流行这样一条“德尔菲气象定律”,即气象投入与产出比为1∶98,也就是说,在气象信息方面每投入1元,就可以得到98元的经济回报。一个典型的例子是,气温每降低1摄氏度,北京市燃气供暖系统日消耗天然气将增加约200万立方米。如果提高气象预报的精度,实时对供暖系统进行合理调控,无疑将节省一笔很大的能源消耗和经费开支。

从有人类智慧起,我们便努力学习预测明天的天气,进而决定是否播种,预测哪块土地不会被河流淹没,预测自己的疾病何时能痊愈,预测子孙能否平安健康。人类一直想要通过认识现在、理解过去,以获得对未来的预测。

起初,许多人的“知识”是基于迷信和预感,所以在原始社会,“巫师”是一个令人敬畏的群体,因为他们能通过手里的“水晶球”看到未来的世界。

1947年,第一台计算机问世一年后,管理大师赫伯特·西蒙就像先知一样指出:人类所有的决策都是基于有限理性的结果,如果能利用存储在计算机里的信息辅助决策,人类理性的范围将扩大,决策的质量就能提高。在后工业时代,人类社会面临的中心问题将从如何提高生产率转变为如何更好地利用信息辅助决策。

而今,用计算机进行预测早已变成现实。大数据变成了转动在人类手上的虚拟“水晶球”,为我们带来了人类直觉和想象无法超越的理性预测。在洛杉矶,警方通过测算未来24小时内最有可能发生犯罪的区域安排巡逻路线,以提升城市安全。在伦敦金融城,一位科学家出身的商人借助自己研发的股市预测模型,找到了利用数学日进斗金的秘诀。在南非,一位天文学家准备通过观察每一颗恒星的信号为整个宇宙编制星表,进而预测下一个小星

提醒:请联系我时一定说明是从铂牛网上看到的!