《大数据的产业价值.ppt》由会员分享,可在线阅读,更多相关《大数据的产业价值.ppt(39页珍藏版)》请在第壹文秘上搜索。
1、大数据的产业价值(下)大数据的产业价值(下)目目 录录123大数据及其相关概念理解大数据及其相关概念理解大数据的产业价值大数据的产业价值技术发展趋势、问题与建议技术发展趋势、问题与建议二、大数据的产业价值二、大数据的产业价值ONETWO2020世纪,瑞士心理学世纪,瑞士心理学家荣格发现了家荣格发现了易经易经筮法中蕴涵的一种不筮法中蕴涵的一种不同于因果原理的普遍同于因果原理的普遍联系法则,这同大数联系法则,这同大数据技术的复杂相关性据技术的复杂相关性有着相似的地方。有着相似的地方。20122012年年3 3月,奥巴马月,奥巴马政府宣布投资政府宣布投资2 2亿美亿美元启动元启动“大数据研究大数据研
2、究和发展计划和发展计划”,并且,并且定义为定义为“未来的新石未来的新石油油”,希望增强政府,希望增强政府收集、分析和收集、分析和萃取萃取海海量数据的能力。量数据的能力。20122012年瑞士达沃斯论坛年瑞士达沃斯论坛上发布上发布大数据大影响大数据大影响报告,称数据已成为一报告,称数据已成为一种新的经济资产类别,种新的经济资产类别,就像货币或黄金一样,就像货币或黄金一样,许多国家政府更是把大许多国家政府更是把大数据上升到战略层面。数据上升到战略层面。 20152015年,国务院办公年,国务院办公厅发布厅发布关于运用大关于运用大数据加强对市场主体数据加强对市场主体服务和监管的若干意服务和监管的若干
3、意见见(国办发(国办发201520155151号)。号)。IDCIDC公司发布的数字宇宙研究报告公司发布的数字宇宙研究报告称称: :全球信息总量每两年就会增长全球信息总量每两年就会增长一倍一倍,2011,2011年全球被创建和被复制年全球被创建和被复制的数据总量为的数据总量为1.8ZB 1.8ZB 。 IDCIDC认为认为, ,到下一个十年到下一个十年(2020(2020年年),),全球全球所有所有ITIT部门拥有服务器的总量将会比部门拥有服务器的总量将会比现在多出现在多出1010倍倍, ,所管理的数据将会比现所管理的数据将会比现在多出在多出5050倍。预计到倍。预计到2020 2020 年年
4、, ,全球将全球将总共拥有总共拥有35ZB35ZB的数据量。的数据量。20112011年企业创造、采集、管理和年企业创造、采集、管理和储存信息的成本下降到储存信息的成本下降到20052005年的年的1/6,1/6,而同期企业关于数据的总投而同期企业关于数据的总投资自资自20052005年以来却反而上升了年以来却反而上升了50%50%。 数据成本的下降助推了数据量的增长数据成本的下降助推了数据量的增长, ,而新的数据源和数据采集技术的出现而新的数据源和数据采集技术的出现则大大增加了未来数据的类型则大大增加了未来数据的类型, ,数据数据类型的增加导致现有数据空间维度增类型的增加导致现有数据空间维度
5、增加加, ,增加了未来大数据的复杂度。增加了未来大数据的复杂度。 VolumePB+数据处理实时数据流数据非再现数据TBPBEB结构化非结构化半结构化价值Velocity实时处理Value海量数据挖掘Variety多数据类型交叉分析大数据分析技术是对大数据分析技术是对大数据的产生、存储、大数据的产生、存储、挖掘和展现的全生命挖掘和展现的全生命周期进行综合分析处周期进行综合分析处理的过程。理的过程。科学家通过大数据分科学家通过大数据分析析, ,可以发现隐藏于可以发现隐藏于其中的有价值的信息其中的有价值的信息和知识。和知识。FBIFBI和警察局依赖于庞大的数据基础,和警察局依赖于庞大的数据基础,包
6、括媒体对马拉松赛报道的大量图片、包括媒体对马拉松赛报道的大量图片、视频,以及来自互联网用户上传的大视频,以及来自互联网用户上传的大量现场图像和视频,快速定位嫌疑人。量现场图像和视频,快速定位嫌疑人。20132013年年4 4月月1515日下午日下午2 2时时5050分,科普里分,科普里广场有两枚炸弹分别于终点线附近观广场有两枚炸弹分别于终点线附近观众区及一家体育用品店先后众区及一家体育用品店先后被被引爆。引爆。美国波士顿于美国波士顿于4 4月月1515日举行第日举行第117117届波士顿马拉届波士顿马拉松大赛,现场大量观众、记者等通过手机、相松大赛,现场大量观众、记者等通过手机、相机等设备拍照
7、,产生了大量的视频、图片数据。机等设备拍照,产生了大量的视频、图片数据。GoogleGoogle基于搜索数据和历史信息,预基于搜索数据和历史信息,预测流行性感冒的爆发与强烈等级。测流行性感冒的爆发与强烈等级。 20092009成功预测美国甲型成功预测美国甲型H1N1H1N1爆发;爆发; 20132013年年1 1月准确判定美国的流感活动等级为月准确判定美国的流感活动等级为“强烈强烈”。20032003年美国华盛顿大学人工智能负责人年美国华盛顿大学人工智能负责人开发了开发了FarecastFarecast系统并成立公司,通过系统并成立公司,通过20002000亿条数据记录帮助预测美国国内航亿条数
8、据记录帮助预测美国国内航班的票价。系统预测准确度达到班的票价。系统预测准确度达到75%75%以上,以上,平均每张机票节省平均每张机票节省5050美元。美元。20122012年年1 1月月2323日英国两名游客飞往美日英国两名游客飞往美国,出发前在社交网站推特上发布:国,出发前在社交网站推特上发布:“提前八卦一下,这周过后,我要提前八卦一下,这周过后,我要前往美国摧毁它。前往美国摧毁它。”美国国土安全部通过情报美国国土安全部通过情报分析技术发分析技术发现现其言论,将其列为潜在威胁,怀疑其言论,将其列为潜在威胁,怀疑他策划到美国实施犯罪。他策划到美国实施犯罪。这两人带着手提箱到达洛杉矶国际这两人带
9、着手提箱到达洛杉矶国际机场,持枪警卫立即将他们逮捕并机场,持枪警卫立即将他们逮捕并没收了他们的护照。没收了他们的护照。微软专家微软专家David RothschildDavid Rothschild通过大数据分析,对第通过大数据分析,对第8585届届奥斯卡各奖项的归属进行成奥斯卡各奖项的归属进行成功预测。功预测。除最佳导演除最佳导演外,其它各外,其它各项奖预测全项奖预测全部命中。部命中。尿布尿布& &啤酒啤酒沃尔玛沃尔玛智能交通智能交通-交通蝴蝶效应交通蝴蝶效应 谷歌提前预测电影票房收入谷歌提前预测电影票房收入麦肯锡强调大数据对零售商的影响麦肯锡强调大数据对零售商的影响美国总统预测美国总统预测
10、 几千年前:基于观察和几千年前:基于观察和经验,描述自然现象。经验,描述自然现象。几百年前:基于理论和几百年前:基于理论和模型,解释自然现象。模型,解释自然现象。几十年前:基于计算技几十年前:基于计算技术,模拟复杂现象。术,模拟复杂现象。当今:基于大数据分析,当今:基于大数据分析,统一理论、实验和模拟。统一理论、实验和模拟。发布数据用户产生数据Web 1.0250,000 网站Web 2.0发布数据用户产生数据Cyberspace全球每天通过全球每天通过InternetInternet网络传输的网络传输的电子邮件多达电子邮件多达21002100亿封。亿封。FacebookFacebook每月新
11、增每月新增1010亿照片和亿照片和10001000万个视频。万个视频。腾讯公司注册用户超过腾讯公司注册用户超过7 7亿,同时亿,同时在线人数超过在线人数超过1 1亿。亿。某微博网站某微博网站4 4亿多节点亿多节点, 12, 12亿次用亿次用户访问,户访问,2TB2TB每天用户访问日志。每天用户访问日志。基于基于SQLSQL语言语言: : 面面对对OLAPOLAP的传统行和的传统行和列。列。不基于不基于SQLSQL或或map-map-reducereduce的的: : 由谷由谷歌率先发起。歌率先发起。数据流数据流: : 基于运行商基于运行商数据直接生成任意图数据直接生成任意图形。形。新平台技术新
12、平台技术数据数据入口入口/ /汇聚汇聚数据数据平台平台分析分析不同范围的服务不同范围的服务传统交付模式传统交付模式 - 单片单片或基于设备的解决方或基于设备的解决方案。案。云云: : 能够充分利用物能够充分利用物理设施的弹性,以实理设施的弹性,以实现处理快速增长数据现处理快速增长数据的能力。的能力。“数据库将演变成一个虚数据库将演变成一个虚拟的,基于云计算,超级拟的,基于云计算,超级可扩展的分布式平台。可扩展的分布式平台。”- Forrester analyst - Forrester analyst Jim KobielusJim Kobielus新的传输方案新的传输方案1818:35 美国
13、美国17 17 个经济部门中的个经济部门中的15 15 个部门,员工超过个部门,员工超过10001000人人的企业存储了平均的企业存储了平均235235太字节的数据,超出了美国国太字节的数据,超出了美国国会图书馆的藏书。会图书馆的藏书。 当下正是中国大数据市场元年,当下正是中国大数据市场元年,20132013年大数据市场增年大数据市场增速为速为138.3%138.3%,到,到20162016年整个市场规模逼近百亿。年整个市场规模逼近百亿。大数据时代来临美国政府已经把美国政府已经把“大数据大数据”上升到了国家战略的层面。上升到了国家战略的层面。l20122012年年3 3月月2929日,奥巴马日
14、,奥巴马政府宣布投资政府宣布投资2 2亿美元启动亿美元启动大数据研究和发展计划。大数据研究和发展计划。l华尔街日报将大数据、智华尔街日报将大数据、智能制造和无线网络称作是能制造和无线网络称作是当代三大技术变革。当代三大技术变革。商业价值商业价值杂志将大数据比作未来世界的新石油。杂志将大数据比作未来世界的新石油。分析技术分析技术处理技术处理技术存储技术存储技术解决方案解决方案数据处理:自然语言处理技术数据处理:自然语言处理技术统计和分析:统计和分析:toptop排行榜;地域占比;文本情感分析排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类数据挖掘:关联规则分析;分类;聚类模型预测
15、:预测模型;机器学习;建模仿真模型预测:预测模型;机器学习;建模仿真数据采集:数据采集:ETLETL工具工具数据存取:关系数据库;数据存取:关系数据库;NoSQLNoSQL;SQLSQL等等基础架构支持:云存储;分布式文件系统基础架构支持:云存储;分布式文件系统计算结果展现:云计算;标签云;关系图计算结果展现:云计算;标签云;关系图结构化数据:海量数据的查询、统计、更新等操作效率低结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据:图片、视频、非结构化数据:图片、视频、wordword、pdfpdf、pptppt等文件存储,等文件存储,不利于检索、查询和存储不利于检索、查询和存储半
16、结构化数据:转换为结构化存储或按照非结构化存储半结构化数据:转换为结构化存储或按照非结构化存储HadoopHadoop、MapReduceMapReduce流计算流计算内存计算内存计算分布式与高性能计算分布式与高性能计算三、技术发展趋势、问题及建议三、技术发展趋势、问题及建议(一)大数据的发展趋势(一)大数据的发展趋势Gartner2012Gartner2012年技术成熟度曲线年技术成熟度曲线Cloud ComputingBigdataIoTGartner2013Gartner2013年技术成熟度曲线年技术成熟度曲线Cloud ComputingBigdataIoTGartner2014Gartner2014年技术成熟度曲线年技术成熟度曲线BigdataIoTCloud ComputingIoT机器学习自动驾驶汽车Gartner2015Gartner2015年技术成熟度曲线年技术成熟度曲线2-52-5年内成为主流年内成为主流:市民数据科学(市民数据科学(Citizen Data ScienceCitizen Data Science););混合云混合云计算(计算(Hybrid Clou