《大数据分析讲稿.ppt》由会员分享,可在线阅读,更多相关《大数据分析讲稿.ppt(82页珍藏版)》请在第壹文秘上搜索。
1、目目 录录 视频监测气象监测-24个指标土壤养分监测-15个指标土壤水分监测-5个指标生长监测-16个指标特点特点量大量大实时实时复杂复杂类杂类杂数据无处不在数据无处不在数据无时不有数据无时不有数据无物不生数据无物不生数据无人不感数据无人不感多源性多源性异质性异质性多样性多样性增长性增长性 科学范式科学范式时时 间间方法论方法论 经经 验验上千年以前上千年以前描述自然现象描述自然现象 理理 论论最近几百年最近几百年使用模型,归纳使用模型,归纳 计计 算算最近几十年最近几十年模拟(仿真)复杂现象模拟(仿真)复杂现象数据探查(数据探查(eScienceeScience)目目 前前通过仪器或模拟获取
2、数据,基于软件通过仪器或模拟获取数据,基于软件的数据处理,计算机信息存储,数据的数据处理,计算机信息存储,数据的科学分析的科学分析 p l 2023年3月23日18时32分33。 34 2023年3月23日18时32分35 2023年3月23日18时32分36 2023年3月23日18时32分37 38 2023年3月23日18时32分39 2023年3月23日18时32分41 42 大数据数据标准化标准体系框架大数据数据标准化标准体系框架传输速率编码标准传输方式传输冗余汇交方法汇交内容汇交分类汇交范围采集规范采集规范传输标准传输标准存储标准存储标准汇交标准汇交标准采集内容采集方式采集时间采集
3、地点存储格式存储方式存储安全数据结构建模技术:建模技术:n农作物生长与产量形成机理建模;农作物生长与产量形成机理建模;n农产品消费行为与消费量变化动态建模;农产品消费行为与消费量变化动态建模;n基于多代理系统进行农业智能仿真模拟;基于多代理系统进行农业智能仿真模拟;n专家会商系统结合;专家会商系统结合;n专家智慧动态引入;专家智慧动态引入;n仿真模拟智能化和自适应;仿真模拟智能化和自适应;nnXaXaXaaY22110。u 种子基因数据种子基因数据+ +环境因子数据环境因子数据+ +遗传模型遗传模型+ +超级计算超级计算u 通过计算机动态模拟种子的生产过程、产量形成过程通过计算机动态模拟种子的
4、生产过程、产量形成过程农信采监测数据可视化大数据背景下,大数据背景下,在交互式数据可视化技术在交互式数据可视化技术的支撑下的支撑下,通过通过对高频对高频变产品变产品市场市场数据的数据的处理,实现多品种、多地域、多处理,实现多品种、多地域、多类型类型产品市场变动的内在机理、波动周期、市场走势的可视化呈现产品市场变动的内在机理、波动周期、市场走势的可视化呈现l 定量数据分析模型定量数据分析模型l 定性数据推理分析模型定性数据推理分析模型l 定量与定性信息混合处理模型定量与定性信息混合处理模型p 构建的分析模型所对应的数据结构具备可扩展、可裁剪和交互定制的能构建的分析模型所对应的数据结构具备可扩展、
5、可裁剪和交互定制的能力,可实现时间同步处理。力,可实现时间同步处理。l 多元回归分析模型多元回归分析模型l 相关性(因素)分析模型相关性(因素)分析模型l 差异性分析模型差异性分析模型l 马尔科夫时序数据处理模型等马尔科夫时序数据处理模型等l 动态分类和聚类算法动态分类和聚类算法l 关联分析模型关联分析模型l 序列模式挖掘算法序列模式挖掘算法l 异常情况(现象)发现和分析算法异常情况(现象)发现和分析算法l 基于动态神经网络基于动态神经网络的仿真系统的仿真系统l 支持向量机支持向量机l 动态贝叶斯网络动态贝叶斯网络l 可生长的决策树等分析模型可生长的决策树等分析模型 针对针对可能为定量、定性或
6、半定量的情况,基于模可能为定量、定性或半定量的情况,基于模糊集理论、云变换理论、粗糙集等方法,研究建立可进行定量与糊集理论、云变换理论、粗糙集等方法,研究建立可进行定量与定性数据属性相转换和融合的综合处理方法和模型;定性数据属性相转换和融合的综合处理方法和模型;针对针对的的分析分析问题,建立集成分析模型和决策主问题,建立集成分析模型和决策主题导向的分析模型链,实现对决策问题的协同分析和过程支持。题导向的分析模型链,实现对决策问题的协同分析和过程支持。 大数据环境下,大数据环境下,决策与预测方法向决策与预测方法向“数据数据+模型模型+分析分析”的模式的模式发生着深刻转变,呈现出高频实时、深度定制
7、化、全周期沉浸式交发生着深刻转变,呈现出高频实时、深度定制化、全周期沉浸式交互、跨组织数据整合、多主体决策等特性。互、跨组织数据整合、多主体决策等特性。 大数据具有海量、多源、异构特性、实时处理、决策要素数据大数据具有海量、多源、异构特性、实时处理、决策要素数据分布式采集和存储等特点,迫切需要研究建立专门针对大数据的分分布式采集和存储等特点,迫切需要研究建立专门针对大数据的分析模型、算法和工具。析模型、算法和工具。l 研究智能化的数据处理方法,以适应从处理结构化数据向处理更研究智能化的数据处理方法,以适应从处理结构化数据向处理更多的非结构化数据、从处理单一数据集向迭代增长数据集、从批处多的非结
8、构化数据、从处理单一数据集向迭代增长数据集、从批处理向流处理的转变;理向流处理的转变;l 研究面向管理主题和决策要素,更加趋于自适应和自识别的数据研究面向管理主题和决策要素,更加趋于自适应和自识别的数据算法,以满足大数据智能化、实时性处理的要求;算法,以满足大数据智能化、实时性处理的要求;l 研究研究“跨域关联跨域关联”技术,技术, 通过大数据与云计算的结合,不同领通过大数据与云计算的结合,不同领域数据集的跨域关联有助于发掘产品各个环节的痕迹,从凌乱纷域数据集的跨域关联有助于发掘产品各个环节的痕迹,从凌乱纷繁的数据背后找到产品生产、流通和消费的轨迹,把繁的数据背后找到产品生产、流通和消费的轨迹
9、,把“大数据大数据”变成变成“小数据小数据”,形成反映事物本质规律的,形成反映事物本质规律的“最小数据集最小数据集”。l 在模型与算法构建中,应充分考虑决策因素多元、数据增长、在模型与算法构建中,应充分考虑决策因素多元、数据增长、规模大、静态与动态数据结合、定量与定性信息相混合等特征,规模大、静态与动态数据结合、定量与定性信息相混合等特征,分析模型结构和信息处理机制应具备可扩展性,其结构参数和性分析模型结构和信息处理机制应具备可扩展性,其结构参数和性质参数应具备自适应优化调整的能力。质参数应具备自适应优化调整的能力。l 深度学习是机器学习领域一个新的研究方向,近年来在图像分深度学习是机器学习领
10、域一个新的研究方向,近年来在图像分析、语音识别、计算机视觉等多类应用中取得突破性的进展,其析、语音识别、计算机视觉等多类应用中取得突破性的进展,其动机在于建立模型模拟人类大脑的神经连接结构,在处理图像、动机在于建立模型模拟人类大脑的神经连接结构,在处理图像、声音和文本这些信号时,通过多个变换阶段分层对数据特征进行声音和文本这些信号时,通过多个变换阶段分层对数据特征进行描述,进而给出数据的解释。描述,进而给出数据的解释。l 以图像数据为例,灵长类的视觉系统中对这类信号的处理依次以图像数据为例,灵长类的视觉系统中对这类信号的处理依次为为: 首先检测边缘的初始形状,然后再逐步形成更复杂的视觉形状首先
11、检测边缘的初始形状,然后再逐步形成更复杂的视觉形状。同样地,深度学习通过组合低层特征形成更加抽象的高层表示。同样地,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,给出数据的分层特征表示。属性类别或特征,给出数据的分层特征表示。l深度学习的概念最早由多伦多大学的深度学习的概念最早由多伦多大学的 G.E.Hinton等于等于 2006年提年提出,指基于样本数据通过一定的训练方法得到包含多个层级的深度出,指基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程。传统的神经网络随机初始化网络中的权网络结构的机器学习过程。传统的神经网络随机初始化网络中的权值,导致网络
12、很容易收敛到局部最小值,为解决这一问题,值,导致网络很容易收敛到局部最小值,为解决这一问题,Hinton 提出使用无监督预训练方法优化网络权值的初值,再进行权值微调提出使用无监督预训练方法优化网络权值的初值,再进行权值微调的方法,拉开了深度学习的序幕。的方法,拉开了深度学习的序幕。l深度学习所得到的深度网络结构包含大量的单一元素深度学习所得到的深度网络结构包含大量的单一元素( 神经元神经元) ,每个神经元与大量其他神经元相连接,神经元间的连接强度每个神经元与大量其他神经元相连接,神经元间的连接强度( 权值权值) 在学习过程中修改并决定网络的功能。在学习过程中修改并决定网络的功能。l通过深度学习
13、得到的深度网络结构符合神经网络的特征,因此深通过深度学习得到的深度网络结构符合神经网络的特征,因此深度网络就是深层次的神经网络,即深度神经网络。度网络就是深层次的神经网络,即深度神经网络。l2012年年6月,纽约时报披露了月,纽约时报披露了Google Brain项目,吸引了公项目,吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授Andrew Ng和在大规模计算机系统方面的世界顶尖专家和在大规模计算机系统方面的世界顶尖专家Jeff Dean共同主导,用共同主导,用16000个个CPU Core的并行计算平台训练一种称为的并
14、行计算平台训练一种称为“深深度神经网络度神经网络”(DNN,Deep Neural Networks)的机器学习模型()的机器学习模型(内部共有内部共有10亿个节点。在语音识别和图像识别等领域获得了巨大的亿个节点。在语音识别和图像识别等领域获得了巨大的成功。成功。l 2012年年11月,微软在中国天津的一次活动上公开演示了一个全自月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅。动完成语音识别、英中机器翻译和中文语音合成,效
15、果非常流畅。据报道,后面支撑的关键技术也是据报道,后面支撑的关键技术也是DNN,或者深度学习(,或者深度学习(DL,Deep Learning)。)。n 大数据存储关键技术大数据存储关键技术 数据可通过许多方式来存储、获取、处理和分析。每个大数数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。为了简化各种大数据类型的复杂性,全性和策略。为了简化各种大数据类型的
16、复杂性,可可依据各种参依据各种参数对大数据进行分类数对大数据进行分类,以设计存储模式和选择存储设备。,以设计存储模式和选择存储设备。n 依据大数据类型对业务问题进行分类依据大数据类型对业务问题进行分类业务问题可分类为不同的大数据问题类型。将业务问题映射业务问题可分类为不同的大数据问题类型。将业务问题映射到它的大数据类型。到它的大数据类型。 下表列出了常见的业务问题并为每个问题分配了一种大数据下表列出了常见的业务问题并为每个问题分配了一种大数据类型。类型。公用事业:公用事业:预测功耗预测功耗机器生成的数据l 公用事业公司推出了智慧仪表,按每小时或更短的间隔定期测量水、天然气和电力的消耗。这些智慧仪表生成了需要分析的大量间隔数据。l 公用事业公司还运行着昂贵而又复杂的大型系统来发电。每个电网包含监视电压、电流、频率和其他重要操作特征的复杂传感器。l 要提高操作效率,公司必须监视传感器所传送的数据。大数据解决方案可以使用智慧仪表分析发电(供应)和电力消耗(需求)数据。电信:客户电信:客户流失分析流失分析Web 和社交数据 交易数据l 电信运营商需要构建详细的客户流失模型(包含社交媒体和交易数