电商大数据分析平台项目解决方案说明书.docx

上传人:p** 文档编号:1273028 上传时间:2024-12-27 格式:DOCX 页数:11 大小:58.41KB
下载 相关 举报
电商大数据分析平台项目解决方案说明书.docx_第1页
第1页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第2页
第2页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第3页
第3页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第4页
第4页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第5页
第5页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第6页
第6页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第7页
第7页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第8页
第8页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第9页
第9页 / 共11页
电商大数据分析平台项目解决方案说明书.docx_第10页
第10页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《电商大数据分析平台项目解决方案说明书.docx》由会员分享,可在线阅读,更多相关《电商大数据分析平台项目解决方案说明书.docx(11页珍藏版)》请在第壹文秘上搜索。

1、电商大数据分析平台项目解决方案说明书XX科技股份有限公司编制目录一、项目存在问题及衡解决问题21 .存花问题22 .霜解决问题2二、裤袂方案41.方案架构42,核心技术5三开发范围81 .数据生产82 .数据采集/消费83 .数据分析94 .数据展示10一、项目存在问题及需解决问题1 .存在问题1) HbaSe多实例2) 安全模式重启认证3) API接口4) 数据服务能力5) 多组件开发2 .需解决问题1) HbaSe多实例为Hbase多实例的管理存在难点。通过配置不同的hbase客户端的配置文件,调度代码从相应位置获取并加载配置文件,从而解决多实例管理问题。2) 安全模式重启认证客户端在安全

2、模式下,需要24小时后定时重启一次客户端。采用crontab自动执行定时She1.1.脚本的方式去定时重启jar包,解决了定时重启的问题,保证项目能自动化部署并实现高可用。3) API接口数据服务平台DASP与该大数据平台各组件AP1.对接困难。该大数据平台目前提供API对接方式,但是缺乏对接经验,官方文档不足,调试接口不稳定。目前,DASP应用服务平台系统暴露RESTFU1.接口,解决跨平台使用,实现了项目解耦、扩展性、易用性、安全等问题。4) 多组件开发大数据平台组件较多,包括1.oader,Hdfs.Hive,HbaseKy1.in,Es,RediS等,各组件的安全认证、数据传输和联通测

3、试流程的稳定性与安全性需要反复验证。5) 数据服务能力以往,数据服务是通过定义数据服务接口的方式加以实现。随着数据应用服务需求的不断增加,数据接口难管理问题日益凸显。本次数据应用服务平台,主要通过定义DS1.,对不同技术语言进行SQ1.的转化,从而真正实现SQ1.onHad。P的数据服务能力,提高平台适用性。二、解决方案1 .方案架构毗Iap1.bducaiS-S41.KafkaWtrveaintCt第存储以1.y44HMSBHBaSe是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的GoOg1.e论文“Bigtab1.e:一个结构化数据的分布式存储系统。就像Bigtab

4、Ie利用了GOog1.e文件系统(FiIeSyStenI)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtab1.e的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBaSe基于列的而不是基于行的模式。系统采用面向对象的软件设计方法,把整个系统看作是多个离散对象的组合。系统设计时,首先把业务流程分解成功能模块及其业务实体对象,然后根据业务流程分析对于这些业务实体对象的操作方法,形成业务处理对象,最后把各个功能模块关联起来,形成系统。软件设计是一个将需求转变为软件的过程

5、,系统通过逐步求精使得设计陈述逐渐接近于源代码。系统程序采用MVC的设计思想,将展现逻辑、控制逻辑、业务处理逻辑分离。系统采用参数化的设计思想,定义和管理系统的实体及配置,调整实体以适应外部变化。系统采用J2EE技术保证程序逻辑实现的平台无关性,并便于安装部署。系统采用AJAX技术,提高客户操作的交互性,保证实际使用的易用性。系统采用echarts可视化框架实现数据展示。2 .核心技术(1) )HadoopHadoop是一个由APaChe基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。(2) SpringMVCSp

6、ringMVC:属于SPringFrameWork的后续产品,已经融合在SpringWebFIOW里面。Spring框架提供了构建Web应用程序的全功能MVC模块。(3) MyBatisMYBatis:是支持普通SQ1.查询,存储过程和高级映射的优秀持久层框架。MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检索。MyBatis使用简单的XM1.或注解用于配置和原始映射,将接口和JaVa的POJOS(P1.ainO1.dJavaObjects,普通的JaVa对象)映射成数据库中的记录。(4) EchartsECharts是一款基于Javascript的数据可视化图表库,提

7、供直观,生动,可交互,可个性化定制的数据可视化图表。(5) MySQ1.MySQ1.是一个关系型数据库管理系统,由瑞典MySQ1.AB公司开发,属于OraCIe旗下产品。MySQ1.是最流行的关系型数据库管理系统之一,在WEB应用方面,MySQ1.是最好的RDBMS(Re1.ationa1.DatabaseManagementSystem,关系数据库管理系统)应用软件之-OMySQI.是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQ1.所使用的SQ1.语言是用于访问数据库的最常用标准化语言。MySQ1.软件

8、采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择MySQ1.作为网站数据库。(6) Hivehive是基于Had。P构建的一套数据仓库分析系统,它提供了丰富的SQ1.查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQ1.查询功能;可以将SQ1.语句转换为MaPRedUCe任务运行,通过自己的SQ1.查询分析需要的内容,这套SQ1.简称HiveSQ1.,使不熟悉mapreduce的用户可以很方便地利用SQ1.语言查询、汇总和分析数据。而mapreduce开

9、发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQ1.略有不同,但支持了绝大多数的语句如DD1.、DM1.以及常见的聚合函数、连接查洵、条件查询。它还提供了一系列的:具进行数据提取转化加载,用来存储、查询和分析存储在HadooP中的大规模数据集,并支持UDF(User-DefinedFunction)、UDAF(USer-DefneSAggregateEunction)和UDTF(User-DefinedTab1e-GeneratingFunction),也可以实现对map和reduce函数的定制,为数据操作提供了良好的伸缩性和可扩

10、展性。(7) HBASEHBase-HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCSerVer上搭建起大规模结构化存储集群。(8) ZookeeperZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Goog1.e的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。(9) F1.umeF1.Ume是C1.OUdera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,F1.

11、ume支持在日志系统中定制各类数据发送方,用于收集数据;同时,F1.ume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。三、开发范围1 .数据生产对于该模块的业务,即数据生产过程,一般并不会让你来进行操作,数据生产是一套完整且严密的体系,这样可以保证数据的安全性。但是如果涉及到项目的一体化方案的设计(数据的产生、存储、分析、展示),则必须清楚每一个环节是如何处理的,包括其中每个环境可能障藏的问题;数据结构,数据内容可能出现的问题。2 .数据采集/消费数据采集模块(消费),在企业中你要清楚流式数据采集框架f1.ume和kafka的定位是什么。我们在此需要将实时数据通过f1.ume

12、采集到kafka然后供给给hbase消费。f1.ume:C1.OUdera公司研发适合下游数据消费者不多的情况;适合数据安全性要求不高的操作;适合与Hadoop生态圈对接的操作。kafka:Iinkedin公司研发适合数据下游消费众多的情况;适合数据安全性要求较高的操作(支持rep1.ication);因此我们常用的一种模型是:线上数据一f1.umekafkaf1.ume(根据情景增弱该流程)HD1.-S线上数据一f1.umekafkasparkstreaming实时流式处理消费存储模块流程图:3 .数据分析我们的数据巳经完整的采集到了HBaSe集群中,这次我们需要对采集到的数据进行分析,统计出我们想要的结果。注意,在分析的过程中,我们不一定会采取一个业务指标对应一个mapreduce-job的方式,如果情景允许,我们会采取一个mapreduce分析多个业务指标的方式来进行任务。分析模块流程图:业务指标:a)服装销售数据包括:季度男装销售数据、季度女装销售数据。b)各地区服装销售数据包括:北京、上海、。c)热销险种包括:财产类、健康类、意外伤害、保证保险、责任保险、信用保险、家庭财产险、其他险。4 .数据展示数据展示模块流程图:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 解决方案

copyright@ 2008-2023 1wenmi网站版权所有

经营许可证编号:宁ICP备2022001189号-1

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!