《系统运维手册.docx》由会员分享,可在线阅读,更多相关《系统运维手册.docx(32页珍藏版)》请在第壹文秘上搜索。
1、系统运维手册杭州费尔斯通科技有限公司二。二。年十二月目录前言一、运维目标5二、运维范围5(一)数据运维6(二)系统运维7(三)需求运维8(四)事件管理9三、运维技术方案11(一)硬件维护11(二)支持软件11(三)运维环境说明11四、运维流程12(一)运营服务方式121 .故障处理方式122 .用户回访机制133 .定期巡检机制144 .投诉处理机制155 .技术咨询服务内容156 .技术支持电话服务15(二)运维服务形式及流程161 .远程支持服务流程162 .现场支持服务流程193 .定期巡检结合故障现场服务21(三)运维相关表单设计22五、运维管理制度25(一)服务承诺25(二)服务时间
2、26(三)运维人员27(四)数据和代码备份30(五)运维服务管理措施311 .服务行为规范312 .现场服务支持规范313 .问题记录规范32、2_、一前三杭州费尔斯通科技有限公司自成立之日起,就把为客户提供全面,及时优质的服务作为基本宗旨。我们认为,公司的信誉不仅建立在我们提供先进、可靠的产品基础上,而且依赖于我们所提供的广泛优质的服务,为此,公司建立起了良好的运维服务机制,形成了快速响应的技术支持体系,培养了一支强大的技术服务队伍。作为国内著名的生物医药产业解决方案和服务提供商,杭州费尔斯通科技有限公司本着一流服务、客户至上的运维服务原则,建立了一套完整的技术支持体系。在这套体系中,共有工
3、程师100多名,以及高级项目管理工程师以及高级软件技术工程师。他们从事多年技术支持工作,具有丰富的系统维护经验,分布在杭州总部以及北京、成都等分支机构。为了模拟不同的网络环境,杭州费尔斯通科技有限公司投入了数百万确保有足够的模拟设备、工具、场地等硬件条件,以获得最理想的技术支持效果。该环境同时也可以作为对客户工程师和网络管理人员的培训场地。公司在总部划分了四个技术部门:中央技术中心、售前支持总部、售后支持总部和服务支持中心。在四个大区相应划分了售前、售后、服务三个技术部门,负责具体支持各个分支机构,各地的售前和售后技术支持工程师由相应大区的技术总监管理。服务工程师由总部服务中心统一调派,大区的
4、技术总监协同服务。对于本项目,杭州费尔斯通科技有限公司承诺,严格按照杭州费尔斯通科技有限公司的运维服务标准为平台提供良好的技术支持和运维服务。一、运维目标公司运维服务的基本目标是使客户满意。我们将努力帮助我们的客户获得他们事业上的成功,公司始终认为,客户的成功将逐步转化为公司的长远的成功。这种帮助具体体现在,我们将不断地向客户提供:信息系统知识、生物医药产业知识、计算机网络技术和技术咨询。系统运维服务的目标是,对用户现有的系统基础资源进行监控和管理,及时掌握系统平台运营情况和数据情况,反应系统的可用性情况和健康情况,保障平台运营安全、可控,从而保障平台各功能模块可靠、高校、持续、安全运行。二、
5、运维范围针对智慧产业发展平台相关资源及数据而建立的一套覆盖产业洞察、产业组织及产业服务的业务系统。因此系统运维与传统IT系统有一定差异,主要从以下几方面开展:(一)数据运维数据运维包括数据库运维(保障数据库正常运转)及基础数据采集(园区数据定期填报等),保障数据收集通道并定期检查数据库运行情况,及时处理数据库故障,定期对数据库进行备份,保障数据安全。通过制定数据质量校验规则,实施数据质量检核,暴露各系统数据质量问题。结合数据清洗以及数据质量问题处理流程为各系统数据质量提升提供有效支撑。实现由标准生成校验规则、检核方法、检核任务,产生检核结果,对结果判断和问题处理的数据质量全流程系统落地、审批和
6、管理;实现对存量和需求涉及的指标项生成检核方法和检核任务,检查指标落地情况,并按实际情况设置后续周期性检查任务;校验支持用户对数据质量各环节中校验规则、检核方法、检核任务、检核结果、质量问题进行查询、进度跟踪和相关报表统计功能;提供用户手工录入数据质量问题,对质量问题流转分析原因,提交处理提升方案和问题关闭的场所;支持对暴露出的数据质量问题以短信和邮件的方式通知各系统责任人,使问题得到及时的认领和处理。(二)系统运维系统平台运维主要包括保障系统平台安全、流畅运营,满足用户使用要求,具体工作包括定期检查系统运行情况,及时优化并处理中间件故障。尤其在数据安全层面做到不同的功能需要有不同层次的安全接
7、入,即不同级别的人只能进行各自权限范围内的操作,确保数据在处理的各个环节中的保密性、完整性和可用性。具体系统运维范围搜索引擎主要在运维时检测模块功能是否正常,运行环境是否稳定,包括以下子模块内容:序号模块介绍1首页搜索框、热门词汇2知识图谱结果列表、关系图谱展示3企业筛选、列表、详情4机构筛选、列表、详情5临床筛选、列表、详情6政策筛选、列表、详情7人才筛选、列表、详情8产品筛选、列表、详情9会议筛选、列表、详情10招标信息筛选、列表、详情产业洞察主要在运维时检测模块功能是否正常,运行环境是否稳定,包括客户定制的所有子模块:产业服务主要在运维时检测模块功能是否正常,运行环境是否稳定,包括客户定
8、制的所有子模块内容:园区管理主要在运维时检测模块功能是否正常,运行环境是否稳定,园区信息是否需要更新,并及时更新,包括客户定制的所有子模块内容:用户权限管理主要在运维时检测模块功能是否正常,运行环境是否稳定,新增用户权限等信息是否需要更新,并及时更新,统计系统用户访问情况,包括客户定制的所有子模块内容:(三)需求运维需求运维及产品更新:通过对用户提出的需求,经过审核并进行记录、分析、审批、跟踪、变更控制,对需求实施结果进行评估的管理流程。根据需求开发工作的特点,需求管理流程可以划分为需求收集、需求评审、需求分配、需求分析、需求实现和需求测试、需求上线、需求关闭等八个主要阶段。需求收集:业务人员
9、按照标准需求模板填写需求,提交需求。既可以采用电子流的方式进行需求收集,也可以根据实际需要定期。需求评审:运维人员接到业务需求后,相应的需求管理人员应组织开展业务需求评审,进行需求的评审确认,需求评审应召集需求提出部门、集成商以及其他需求相关部门参加。需求分配:相关需求管理人员应当按照系统逻辑将业务需求细分,并分配给相应的需求分析人员。需求分析:需求分析的过程应当由需求分析人员主导,组织需求提出方和集成商共同完成。对于开发类需求,需求分析阶段应形成规格化的需求功能规格说明书,并且对开发工作量、开发完成时间和人力资源安排做出预先规划。对于资源对接类需求,需求分析人员应会同资源方,经过需求分析后进
10、行需求对接。需求实现:运维人员根据用户意见指导IT人员进行需求开发。需求测试:需求实现后,在模拟环境中组织需求提出部门和其他相关人员进行上线前的业务功能验证。需求上线:各方确认后,需求进行上线。需求关闭:甲方对上线进行验收,关闭需求。(四)事件管理事件管理流程的主要功能是尽快解决出现的事件,保持业务支撑系统的稳定性。事件管理流程始于事件的接收和报告,结束于事件的解决。该流程包含下述主要内容:事件检测和记录:这个环节是事件管理流程的起点。所有用户或系统报告的IT事件必须由此步骤开始。此步骤的目的是在事件发生时快速准确地发现,以协助事件的诊断和解决并通知相关人员。在此步骤中将会收集创建事件记录所需
11、的信息。该环节的关键是信息的准确性和完整性。分类和初步支持:对于每个事件,需要确立优先级和分类。若没有现成的解决方案或临时解决措施,该事件将分配给合适的支持人员对此进行调查。调查和诊断:若支持人员无法解决事件,可运用自身技能、知识库、诊断工具等进行更加深入的分析以找到恢复服务的临时措施,必要时可调用多名支持人员以寻求解决措施。解决和恢复:支持人员实施事件的解决方案,并将解决完毕的事件转回帮助台,由帮助台通知用户解决的结果,并得到用户的确认。优先级为紧急的事件(紧急事件)和事件升级:对于紧急事件,帮助台应立即提交给一线人员,由一线人员判断,上报给事件经理和相关的管理层,由事件经理决定紧急事件的处
12、理方式,确保其得到最快速的解决。当事件处理超过预期时限,将自动通知处理人员和相应管理层,以引起相关人员和管理人员的重视和参与。结束事件:当用户确认事件解决后,此时可结束该事件。三、运维技术方案(一)硬件维护本项目不涉及硬件内容,全部硬件环境由客户提供,硬件运维需求可联系硬件供应商。(二)支持软件系统基础:Kubernetes(1.18.8)Rancher(v2.4.8)Docker(19.03.12)应用服务器中间件:Redis(6.0.8)、zookeeper(3.6.1)图库(含JanUSgraPh(0.3)、Cassandra(3.11)Elasticsearch(5.5.2)、MinI
13、O文件服务器、Apollo应用配置中心、Kibana控制台数据库:MySqI主从结构(5.7.31)、PoStgreSQL集群(12)、Elasticsearch(6.8.10)(三)运维环境说明IP说明用途172.16.3.82Master作为系统主节点172.16.3.83Master作为系统主节点172.16.3.84Master作为系统主节点172.16.3.85Node作为应用节点172.16.3.86Node作为应用节点172.16.3.87Node作为应用节点172.16.3.88Node作为应用节点172.16.3.89Node作为应用节点172.16.3.90Node-dat
14、a作为系统存储172.16.3.91Node-data作为系统存储172.16.3.92Node-data作为系统存储172.16.3.93Node-stor作为系统备份172.16.5.15Node-ingress作为系统入口和出口172.16.5.16Node-ingress作为系统入口和出口四、运维流程(一)运营服务方式1 .故障处理方式(1)响应方式与时间当工程项目内的系统发生故障时,用户可使用电话、传真、信函、电子邮件等方式通知我方,并应尽可能详细地告知故障现象、出错信息等。我方的运维服务人员将在指定时间内以现场和远端服务(远程拨入系统或通过Intemet网)的方式予以处理。用户的疑
15、问和咨询要求将由运维服务人员以商定的方式(电话、传真、电子邮件等)在规定时间内予以答复。在使用过程中发生质量问题,我们在接到电话后1小时服务到位。(2)处理流程当收到用户的故障投诉和服务要求后,由项目工程的运维服务实施小组进行初步的故障分析和判断,常规问题和故障由运维服务实施小组直接予以解决和排除,并及时向用户反馈处理情况;实施小组无法独立判断和解决的问题和故障,依照应急解决方案进行临时处置,及时向用户反馈处理情况,同时立即上报运维服务管理小组。管理小组接报后,在其经验和职权范围内可解决的问题,由其成员协调并直接处理故障,或指导运维服务实施小组进行处理,并及时向用户反馈处理情况;需运维服务领导小组决策并协调的故障或问题,由管理小组采取应急措施予以处理,同时上报运维服务领导小组并及时向用户反馈处理情况。运维服务领导小组接报后,应进