《知识图谱与图数据库中台基础框架定制开发项目建设要求.docx》由会员分享,可在线阅读,更多相关《知识图谱与图数据库中台基础框架定制开发项目建设要求.docx(5页珍藏版)》请在第壹文秘上搜索。
1、知识图谱与图数据库中台基础框架定制开发项目建设要求一、项目总体要求实现关联图谱分析的图数据库中台,包含支持分布式存储,分布式计算的图数据库,为知识抽取、实体融合、关系挖掘、算法建模、知识推理等全流程服务提供安全性、可用性和高性能的技术支撑:(1)实现分布式存储,分布式计算的图数据库;(2)实现关联图谱分析的图数据库中台。所交付的知识图谱与图数据库中台基础框架包括构建高性能的图数据库系统,支持分布式存储和计算,支持处理千亿节点、万亿边的大规模数据集,系统需要提供丰富的可视化能力和实时图查询功能,BI联动分析能力。支持多种图算法和自定义图挖掘能力,要求内置基础算法和金融业务算法。对于管理后台,系统
2、应提供图建模可视化、数据源管理、项目管理、用户权限管理等功能。同时,系统需要提供服务能力,包括对外部系统的服务、导出结果支持、SDK支持等。系统建设内容包括但不限于如下服务内容:(一)图数据库引擎图存储支持千亿节点,万亿边的数据集,为图数据库提供高吞吐、低延迟的数据访问能力;图查询提供分布式、可扩展的点、边查询能力;支持从图谱平台进行入口查询;支持图语言查询,兼容OPenCyPher;图计算支持高性能、分布式的图算法执行,通过图算法检测图结构,揭示各个点之间关联关系的内在特征,支持O1.AP、OErP场景;支持多种内置图算法,如:模式挖掘类算法、搜索类算法、路径类算法、社区类算法、网页排名类算
3、法、连通类算法、游走类算法、相似性类算法和传播类算法;支持用户自定义图算法。(一)图库管理功能图模型:可视化SChema建模及管理,直观展示点边关系,应用SChema到指定图空间;多图管理:支持图实例的增删改查;支持多图共存,每个图操作相互独立、互不影响;支持图SChema和图数据隔离、互不可见;时序图:支持时序图,支持基于时序图的图分析;数据导入:支持在线/离线导入、全量/增量导入;支持对错误数据导入的异常处理;支持文件CSV、Mysql,OrcleHive,Neo4J等数据导入能力以及CSV导出能力;支持SPark、Flink接入读写图数据库;数据导出:支持数据在线/离线导出,支持数据过滤
4、导出。(三)图库运维备份恢复:支持数据备份和恢复;支持全量备份、全量恢复;支持增量备份、增量恢复;监控告警:支持监控包括但不限于作业、集群、服务、节点、图实例的状态监控,能够满足管理员和运维人员进行监控和排查故除;集群管理:安装、升级、运维、配置、数据备份和恢复;支调度任务管理:支持任务调度、状态查看、任务看板。(四)图库客户端提供Java、PythonRestAPI等供图应用访问图数据库。(五)图谱知识构建本体模型管理:负责关联图谱本体模型的设计、修改、查询;可视化配置:支持同一实体根据不同策略设置不同的展示方式和图例,如关系网络中失联客户通过颜色、大小、图标进行区分;支持同一关系根据不同策
5、略设置不同的展示方式和图例。(六)图谱知识存储数据接入:支持直连文件、关系型数据库、Hive.消息队列等数据源;支持用户自定义上传、删除、预览数据,兼容如CSV数据格式;支持以批量和实时方式接入数据;图数据管理:知识对图数据进行概览查看,并能查看明细数据。(七)图谱知识挖掘图谱建模:支持用户通过可视化托拉拽形式使用内置的算子或者自定义算法进行图模型的开发;支持常用图模型算子搭建场景,如输入输出算子、数据处理算子、节点特征(包括但不限于HrrS、K-Core.PageRank,三角计数、链点识别、环点识别)、路径分析(包括但不限于链路识别、环路识别、单源最短路径、多源最短路径)、子图识别(包括但
6、不限于K-COre子图、最小生成树、子图匹配、强连通分支、星型子图、连通分支、金字塔子图、K层展开)、社区划分(包括但不限于1.OUVain、标签传播、边社区命名)、图嵌入(包括但不限于DeepWalkNode2Vec).图传导(包括但不限于因子传导、波纹传播、标记传到)等;支持机器学习算子搭建场景,如特征工程(划分样本、特征筛选IV、有效性分析等)、GBDTXGBoostFunkSVD;场景管理:支持新建、复制、编辑、分享、删除、导入、导出场景;场景调度:支持对场景的调度进行配置,包括手动执行、定时执行、任务依赖等;算子管理:支持手动上传算子,并能对算子的版本进行管理。(八)图谱知识分析图数
7、据查询:通过图查询语言以及用户友好的前端图查询操作,包括不限于最短路径查询,全路径查询,条件查询,查询结果的保存,复现,导出等;支持历史记录快速点选;支持添加查询,可以通过添加查询方式将多个查询结果保持在图分析页面;图谱可视化:对关联关系的展示及可视化操作,包括不限于层级展开,按条件过滤,标记,样式配置等操作;支持通过框选方式框选多个实体,并对实体进行快速统计分析、关联路径、隐藏、批量实体展开等操作;支持上一步下一步操作,对操作进行回撤和恢复;支持层级选择,可以对某一实体的某一层级关联结果进行快速披露选择;支持高级展开,对图内的某一实体展开度数、展开实体和关系进行筛选过滤;支持力型、树形和网格
8、图谱布局;图实时分析:图分析页面提供实时图算法分析功能,包含1。UVain、环路识别、三角形识别、度中心性、PageRank等;统计分析:支持实时统计突袭页面中实体、关系、标签数量;Bl分析:支持通过Bl形式对图分析页面中的实体进行分析、如柱状图、环形图、矩阵图等;时序模式:支持以时间的视角来进行分析,横轴为时间,纵轴为实体列表,可以快速查看实体间关系的流转;手工打标:支持业务人员对图分析页面中的实体进行手工打标、打标分为私有标签(仅自己可见)和云标签(权限范围内可见)。(九)图谱知识发布APl分布:图数据,图查询结果、配置的图特征,模型计算结果能够被外部接口调用;应用发布:知识图谱平台支持将
9、图分析页面和功能以应用的形式发布至行内下游系统,且发布的应用有独立的功能管理模块;H5发布:图谱可视化能够以H5的形式嵌入到其他系统;发布管理:支持对知识发布的内容进行挂你,包括上线、下线、预览、导出等。(十)图中台权限管理支持按层级进行权限管理,可以按照组织结构进行权限的分层管理,最多支持10个层级的组织搭建,且每个层级之间支持权限继承;支持对数据进行安全合规的管理,可以对数据的字段级别进行权限管控;支持对功能进行按钮层级管控。二、系统架构1 .采用分布式架构,支持分布式存储和计算性能;2 .具备在线扩容,扩容后支持数据重分布操作;具备自动负载均衡能力;3 .系统不存在单点故隙导致集群整体不
10、可用,支持AZ高可用;支持数据多副本;支持在线备份与恢复;4 .提供角色和权限分组管理能力,能够按照角色控制访问权限;支持至少图库级别的授权管理;提供操作日志审计功能;5 .安装部署需要在基础用户之外额外建立应用用户,运行监控用户;6 .应用日志需按照规范进行级别的分类、格式的修改,日志文件要有明确生命周期,按照行内统一要求格式生成、存放、备份、清理;7 .系统在设计时要考虑数据的生命周期,历史数据的迁移等;流水表数据需按照行内规范进行切分及归档;8 .应用连接数据库密码要求密文配置,并为运维人员提供密码修改工具;数据库连接要具备健壮性,网络断掉恢复应用要自动重连,部分RAC节点异常不会影响应
11、用正常运行;9 .系统设计要完善参数化,可配置化,具备日常查询统计等报表功能;10 .设计时要避免使用FTP协议传输文件,只能使用SFTP,共享NAS等方式交换文件;11 .系统间采用共享NAS交换文件时,要遵循尽可能少挂载点原则,尽量共用系统间NAS存储,在存储上建二级目录以及三级目录使用;三、性能要求1 .非数据查询时间:WI秒;2 .实时数据更新速率:=30000TPS;3 .批量导入大于100万条s,实时导入大于5万条;四、可用性、安全要求1 .权限控制:通过权限角色管理对系统进行访问限制,相关人员只能访问权限角色范围内的数据;2 .恢复时间目标(RTO):灾难发生后,服务恢复时间在30分钟以内;3 .恢复点目标(RPO):灾难发生后,服务从断点处快速恢复,保证数据不丢失;4 .UI页面清晰美观,用户体验佳;操作符合用户习惯,无冗余或重复交互;5 .产品具有良好的开放性,支持二次开发;6 .系统建设中要补充完善安装部署手册、运维管理手册、应急处理手册等。