新闻动态  
为您提供行业内的最新动态
新闻动态
图数据库 | Graph 1.0至2.0的变化
发布时间:2020-07-07
  |  
关注:

自2007 年第一款商用图数据库Neo4j 诞生以来,图数据库的发展虽然不过十余年,却已经历了底层存储、架构等技术方面的重大变革,由最初的单机图数据库向分布式大规模图数据库发展。

01

 

Graph 1.0:小规模原生图存储

Graph 1.0 时代(2007 年-2010 年),以 Neo4j 为代表,采用原生图的方式实现了图存储,获得了比关系型数据库快得多的复杂关联数据查询性能。

 

如下图所示,O’REILLY 出版的《图数据库》一书中在5000 万点和边的数据规模下,对比了Neo4j 与关系型数据库在关联查询的时间对比,随着关联关系深度的增加,关系型数据库性能呈指数倍增长甚至无法执行,图数据库的优势不言而喻。然而,当时在软件架构设计上只支持单机部署,图数据库产品性能和业务扩展能力有限。

 

Neo4j 与某关系型数据库在关联查询的性能对比

02

Graph 2.0:分布式大规模图存储

Graph2.0 时代(2010 年-至今),随着大数据和物联网的蓬勃发展,数据本身的丰富程度增加,数据之间的关联性增多,扩展性成为数据库行业共同的痛点,分布式架构的兴起催生了很多的分布式图数据库项目。

 

在这一发展阶段,支持分布式大规模图存储是关注的重点,图存储是否以原生的方式实现,不再是那么重要的问题,例如OrientDB 选择了支持原生图存储,自研了分布式图数据存储模块,而JanusGraph 则是在其他数据库(Cassandra、HBase 等)之上封装实现图的语义。通过支持在通用硬件上进行水平扩展(Scale Out),分布式图数据库具备了在海量关联关系数据的存储与实时深度查询上绝佳的性能,但是在全图分析等需要迭代计算的场景下仍需要结合图处理引擎(如GraphX,参见第三章)进行离线计算与分析。

 
我国的图数据库产业发展也随着时代的更替而蓬勃发展,产品形态丰富,经详细调研及初步估计,当前国内的图数据库已有20 余款产品,主要有四类研发主体发起,其特点如下:
  1. 各大高校实验室、研究所在图数据库发展初期研究开发的数据库产品,主要聚焦于支持RDF 图模型的图数据库;
  2. 大型互联网企业由于自身积累的海量数据以及业务需求,催生相关的数据库产品。这些产品考虑到企业原有数据系统的情况,结合原有数据系统而开发的非原生图数据库不在少数,但绝大多数使用分布式架构以供企业内部使用,产品迭代较快,当前也有部分产品商业化;
  3. 新兴创业公司,他们的产品的最大特点是完全自主研发的图数据库,强调高性能与数据库的事务性,但是产品版本更新迭代相对较少,目前也在往分布式架构发展;
  4. 传统IT 服务商在图数据库的发展浪潮下,也加快图数据库产品的研发步伐,并且通常与企业已有的其它产品(例如知识图谱工具)一同对外输出。
 
总体来看,国内数据库产品以属性图为主,并且有向分布式发展的需求与趋势,强调对实时复杂图查询的性能,多使用自研的查询语言,部分产品支持Cypher 或Gremlin 等查询语言。
 
以上内容节选自《图数据库白皮书》
 
 

本文由 北京RPA平台_机器人流程自动化(RPA)-数易轩 发表,并经本网编辑。转载此文章须经作者同意,并请附上出处及本页链接。

原文链接/news/industry/tushujuku/2020/0707/193.html