修改密码

请输入密码
请输入密码 请输入8-64长度密码 和 email 地址不相同 至少包括数字、大写字母、小写字母、半角符号中的 3 个
请输入密码
提交

修改昵称

当前昵称:
提交

申请证书

证书详情

Please complete this required field.

  • Ultipa Graph V4

Standalone

Please complete this required field.

Please complete this required field.

服务器的MAC地址

Please complete this required field.

Please complete this required field.

取消
申请
ID
产品
状态
核数
申请天数
审批时间
过期时间
MAC地址
申请理由
审核信息
关闭
基础信息
  • 用户昵称:
  • 手机号:
  • 公司名称:
  • 公司邮箱:
  • 地区:
  • 语言:
修改密码
申请证书

当前未申请证书.

申请证书
Certificate Issued at Valid until Serial No. File
Serial No. Valid until File

Not having one? Apply now! >>>

ProductName CreateTime ID Price File
ProductName CreateTime ID Price File

No Invoice

为什么数据加载,会影响最终的结果正确性?

回答此问题
解决
Pearl C2022-04-13

在关于图数据库的测试中,数据加载都涉及什么?为什么数据加载,会影响最终的结果正确性?

1 个回答

  • 1 点赞

    数据加载通常会有几个指标:

    • 数据集的大小、复杂度
    • 加载时间
    • 存储空间

    其中,数据集大小关注的主要是点、边的数量以及复杂度。通常为了模拟接近真实商业场景,数据集的大小都在千万到十亿的量级。比如,以国民经济中占比最大的金融服务行业为例,全国工商图谱、各家银行交易流水所构成的图数据集的规模基本就在百万到百亿级的量级。复杂度一般会采用图的密度或点、边数量比。图的密度对于有向简单图而言等于


    其中,V为顶点的数量,E为边的数量,图的密度最大为1。

    值得一提的是,实际上很多工业界的图并不是简单图,而是多边图,即一对顶点间可能存在多条边,密度公式并不适用,因此用点、边比来表达更为简洁,即边的数量除以点的数量=(|E|/|V|)。

    以Twitter-2010数据集为例(http://an.kaist.ac.kr/traces/WWW2010.html),其点边比=35.25(密度为0.000000846),通常点边比大于10的图数据集,进行深度挖掘或遍历时的挑战就更容易出现指数级计算复杂度增加的挑战。

    加载时间和存储空间分别可以表示一款图数据库系统需要多久才能全量加载被测试的图数据集,以及加载完成后其所需要的持久化存储空间。

    要注意的是,加载时间可以显示出一款图数据库系统的数据吞吐能力,越短越好!而存储空间占用则显示其对于资源占用的情况,不同的系统因为有不同的数据存储与计算结构设计思路,空间占用情况可能会存在巨大的差异——这也是NoSQL系统或分布式系统遵循去正则化(去归一化)原则的一个特点,通过存储多份拷贝,包括分片、分区等技术来实现更高效的计算效率与高可用性。

    Ultipa Admin 2022-04-13
    添加评论...

    取消
    提交

你的回答:

提交
取消