高性能 SQL 集群引擎 PGSpider 3.1.0 发布

发布于 2023-07-12,作者:东芝
相关开源

我们刚刚发布了 PGSpider v3.1.0。

PGSpider 是用于分布式大数据的高性能 SQL 集群引擎。
PGSpider 可以使用外部数据包装器 (FDW) 访问多个数据源,并垂直检索分布式数据源。
PGSpider 的使用方式与 PostgreSQL 相同。您可以使用任何客户端应用程序,如 libpq 和 psql。

此版本改进了以下项目:

  • 支持多租户表的批量插入
  • 支持通过多租户表将记录插入到多个数据源
  • 开发了表迁移功能。
  • 开发了并行分布式存储函数。

PGSpider 支持以下功能:

多租户
用户可以通过一个 SQL 轻松获取多个表中的记录。如果每个数据源中都存在具有相似模式的表,PGSpider 可以将它们视为一个虚拟表:我们称之为多租户表。
关于多租户表的插入,数据通过轮询算法分布式地插入到数据源中(此规范已从先前版本改进)。

并行处理
PGSpider 并行执行查询并从子节点获取结果。
PGSpider 将多租户表扩展为子表,为每个子表创建新线程以访问相应的数据源。

下推
WHERE 子句、聚合函数和目标列表中的 SQL 函数被下推到子节点。
如果查询中的所有表都位于单个数据源中,则 JOIN 也会被下推。
当使用 AVG、STDDEV 和 VARIANCE 时,下推到多租户表会发生错误。PGSPider 改进了此错误,PGSpider 可以执行它们。如果查询中的所有表都位于单个数据源中,JOIN 也会被下推。

这是由东芝数字创新技术中心开发的。
请查看存储库以了解详情,并告诉我们您的反馈。

源代码存储库:https://github.com/pgspider/pgspider

此致,
片山大河