2024年9月26日: PostgreSQL 17 发布!
支持的版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:开发版
不支持的版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3

F.19. intarray — 操作整数数组 #

intarray 模块提供了一些用于操作无空值的整数数组的有用函数和运算符。它还支持使用某些运算符进行索引搜索。

如果提供的数组包含任何 NULL 元素,所有这些操作都将引发错误。

许多这些操作仅对一维数组有意义。虽然它们可以接受更多维度的输入数组,但数据在存储顺序中被视为线性数组。

此模块被认为是受信任的,也就是说,非超级用户如果在当前数据库上具有CREATE权限,则可以安装它。

F.19.1. intarray 函数和运算符 #

intarray 模块提供的函数显示在表 F.8中,运算符显示在表 F.9中。

表 F.8. intarray 函数

函数

描述

示例

icount ( integer[] ) → integer

返回数组中的元素数量。

icount('{1,2,3}'::integer[])3

sort ( integer[], dir text ) → integer[]

按升序或降序对数组进行排序。dir 必须是ascdesc

sort('{1,3,2}'::integer[], 'desc'){3,2,1}

sort ( integer[] ) → integer[]

sort_asc ( integer[] ) → integer[]

按升序排序。

sort(array[11,77,44]){11,44,77}

sort_desc ( integer[] ) → integer[]

按降序排序。

sort_desc(array[11,77,44]){77,44,11}

uniq ( integer[] ) → integer[]

移除相邻的重复项。通常与sort一起使用以移除所有重复项。

uniq('{1,2,2,3,1,1}'::integer[]){1,2,3,1}

uniq(sort('{1,2,3,2,1}'::integer[])){1,2,3}

idx ( integer[], item integer ) → integer

返回与item匹配的第一个数组元素的索引,如果未找到匹配项则返回 0。

idx(array[11,22,33,22,11], 22)2

subarray ( integer[], start integer, len integer ) → integer[]

提取从位置start开始,包含len个元素的数组部分。

subarray('{1,2,3,2,1}'::integer[], 2, 3){2,3,2}

subarray ( integer[], start integer ) → integer[]

提取从位置start开始的数组部分。

subarray('{1,2,3,2,1}'::integer[], 2){2,3,2,1}

intset ( integer ) → integer[]

创建一个单元素数组。

intset(42){42}


表 F.9. intarray 运算符

运算符

描述

integer[] && integer[]boolean

数组是否重叠(至少有一个共同元素)?

integer[] @> integer[]boolean

左侧数组是否包含右侧数组?

integer[] <@ integer[]boolean

左侧数组是否包含在右侧数组中?

# integer[]integer

返回数组中的元素数量。

integer[] # integerinteger

返回与右侧参数匹配的第一个数组元素的索引,如果未找到匹配项则返回 0。(与idx函数相同。)

integer[] + integerinteger[]

将元素添加到数组末尾。

integer[] + integer[]integer[]

连接数组。

integer[] - integerinteger[]

从数组中移除与右侧参数匹配的条目。

integer[] - integer[]integer[]

从左侧数组中移除右侧数组的元素。

integer[] | integerinteger[]

计算参数的并集。

integer[] | integer[]integer[]

计算参数的并集。

integer[] & integer[]integer[]

计算参数的交集。

integer[] @@ query_intboolean

数组是否满足查询?(见下文)

query_int ~~ integer[]boolean

数组是否满足查询?(@@的交换子)


&&@><@运算符等效于PostgreSQL的内置同名运算符,除了它们仅适用于不包含空值的整数数组,而内置运算符适用于任何数组类型。在许多情况下,此限制使它们比内置运算符更快。

@@~~运算符测试数组是否满足查询,查询表示为专门的数据类型query_int的值。查询由整数构成,这些整数会与数组的元素进行检查,并可能使用&(AND)、|(OR)和!(NOT)运算符组合。可以根据需要使用括号。例如,查询1&(2|3)匹配包含 1 且还包含 2 或 3 的数组。

F.19.2. 索引支持 #

intarray&&@>@@运算符以及常规数组相等性提供索引支持。

提供了两个参数化的 GiST 索引运算符类:gist__int_ops(默认使用)适用于小型到中型数据集,而gist__intbig_ops使用更大的签名,更适合索引大型数据集(即包含大量不同数组值的列)。该实现使用具有内置有损压缩的 RD 树数据结构。

gist__int_ops将整数集近似为整数范围的数组。其可选的整数参数numranges确定一个索引键中范围的最大数量。numranges的默认值为 100。有效值介于 1 和 253 之间。使用更大的数组作为 GiST 索引键会导致更精确的搜索(扫描索引的较小部分和更少的堆页),但代价是索引更大。

gist__intbig_ops将整数集近似为位图签名。其可选的整数参数siglen确定签名的长度(以字节为单位)。默认签名长度为 16 字节。签名长度的有效值介于 1 和 2024 字节之间。更长的签名会导致更精确的搜索(扫描索引的较小部分和更少的堆页),但代价是索引更大。

还有一个非默认的 GIN 运算符类gin__int_ops,它也支持这些运算符以及<@

GiST 和 GIN 索引之间的选择取决于 GiST 和 GIN 的相对性能特征,这些特征在其他地方进行了讨论。

F.19.3. 示例 #

-- a message can be in one or more sections
CREATE TABLE message (mid INT PRIMARY KEY, sections INT[], ...);

-- create specialized index with signature length of 32 bytes
CREATE INDEX message_rdtree_idx ON message USING GIST (sections gist__intbig_ops (siglen = 32));

-- select messages in section 1 OR 2 - OVERLAP operator
SELECT message.mid FROM message WHERE message.sections && '{1,2}';

-- select messages in sections 1 AND 2 - CONTAINS operator
SELECT message.mid FROM message WHERE message.sections @> '{1,2}';

-- the same, using QUERY operator
SELECT message.mid FROM message WHERE message.sections @@ '1&2'::query_int;

F.19.4. 基准测试 #

源代码目录 contrib/intarray/bench 包含一个基准测试套件,可以针对已安装的 PostgreSQL 服务器运行。(它还需要安装 DBD::Pg。)要运行

cd .../contrib/intarray/bench
createdb TEST
psql -c "CREATE EXTENSION intarray" TEST
./create_test.pl | psql TEST
./bench.pl

bench.pl 脚本有很多选项,在没有参数运行时会显示这些选项。

F.19.5. 作者 #

所有工作均由 Teodor Sigaev () 和 Oleg Bartunov () 完成。有关更多信息,请访问 http://www.sai.msu.su/~megera/postgres/gist/。Andrey Oktyabrski 在添加新函数和操作方面做了大量工作。

提交更正

如果您在文档中发现任何不正确的内容、与您对特定功能的体验不符或需要进一步说明的内容,请使用 此表单 报告文档问题。