2024年9月26日: PostgreSQL 17 发布!
支持的版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:开发版
不支持的版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3

F.33. pg_trgm — 使用三元组匹配支持文本相似性 #

pg_trgm 模块提供用于根据三元组匹配确定字母数字文本相似性的函数和运算符,以及支持快速搜索相似字符串的索引运算符类。

此模块被认为是受信任的,也就是说,非超级用户可以在当前数据库上拥有CREATE权限的情况下安装它。

F.33.1. 三元组(或三字符)概念 #

三元组是从字符串中提取的三个连续字符的组合。我们可以通过计算两个字符串共享的三元组数量来衡量它们的相似性。这个简单的想法对于衡量许多自然语言中单词的相似性非常有效。

注意

pg_trgm 在从字符串中提取三元组时会忽略非单词字符(非字母数字字符)。在确定字符串中包含的三元组集时,每个单词都被认为有两个空格前缀和一个空格后缀。例如,字符串cat的三元组集是ccacatat。字符串foo|bar的三元组集是ffofoooobbabarar

F.33.2. 函数和运算符 #

pg_trgm 模块提供的函数显示在表 F.25中,运算符显示在表 F.26中。

表 F.25. pg_trgm 函数

函数

描述

similarity ( text, text ) → real

返回一个表示两个参数相似程度的数字。结果的范围是零(表示两个字符串完全不同)到一(表示两个字符串相同)。

show_trgm ( text ) → text[]

返回给定字符串中所有三元组的数组。(实际上,除了调试之外,这很少有用。)

word_similarity ( text, text ) → real

返回一个数字,表示第一个字符串中的三元组集与第二个字符串中已排序的三元组集的任何连续范围之间最大的相似性。有关详细信息,请参阅下面的说明。

strict_word_similarity ( text, text ) → real

word_similarity相同,但强制范围边界与单词边界匹配。由于我们没有跨单词的三元组,因此此函数实际上返回第一个字符串与第二个字符串中任何连续单词范围之间最大的相似性。

show_limit () → real

返回%运算符使用的当前相似性阈值。例如,这将设置两个单词之间被视为彼此的拼写错误的最小相似性。(已弃用;改为使用SHOW pg_trgm.similarity_threshold。)

set_limit ( real ) → real

设置%运算符使用的当前相似性阈值。阈值必须介于 0 和 1 之间(默认值为 0.3)。返回传入的相同值。(已弃用;改为使用SET pg_trgm.similarity_threshold。)


考虑以下示例

# SELECT word_similarity('word', 'two words');
 word_similarity
-----------------
             0.8
(1 row)

在第一个字符串中,三元组集为{" w"," wo","wor","ord","rd "}。在第二个字符串中,已排序的三元组集为{" t"," tw","two","wo "," w"," wo","wor","ord","rds","ds "}。第二个字符串中已排序的三元组集的最相似范围是{" w"," wo","wor","ord"},相似性为0.8

此函数返回一个值,可以近似理解为第一个字符串与第二个字符串的任何子字符串之间最大的相似性。但是,此函数不会在范围的边界添加填充。因此,第二个字符串中存在的额外字符不会被考虑,除了不匹配的单词边界。

同时,strict_word_similarity 选择第二个字符串中单词的范围。在上面的示例中,strict_word_similarity 将选择单个单词'words'的范围,其三元组集为{" w"," wo","wor","ord","rds","ds "}

# SELECT strict_word_similarity('word', 'two words'), similarity('word', 'words');
 strict_word_similarity | similarity
------------------------+------------
               0.571429 |   0.571429
(1 row)

因此,strict_word_similarity 函数用于查找与整个单词的相似性,而word_similarity 更适合于查找与单词部分的相似性。

表 F.26. pg_trgm 运算符

运算符

描述

text % textboolean

如果其参数的相似性大于由pg_trgm.similarity_threshold设置的当前相似性阈值,则返回true

text <% textboolean

如果第一个参数中的三元组集与第二个参数中已排序的三元组集的连续范围之间的相似性大于由pg_trgm.word_similarity_threshold参数设置的当前单词相似性阈值,则返回true

text %> textboolean

<%运算符的交换运算符。

text <<% textboolean

如果其第二个参数具有与单词边界匹配的已排序的三元组集的连续范围,并且其与第一个参数的三元组集的相似性大于由pg_trgm.strict_word_similarity_threshold参数设置的当前严格单词相似性阈值,则返回true

text %>> textboolean

<<%运算符的交换运算符。

text <-> textreal

返回参数之间的距离,即一减去similarity()值。

text <<-> textreal

返回参数之间的距离,即一减去word_similarity()值。

text <->> textreal

<<->运算符的交换运算符。

text <<<-> textreal

返回参数之间的““距离””,即 1 减去 strict_word_similarity() 的值。

文本 <->>> 文本实数

<<<-> 运算符的交换子。


F.33.3. GUC 参数 #

pg_trgm.similarity_threshold (实数) #

设置当前由 % 运算符使用的相似度阈值。阈值必须在 0 到 1 之间(默认值为 0.3)。

pg_trgm.word_similarity_threshold (实数) #

设置当前由 <%%> 运算符使用的词语相似度阈值。阈值必须在 0 到 1 之间(默认值为 0.6)。

pg_trgm.strict_word_similarity_threshold (实数) #

设置当前由 <<%%>> 运算符使用的严格词语相似度阈值。阈值必须在 0 到 1 之间(默认值为 0.5)。

F.33.4. 索引支持 #

pg_trgm 模块提供了 GiST 和 GIN 索引操作符类,允许您在文本列上创建索引,以便进行非常快速的相似性搜索。这些索引类型支持上面描述的相似性运算符,此外还支持基于三元组的索引搜索,用于 LIKEILIKE~~*= 查询。在 pg_trgm 的默认构建中,相似性比较不区分大小写。不支持不等式运算符。请注意,对于等式运算符,这些索引可能不如常规的 B 树索引高效。

示例

CREATE TABLE test_trgm (t text);
CREATE INDEX trgm_idx ON test_trgm USING GIST (t gist_trgm_ops);

CREATE INDEX trgm_idx ON test_trgm USING GIN (t gin_trgm_ops);

gist_trgm_ops GiST 操作类将一组三元组近似为位图签名。其可选的整数参数 siglen 确定签名长度(以字节为单位)。默认长度为 12 字节。签名长度的有效值为 1 到 2024 字节。更长的签名会导致更精确的搜索(扫描索引的较小部分和较少的堆页),但代价是索引更大。

创建具有 32 字节签名长度的此类索引的示例

CREATE INDEX trgm_idx ON test_trgm USING GIST (t gist_trgm_ops(siglen=32));

此时,您将在 t 列上拥有一个索引,可用于相似性搜索。一个典型的查询是

SELECT t, similarity(t, 'word') AS sml
  FROM test_trgm
  WHERE t % 'word'
  ORDER BY sml DESC, t;

这将返回文本列中所有与 word 足够相似的值,并按匹配度从好到差排序。即使在非常大的数据集上,该索引也将用于使此操作快速执行。

上述查询的一个变体是

SELECT t, t <-> 'word' AS dist
  FROM test_trgm
  ORDER BY dist LIMIT 10;

GiST 索引可以非常有效地实现这一点,但 GIN 索引不行。当只需要少量最接近的匹配项时,它通常会优于第一个公式。

您还可以使用 t 列上的索引进行词语相似度或严格词语相似度搜索。典型的查询是

SELECT t, word_similarity('word', t) AS sml
  FROM test_trgm
  WHERE 'word' <% t
  ORDER BY sml DESC, t;

SELECT t, strict_word_similarity('word', t) AS sml
  FROM test_trgm
  WHERE 'word' <<% t
  ORDER BY sml DESC, t;

这将返回文本列中所有在对应的有序三元组集中存在连续范围且与 word 的三元组集足够相似的值,并按匹配度从好到差排序。即使在非常大的数据集上,该索引也将用于使此操作快速执行。

上述查询的一些可能变体是

SELECT t, 'word' <<-> t AS dist
  FROM test_trgm
  ORDER BY dist LIMIT 10;

SELECT t, 'word' <<<-> t AS dist
  FROM test_trgm
  ORDER BY dist LIMIT 10;

GiST 索引可以非常有效地实现这一点,但 GIN 索引不行。

PostgreSQL 9.1 开始,这些索引类型还支持对 LIKEILIKE 的索引搜索,例如

SELECT * FROM test_trgm WHERE t LIKE '%foo%bar';

索引搜索通过从搜索字符串中提取三元组然后在索引中查找这些三元组来工作。搜索字符串中的三元组越多,索引搜索越有效。与基于 B 树的搜索不同,搜索字符串不必是左锚定的。

PostgreSQL 9.3 开始,这些索引类型还支持对正则表达式匹配的索引搜索(~~* 运算符),例如

SELECT * FROM test_trgm WHERE t ~ '(foo|bar)';

索引搜索通过从正则表达式中提取三元组然后在索引中查找这些三元组来工作。可以从正则表达式中提取的三元组越多,索引搜索越有效。与基于 B 树的搜索不同,搜索字符串不必是左锚定的。

对于 LIKE 和正则表达式搜索,请记住,没有可提取三元组的模式将退化为完全索引扫描。

在 GiST 和 GIN 索引之间进行选择取决于 GiST 和 GIN 的相对性能特征,这些特征在其他地方进行了讨论。

F.33.7. 作者 #

Oleg Bartunov ,莫斯科,莫斯科大学,俄罗斯

Teodor Sigaev ,莫斯科,Delta-Soft Ltd.,俄罗斯

Alexander Korotkov ,莫斯科,Postgres Professional,俄罗斯

文档:Christopher Kings-Lynne

此模块由俄罗斯莫斯科的 Delta-Soft Ltd. 赞助。

提交更正

如果您在文档中看到任何不正确的内容、与您对特定功能的体验不符的内容或需要进一步说明的内容,请使用 此表单 报告文档问题。