2024年9月26日: PostgreSQL 17 发布!
支持的版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:devel
不支持的版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3

9.13. 文本搜索函数和运算符 #

表 9.42表 9.43表 9.44 总结了为全文搜索提供的函数和运算符。有关 PostgreSQL 文本搜索功能的详细说明,请参阅第 12 章

表 9.42. 文本搜索运算符

运算符

描述

示例

tsvector @@ tsqueryboolean

tsquery @@ tsvectorboolean

tsvector 是否匹配 tsquery?(参数可以按任意顺序给出。)

to_tsvector('fat cats ate rats') @@ to_tsquery('cat & rat')t

text @@ tsqueryboolean

文本字符串在隐式调用 to_tsvector() 后是否匹配 tsquery

'fat cats ate rats' @@ to_tsquery('cat & rat')t

tsvector || tsvectortsvector

连接两个 tsvector。如果两个输入都包含词素位置,则第二个输入的位置将相应调整。

'a:1 b:2'::tsvector || 'c:1 d:2 b:3'::tsvector'a':1 'b':2,5 'c':3 'd':4

tsquery && tsquerytsquery

将两个 tsquery 连接在一起,生成一个查询,该查询匹配与两个输入查询都匹配的文档。

'fat | rat'::tsquery && 'cat'::tsquery( 'fat' | 'rat' ) & 'cat'

tsquery || tsquerytsquery

将两个 tsquery 连接在一起,生成一个查询,该查询匹配与任一输入查询匹配的文档。

'fat | rat'::tsquery || 'cat'::tsquery'fat' | 'rat' | 'cat'

!! tsquerytsquery

否定 tsquery,生成一个查询,该查询匹配与输入查询不匹配的文档。

!! 'cat'::tsquery!'cat'

tsquery <-> tsquerytsquery

构造一个短语查询,如果两个输入查询在连续的词素处匹配,则匹配。

to_tsquery('fat') <-> to_tsquery('rat')'fat' <-> 'rat'

tsquery @> tsqueryboolean

第一个 tsquery 是否包含第二个?(这仅考虑一个查询中出现的词素是否出现在另一个查询中,而忽略组合运算符。)

'cat'::tsquery @> 'cat & rat'::tsqueryf

tsquery <@ tsqueryboolean

第一个 tsquery 是否包含在第二个中?(这仅考虑一个查询中出现的词素是否出现在另一个查询中,而忽略组合运算符。)

'cat'::tsquery <@ 'cat & rat'::tsqueryt

'cat'::tsquery <@ '!cat & rat'::tsqueryt


除了这些专门的运算符外,表 9.1 中显示的常用比较运算符也适用于 tsvectortsquery 类型。这些对于文本搜索并不十分有用,但允许例如在这些类型的列上构建唯一索引。

表 9.43. 文本搜索函数

函数

描述

示例

array_to_tsvector ( text[] ) → tsvector

将文本字符串数组转换为 tsvector。给定的字符串按原样用作词素,无需进一步处理。数组元素不能是空字符串或 NULL

array_to_tsvector('{fat,cat,rat}'::text[])'cat' 'fat' 'rat'

get_current_ts_config ( ) → regconfig

返回当前默认文本搜索配置的 OID(由 default_text_search_config 设置)。

get_current_ts_config()english

length ( tsvector ) → integer

返回 tsvector 中词素的数量。

length('fat:2,4 cat:3 rat:5A'::tsvector)3

numnode ( tsquery ) → integer

返回 tsquery 中词素加运算符的数量。

numnode('(fat & rat) | cat'::tsquery)5

plainto_tsquery ( [ config regconfig, ] query text ) → tsquery

将文本转换为 tsquery,根据指定的或默认配置规范化单词。字符串中的任何标点符号都将被忽略(它不确定查询运算符)。生成的查询匹配包含文本中所有非停用词的文档。

plainto_tsquery('english', 'The Fat Rats')'fat' & 'rat'

phraseto_tsquery ( [ config regconfig, ] query text ) → tsquery

将文本转换为 tsquery,根据指定的或默认配置规范化单词。字符串中的任何标点符号都将被忽略(它不确定查询运算符)。生成的查询匹配包含文本中所有非停用词的短语。

phraseto_tsquery('english', 'The Fat Rats')'fat' <-> 'rat'

phraseto_tsquery('english', 'The Cat and Rats')'cat' <2> 'rat'

websearch_to_tsquery ( [ config regconfig, ] query text ) → tsquery

将文本转换为 tsquery,根据指定的或默认配置规范化单词。引用的词序列将转换为短语测试。or 一词被理解为生成 OR 运算符,而连字符生成 NOT 运算符;其他标点符号将被忽略。这近似于某些常用网络搜索工具的行为。

websearch_to_tsquery('english', '"fat rat" or cat dog')'fat' <-> 'rat' | 'cat' & 'dog'

querytree ( tsquery ) → text

生成 tsquery 的可索引部分的表示形式。空的结果或仅为 T 的结果表示不可索引的查询。

querytree('foo & ! bar'::tsquery)'foo'

setweight ( vector tsvector, weight "char" ) → tsvector

将指定的 weight 分配给 vector 的每个元素。

setweight('fat:2,4 cat:3 rat:5B'::tsvector, 'A')'cat':3A 'fat':2A,4A 'rat':5A

setweight ( vector tsvector, weight "char", lexemes text[] ) → tsvector

将指定的 weight 分配给 vector 中列在 lexemes 中的元素。lexemes 中的字符串按原样作为词素,无需进一步处理。与 vector 中任何词素都不匹配的字符串将被忽略。

setweight('fat:2,4 cat:3 rat:5,6B'::tsvector, 'A', '{cat,rat}')'cat':3A 'fat':2,4 'rat':5A,6A

strip ( tsvector ) → tsvector

移除 tsvector 中的位置和权重。

strip('fat:2,4 cat:3 rat:5A'::tsvector)'cat' 'fat' 'rat'

to_tsquery ( [ config regconfig, ] query text ) → tsquery

将文本转换为 tsquery,根据指定或默认配置规范化单词。这些单词必须通过有效的 tsquery 运算符组合。

to_tsquery('english', 'The & Fat & Rats')'fat' & 'rat'

to_tsvector ( [ config regconfig, ] document text ) → tsvector

将文本转换为 tsvector,根据指定或默认配置规范化单词。结果中包含位置信息。

to_tsvector('english', 'The Fat Rats')'fat':2 'rat':3

to_tsvector ( [ config regconfig, ] document json ) → tsvector

to_tsvector ( [ config regconfig, ] document jsonb ) → tsvector

将 JSON 文档中的每个字符串值转换为 tsvector,根据指定或默认配置规范化单词。然后按文档顺序连接结果以生成输出。位置信息是假设在每对字符串值之间存在一个停用词而生成的。(请注意,当输入为 jsonb 时,JSON 对象字段的“文档顺序”取决于实现;请注意示例中的差异。)

to_tsvector('english', '{"aa": "The Fat Rats", "b": "dog"}'::json)'dog':5 'fat':2 'rat':3

to_tsvector('english', '{"aa": "The Fat Rats", "b": "dog"}'::jsonb)'dog':1 'fat':4 'rat':5

json_to_tsvector ( [ config regconfig, ] document json, filter jsonb ) → tsvector

jsonb_to_tsvector ( [ config regconfig, ] document jsonb, filter jsonb ) → tsvector

选择 filter 请求的 JSON 文档中的每个项目,并将每个项目转换为 tsvector,根据指定或默认配置规范化单词。然后按文档顺序连接结果以生成输出。位置信息是假设在每对选定项目之间存在一个停用词而生成的。(请注意,当输入为 jsonb 时,JSON 对象字段的“文档顺序”取决于实现。)filter 必须是一个 jsonb 数组,其中包含以下零个或多个关键字:"string"(包含所有字符串值)、"numeric"(包含所有数值)、"boolean"(包含所有布尔值)、"key"(包含所有键)或 "all"(包含以上所有)。作为特殊情况,filter 也可以是一个简单的 JSON 值,该值是这些关键字之一。

json_to_tsvector('english', '{"a": "The Fat Rats", "b": 123}'::json, '["string", "numeric"]')'123':5 'fat':2 'rat':3

json_to_tsvector('english', '{"cat": "The Fat Rats", "dog": 123}'::json, '"all"')'123':9 'cat':1 'dog':7 'fat':4 'rat':5

ts_delete ( vector tsvector, lexeme text ) → tsvector

vector 中移除给定 lexeme 的任何出现。 lexeme 字符串按原样被视为词素,无需进一步处理。

ts_delete('fat:2,4 cat:3 rat:5A'::tsvector, 'fat')'cat':3 'rat':5A

ts_delete ( vector tsvector, lexemes text[] ) → tsvector

vector 中移除 lexemes 中词素的任何出现。 lexemes 中的字符串按原样被视为词素,无需进一步处理。与 vector 中任何词素都不匹配的字符串将被忽略。

ts_delete('fat:2,4 cat:3 rat:5A'::tsvector, ARRAY['fat','rat'])'cat':3

ts_filter ( vector tsvector, weights "char"[] ) → tsvector

仅从 vector 中选择具有给定 weights 的元素。

ts_filter('fat:2,4 cat:3b,7c rat:5A'::tsvector, '{a,b}')'cat':3B 'rat':5A

ts_headline ( [ config regconfig, ] document text, query tsquery [, options text ] ) → text

以简略形式显示 documentquery 的匹配结果,其中 document 必须是原始文本,而不是 tsvector。在与查询匹配之前,根据指定或默认配置规范化文档中的单词。此函数的使用在第 12.3.4 节中进行了讨论,该节还描述了可用的 options

ts_headline('The fat cat ate the rat.', 'cat')The fat <b>cat</b> ate the rat.

ts_headline ( [ config regconfig, ] document json, query tsquery [, options text ] ) → text

ts_headline ( [ config regconfig, ] document jsonb, query tsquery [, options text ] ) → text

以简略形式显示在 JSON document 中的字符串值中出现的 query 的匹配结果。有关更多详细信息,请参见第 12.3.4 节

ts_headline('{"cat":"raining cats and dogs"}'::jsonb, 'cat'){"cat": "raining <b>cats</b> and dogs"}

ts_rank ( [ weights real[], ] vector tsvector, query tsquery [, normalization integer ] ) → real

计算一个分数,显示 vectorquery 的匹配程度。有关详细信息,请参见第 12.3.3 节

ts_rank(to_tsvector('raining cats and dogs'), 'cat')0.06079271

ts_rank_cd ( [ weights real[], ] vector tsvector, query tsquery [, normalization integer ] ) → real

使用覆盖密度算法计算一个分数,显示 vectorquery 的匹配程度。有关详细信息,请参见第 12.3.3 节

ts_rank_cd(to_tsvector('raining cats and dogs'), 'cat')0.1

ts_rewrite ( query tsquery, target tsquery, substitute tsquery ) → tsquery

query 中用 substitute 替换 target 的出现。有关详细信息,请参见第 12.4.2.1 节

ts_rewrite('a & b'::tsquery, 'a'::tsquery, 'foo|bar'::tsquery)'b' & ( 'foo' | 'bar' )

ts_rewrite ( query tsquery, select text ) → tsquery

根据通过执行 SELECT 命令获得的目标和替换项替换 query 的部分内容。有关详细信息,请参见第 12.4.2.1 节

SELECT ts_rewrite('a & b'::tsquery, 'SELECT t,s FROM aliases')'b' & ( 'foo' | 'bar' )

tsquery_phrase ( query1 tsquery, query2 tsquery ) → tsquery

构造一个短语查询,搜索在连续词素处匹配 query1query2 的结果(与 <-> 运算符相同)。

tsquery_phrase(to_tsquery('fat'), to_tsquery('cat'))'fat' <-> 'cat'

tsquery_phrase ( query1 tsquery, query2 tsquery, distance integer ) → tsquery

构建一个短语查询,搜索 query1query2 的匹配项,这两个匹配项之间恰好间隔 distance 个词素。

tsquery_phrase(to_tsquery('fat'), to_tsquery('cat'), 10)'fat' <10> 'cat'

tsvector_to_array ( tsvector ) → text[]

tsvector 转换为词素数组。

tsvector_to_array('fat:2,4 cat:3 rat:5A'::tsvector){cat,fat,rat}

unnest ( tsvector ) → setof record ( lexeme text, positions smallint[], weights text )

tsvector 展开为一个行集,每个词素一行。

select * from unnest('cat:3 fat:2,4 rat:5A'::tsvector)

 lexeme | positions | weights
--------+-----------+---------
 cat    | {3}       | {D}
 fat    | {2,4}     | {D,D}
 rat    | {5}       | {A}

注意

所有接受可选 regconfig 参数的文本搜索函数,在省略该参数时,将使用由 default_text_search_config 指定的配置。

表 9.44 中单独列出了这些函数,因为它们通常不用于日常文本搜索操作。它们主要有助于开发和调试新的文本搜索配置。

表 9.44. 文本搜索调试函数

函数

描述

示例

ts_debug ( [ config regconfig, ] document text ) → setof record ( alias text, description text, token text, dictionaries regdictionary[], dictionary regdictionary, lexemes text[] )

根据指定的或默认的文本搜索配置,从 document 中提取和规范化词元,并返回有关每个词元如何处理的信息。有关详细信息,请参见 第 12.8.1 节

ts_debug('english', 'The Brightest supernovaes')(asciiword,"Word, all ASCII",The,{english_stem},english_stem,{}) ...

ts_lexize ( dict regdictionary, token text ) → text[]

如果输入词元在词典中已知,则返回替换词素数组;如果词元在词典中已知但它是停用词,则返回空数组;如果它不是已知词,则返回 NULL。有关详细信息,请参见 第 12.8.3 节

ts_lexize('english_stem', 'stars'){star}

ts_parse ( parser_name text, document text ) → setof record ( tokid integer, token text )

使用指定的解析器从 document 中提取词元。有关详细信息,请参见 第 12.8.2 节

ts_parse('default', 'foo - bar')(1,foo) ...

ts_parse ( parser_oid oid, document text ) → setof record ( tokid integer, token text )

使用由 OID 指定的解析器从 document 中提取词元。有关详细信息,请参见 第 12.8.2 节

ts_parse(3722, 'foo - bar')(1,foo) ...

ts_token_type ( parser_name text ) → setof record ( tokid integer, alias text, description text )

返回一个表,描述指定名称的解析器可以识别的每种词元类型。有关详细信息,请参见 第 12.8.2 节

ts_token_type('default')(1,asciiword,"Word, all ASCII") ...

ts_token_type ( parser_oid oid ) → setof record ( tokid integer, alias text, description text )

返回一个表,描述由 OID 指定的解析器可以识别的每种词元类型。有关详细信息,请参见 第 12.8.2 节

ts_token_type(3722)(1,asciiword,"Word, all ASCII") ...

ts_stat ( sqlquery text [, weights text ] ) → setof record ( word text, ndoc integer, nentry integer )

执行 sqlquery,它必须返回一个单一的 tsvector 列,并返回有关数据中包含的每个不同词素的统计信息。有关详细信息,请参见 第 12.4.4 节

ts_stat('SELECT vector FROM apod')(foo,10,15) ...


提交更正

如果您在文档中看到任何不正确的内容,与您对特定功能的体验不符,或者需要进一步澄清,请使用 此表单 报告文档问题。