2024 年 9 月 26 日: PostgreSQL 17 发布!
支持的版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:devel
不支持的版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3

8.11. 文本搜索类型 #

PostgreSQL 提供了两种数据类型,旨在支持全文搜索,即通过自然语言 文档 集合进行搜索以找到最匹配 查询 的文档。tsvector 类型以优化文本搜索的形式表示文档;tsquery 类型类似地表示文本查询。第 12 章 对此功能进行了详细说明,而 第 9.13 节 总结了相关的函数和运算符。

8.11.1. tsvector #

tsvector 值是一个排序的唯一 词素 列表,这些词素是已被 规范化 的单词,以合并同一单词的不同变体(有关详细信息,请参阅 第 12 章)。排序和重复消除在输入期间自动完成,如以下示例所示

SELECT 'a fat cat sat on a mat and ate a fat rat'::tsvector;
                      tsvector
----------------------------------------------------
 'a' 'and' 'ate' 'cat' 'fat' 'mat' 'on' 'rat' 'sat'

要表示包含空格或标点的词素,请将其用引号括起来

SELECT $$the lexeme '    ' contains spaces$$::tsvector;
                 tsvector
-------------------------------------------
 '    ' 'contains' 'lexeme' 'spaces' 'the'

(在本示例和下一个示例中,我们使用美元引号字符串文字以避免混淆,因为在文字中必须双重引用标记。)嵌入的引号和反斜杠必须加倍

SELECT $$the lexeme 'Joe''s' contains a quote$$::tsvector;
                    tsvector
------------------------------------------------
 'Joe''s' 'a' 'contains' 'lexeme' 'quote' 'the'

可以选择将整数 位置 附加到词素

SELECT 'a:1 fat:2 cat:3 sat:4 on:5 a:6 mat:7 and:8 ate:9 a:10 fat:11 rat:12'::tsvector;
                                  tsvector
-------------------------------------------------------------------​------------
 'a':1,6,10 'and':8 'ate':9 'cat':3 'fat':2,11 'mat':7 'on':5 'rat':12 'sat':4

位置通常表示源词在文档中的位置。位置信息可用于 邻近排名。位置值范围为 1 到 16383;更大的数字将静默设置为 16383。同一词素的重复位置将被丢弃。

具有位置的词素可以进一步用 权重 进行标记,权重可以是 ABCDD 是默认值,因此在输出中不显示

SELECT 'a:1A fat:2B,4C cat:5D'::tsvector;
          tsvector
----------------------------
 'a':1A 'cat':5 'fat':2B,4C

权重通常用于反映文档结构,例如,通过将标题词与正文词区分开来。文本搜索排名函数可以为不同的权重标记分配不同的优先级。

重要的是要理解,tsvector 类型本身不会执行任何词语规范化;它假定它所获得的词语已针对应用程序适当地规范化。例如,

SELECT 'The Fat Rats'::tsvector;
      tsvector
--------------------
 'Fat' 'Rats' 'The'

对于大多数英文文本搜索应用程序而言,上述词语会被认为是非规范化的,但 tsvector 不在乎。原始文档文本通常应该通过 to_tsvector 来传递,以针对搜索适当地规范化词语

SELECT to_tsvector('english', 'The Fat Rats');
   to_tsvector
-----------------
 'fat':2 'rat':3

同样,有关更多详细信息,请参阅 第 12 章

8.11.2. tsquery #

tsquery 值存储要搜索的词素,并可以使用布尔运算符 &(AND)、|(OR)和 !(NOT)以及短语搜索运算符 <->(FOLLOWED BY)将它们组合在一起。还有一个 FOLLOWED BY 运算符的变体 <N>,其中 N 是一个整数常量,它指定要搜索的两个词素之间的距离。 <-> 等效于 <1>

可以使用括号来强制执行这些运算符的组合。在没有括号的情况下,!(NOT)的绑定优先级最高,<->(FOLLOWED BY)次之,然后是 &(AND),|(OR)的绑定优先级最低。

以下是一些示例

SELECT 'fat & rat'::tsquery;
    tsquery
---------------
 'fat' & 'rat'

SELECT 'fat & (rat | cat)'::tsquery;
          tsquery
---------------------------
 'fat' & ( 'rat' | 'cat' )

SELECT 'fat & rat & ! cat'::tsquery;
        tsquery
------------------------
 'fat' & 'rat' & !'cat'

可以选择用一个或多个权重字母标记 tsquery 中的词素,这会将它们限制为仅匹配具有其中一个权重的 tsvector 词素

SELECT 'fat:ab & cat'::tsquery;
    tsquery
------------------
 'fat':AB & 'cat'

此外,tsquery 中的词素可以使用 * 进行标记,以指定前缀匹配

SELECT 'super:*'::tsquery;
  tsquery
-----------
 'super':*

此查询将匹配 tsvector 中以 super 开头的任何词语。

词素的引用规则与之前在 tsvector 中描述的词素的引用规则相同;并且,与 tsvector 一样,必须在转换为 tsquery 类型之前完成任何必要的词语规范化。 to_tsquery 函数便于执行这种规范化

SELECT to_tsquery('Fat:ab & Cats');
    to_tsquery
------------------
 'fat':AB & 'cat'

请注意,to_tsquery 将以与其他词语相同的方式处理前缀,这意味着此比较将返回真

SELECT to_tsvector( 'postgraduate' ) @@ to_tsquery( 'postgres:*' );
 ?column?
----------
 t

因为 postgres 将被词干化为 postgr

SELECT to_tsvector( 'postgraduate' ), to_tsquery( 'postgres:*' );
  to_tsvector  | to_tsquery
---------------+------------
 'postgradu':1 | 'postgr':*

这将与 postgraduate 的词干形式匹配。

提交更正

如果您在文档中发现任何不正确的内容、与您对特定功能的体验不符或需要进一步澄清,请使用 此表格 报告文档问题。