PostgreSQL 提供了两种数据类型,旨在支持全文搜索,即通过自然语言 文档 集合进行搜索以找到最匹配 查询 的文档。tsvector
类型以优化文本搜索的形式表示文档;tsquery
类型类似地表示文本查询。第 12 章 对此功能进行了详细说明,而 第 9.13 节 总结了相关的函数和运算符。
tsvector
#tsvector
值是一个排序的唯一 词素 列表,这些词素是已被 规范化 的单词,以合并同一单词的不同变体(有关详细信息,请参阅 第 12 章)。排序和重复消除在输入期间自动完成,如以下示例所示
SELECT 'a fat cat sat on a mat and ate a fat rat'::tsvector; tsvector ---------------------------------------------------- 'a' 'and' 'ate' 'cat' 'fat' 'mat' 'on' 'rat' 'sat'
要表示包含空格或标点的词素,请将其用引号括起来
SELECT $$the lexeme ' ' contains spaces$$::tsvector; tsvector ------------------------------------------- ' ' 'contains' 'lexeme' 'spaces' 'the'
(在本示例和下一个示例中,我们使用美元引号字符串文字以避免混淆,因为在文字中必须双重引用标记。)嵌入的引号和反斜杠必须加倍
SELECT $$the lexeme 'Joe''s' contains a quote$$::tsvector; tsvector ------------------------------------------------ 'Joe''s' 'a' 'contains' 'lexeme' 'quote' 'the'
可以选择将整数 位置 附加到词素
SELECT 'a:1 fat:2 cat:3 sat:4 on:5 a:6 mat:7 and:8 ate:9 a:10 fat:11 rat:12'::tsvector; tsvector ------------------------------------------------------------------------------- 'a':1,6,10 'and':8 'ate':9 'cat':3 'fat':2,11 'mat':7 'on':5 'rat':12 'sat':4
位置通常表示源词在文档中的位置。位置信息可用于 邻近排名。位置值范围为 1 到 16383;更大的数字将静默设置为 16383。同一词素的重复位置将被丢弃。
具有位置的词素可以进一步用 权重 进行标记,权重可以是 A
、B
、C
或 D
。 D
是默认值,因此在输出中不显示
SELECT 'a:1A fat:2B,4C cat:5D'::tsvector; tsvector ---------------------------- 'a':1A 'cat':5 'fat':2B,4C
权重通常用于反映文档结构,例如,通过将标题词与正文词区分开来。文本搜索排名函数可以为不同的权重标记分配不同的优先级。
重要的是要理解,tsvector
类型本身不会执行任何词语规范化;它假定它所获得的词语已针对应用程序适当地规范化。例如,
SELECT 'The Fat Rats'::tsvector; tsvector -------------------- 'Fat' 'Rats' 'The'
对于大多数英文文本搜索应用程序而言,上述词语会被认为是非规范化的,但 tsvector
不在乎。原始文档文本通常应该通过 to_tsvector
来传递,以针对搜索适当地规范化词语
SELECT to_tsvector('english', 'The Fat Rats'); to_tsvector ----------------- 'fat':2 'rat':3
同样,有关更多详细信息,请参阅 第 12 章。
tsquery
#tsquery
值存储要搜索的词素,并可以使用布尔运算符 &
(AND)、|
(OR)和 !
(NOT)以及短语搜索运算符 <->
(FOLLOWED BY)将它们组合在一起。还有一个 FOLLOWED BY 运算符的变体 <
,其中 N
>N
是一个整数常量,它指定要搜索的两个词素之间的距离。 <->
等效于 <1>
。
可以使用括号来强制执行这些运算符的组合。在没有括号的情况下,!
(NOT)的绑定优先级最高,<->
(FOLLOWED BY)次之,然后是 &
(AND),|
(OR)的绑定优先级最低。
以下是一些示例
SELECT 'fat & rat'::tsquery; tsquery --------------- 'fat' & 'rat' SELECT 'fat & (rat | cat)'::tsquery; tsquery --------------------------- 'fat' & ( 'rat' | 'cat' ) SELECT 'fat & rat & ! cat'::tsquery; tsquery ------------------------ 'fat' & 'rat' & !'cat'
可以选择用一个或多个权重字母标记 tsquery
中的词素,这会将它们限制为仅匹配具有其中一个权重的 tsvector
词素
SELECT 'fat:ab & cat'::tsquery; tsquery ------------------ 'fat':AB & 'cat'
此外,tsquery
中的词素可以使用 *
进行标记,以指定前缀匹配
SELECT 'super:*'::tsquery; tsquery ----------- 'super':*
此查询将匹配 tsvector
中以 “super” 开头的任何词语。
词素的引用规则与之前在 tsvector
中描述的词素的引用规则相同;并且,与 tsvector
一样,必须在转换为 tsquery
类型之前完成任何必要的词语规范化。 to_tsquery
函数便于执行这种规范化
SELECT to_tsquery('Fat:ab & Cats'); to_tsquery ------------------ 'fat':AB & 'cat'
请注意,to_tsquery
将以与其他词语相同的方式处理前缀,这意味着此比较将返回真
SELECT to_tsvector( 'postgraduate' ) @@ to_tsquery( 'postgres:*' ); ?column? ---------- t
因为 postgres
将被词干化为 postgr
SELECT to_tsvector( 'postgraduate' ), to_tsquery( 'postgres:*' ); to_tsvector | to_tsquery ---------------+------------ 'postgradu':1 | 'postgr':*
这将与 postgraduate
的词干形式匹配。
如果您在文档中发现任何不正确的内容、与您对特定功能的体验不符或需要进一步澄清,请使用 此表格 报告文档问题。