2024 年 9 月 26 日: PostgreSQL 17 发布!
支持版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:devel
不支持版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3

12.2. 表和索引 #

上一节中的示例演示了使用简单常量字符串进行全文匹配。本节介绍如何搜索表数据,可以选择使用索引。

12.2.2. 创建索引 #

我们可以创建一个GIN索引 (第 12.9 节) 来加速文本搜索

CREATE INDEX pgweb_idx ON pgweb USING GIN (to_tsvector('english', body));

请注意,使用了 to_tsvector 的 2 个参数版本。只有指定配置名称的文本搜索函数才能在表达式索引 (第 11.7 节) 中使用。这是因为索引内容必须不受 default_text_search_config 的影响。如果它们受到影响,索引内容可能会不一致,因为不同的条目可能会包含使用不同的文本搜索配置创建的 tsvector,并且没有办法猜测哪个是哪个。这样的索引将无法正确转储和恢复。

由于在上面的索引中使用了 to_tsvector 的两个参数版本,因此只有使用具有相同配置名称的 to_tsvector 的两个参数版本的查询引用才会使用该索引。也就是说,WHERE to_tsvector('english', body) @@ 'a & b' 可以使用该索引,但 WHERE to_tsvector(body) @@ 'a & b' 则不能。这确保了索引仅在用于创建索引条目的相同配置下才会使用。

可以设置更复杂的表达式索引,其中配置名称由另一列指定,例如:

CREATE INDEX pgweb_idx ON pgweb USING GIN (to_tsvector(config_name, body));

其中 config_namepgweb 表中的一个列。这允许在同一个索引中使用混合配置,同时记录每个索引条目使用的是哪种配置。例如,如果文档集合包含不同语言的文档,这将很有用。同样,旨在使用该索引的查询必须使用匹配的方式进行表述,例如 WHERE to_tsvector(config_name, body) @@ 'a & b'

索引甚至可以连接列

CREATE INDEX pgweb_idx ON pgweb USING GIN (to_tsvector('english', title || ' ' || body));

另一种方法是创建一个单独的 tsvector 列来保存 to_tsvector 的输出。为了使此列自动与其源数据保持同步,请使用存储的生成列。此示例是 titlebody 的连接,使用 coalesce 来确保当另一个为 NULL 时,一个字段仍然会被索引

ALTER TABLE pgweb
    ADD COLUMN textsearchable_index_col tsvector
               GENERATED ALWAYS AS (to_tsvector('english', coalesce(title, '') || ' ' || coalesce(body, ''))) STORED;

然后,我们创建一个GIN索引来加速搜索

CREATE INDEX textsearch_idx ON pgweb USING GIN (textsearchable_index_col);

现在我们准备执行快速的全文搜索

SELECT title
FROM pgweb
WHERE textsearchable_index_col @@ to_tsquery('create & table')
ORDER BY last_mod_date DESC
LIMIT 10;

与表达式索引相比,单独列方法的一个优点是,查询中无需显式指定文本搜索配置即可使用该索引。如上面的示例所示,查询可以依赖于 default_text_search_config。另一个优点是搜索速度更快,因为无需重新执行 to_tsvector 调用以验证索引匹配。(当使用 GiST 索引而不是 GIN 索引时,这一点更为重要;请参见 第 12.9 节。)但是,表达式索引方法设置起来更简单,并且需要更少的磁盘空间,因为 tsvector 表示不会显式存储。

提交更正

如果您在文档中发现任何不正确的内容,与您对特定功能的体验不符,或者需要进一步说明,请使用 此表格 报告文档问题。