2024 年 9 月 26 日: PostgreSQL 17 发布!
支持版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:devel
不受支持的版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4

F.9. citext — 不区分大小写的字符串类型 #

The citext 模块提供了一种不区分大小写的字符串类型,citext。实质上,它在比较值时内部调用 lower。否则,它的行为几乎与 text 完全相同。

提示

考虑使用非确定性排序规则(参见 第 23.2.2.4 节)而不是这个模块。它们可以用于不区分大小写的比较、不区分重音符号的比较以及其他组合,并且它们可以正确处理更多 Unicode 特殊情况。

此模块被认为是 受信任的,也就是说,它可以由没有超级用户权限,但在当前数据库上具有 CREATE 权限的用户安装。

F.9.1. 原理 #

PostgreSQL 中进行不区分大小写匹配的标准方法是在比较值时使用 lower 函数,例如

SELECT * FROM tab WHERE lower(col) = LOWER(?);

这工作得很好,但有一些缺点

  • 它使您的 SQL 语句变得冗长,并且您总是要记住在列和查询值上都使用 lower

  • 除非您使用 lower 创建函数索引,否则它不会使用索引。

  • 如果您将列声明为 UNIQUEPRIMARY KEY,则隐式生成的索引区分大小写。因此,它对不区分大小写的搜索没有用,而且它也不会不区分大小写地强制唯一性。

The citext 数据类型允许您在 SQL 查询中消除对 lower 的调用,并允许主键不区分大小写。 citexttext 一样支持区域设置,这意味着大写和小写字符的匹配取决于数据库的 LC_CTYPE 设置规则。同样,这种行为与在查询中使用 lower 相同。但是,由于数据类型透明地执行了此操作,因此您不必记住在查询中执行任何特殊操作。

F.9.2. 如何使用它 #

以下是一个简单的使用示例

CREATE TABLE users (
    nick CITEXT PRIMARY KEY,
    pass TEXT   NOT NULL
);

INSERT INTO users VALUES ( 'larry',  sha256(random()::text::bytea) );
INSERT INTO users VALUES ( 'Tom',    sha256(random()::text::bytea) );
INSERT INTO users VALUES ( 'Damian', sha256(random()::text::bytea) );
INSERT INTO users VALUES ( 'NEAL',   sha256(random()::text::bytea) );
INSERT INTO users VALUES ( 'Bjørn',  sha256(random()::text::bytea) );

SELECT * FROM users WHERE nick = 'Larry';

The SELECT 语句将返回一个元组,即使 nick 列被设置为 larry,而查询是针对 Larry

F.9.3. 字符串比较行为 #

citext 通过将每个字符串转换为小写(就好像调用了 lower 一样)然后正常比较结果来执行比较。因此,例如,如果 lower 对两个字符串产生相同的结果,则这两个字符串被认为相等。

为了尽可能地模拟不区分大小写的排序规则,存在一些针对 citext 的特定字符串处理运算符和函数版本。因此,例如,正则表达式运算符 ~~* 在应用于 citext 时表现出相同的行为:它们都匹配不区分大小写。对于 !~!~* 以及 LIKE 运算符 ~~~~*,以及 !~~!~~* 也是如此。如果您想区分大小写匹配,可以将运算符的参数强制转换为 text

类似地,如果其参数为 citext,则以下所有函数都将不区分大小写地执行匹配

  • regexp_match()

  • regexp_matches()

  • regexp_replace()

  • regexp_split_to_array()

  • regexp_split_to_table()

  • replace()

  • split_part()

  • strpos()

  • translate()

对于正则表达式函数,如果您想区分大小写匹配,可以指定 c 标志来强制区分大小写匹配。否则,如果您想区分大小写,则必须在使用这些函数之前将其强制转换为 text

F.9.4. 限制 #

  • citext 的大小写折叠行为取决于数据库的 LC_CTYPE 设置。因此,它比较值的方式是在创建数据库时确定的。它在 Unicode 标准定义的术语中不是真正的不区分大小写。实际上,这意味着,只要您对排序规则感到满意,您就应该对 citext 的比较感到满意。但是,如果您在数据库中存储了不同语言的数据,则如果排序规则是针对另一种语言,则一种语言的用户可能会发现他们的查询结果不符合预期。

  • PostgreSQL 9.1 开始,您可以将 COLLATE 规范附加到 citext 列或数据值。当前,citext 运算符在比较大小写折叠后的字符串时将遵守非默认的 COLLATE 规范,但初始折叠为小写始终根据数据库的 LC_CTYPE 设置执行(也就是说,就好像给出了 COLLATE "default" 一样)。这可能会在将来的版本中更改,以便这两个步骤都遵循输入的 COLLATE 规范。

  • citext 效率不如 text,因为运算符函数和 B 树比较函数必须复制数据并将其转换为小写以进行比较。此外,只有 text 支持 B 树去重。但是,citext 比使用 lower 来获得不区分大小写的匹配效率略高。

  • 如果您需要在某些情况下区分大小写比较数据,而在其他情况下不区分大小写比较数据,citext 帮助不大。标准答案是使用 text 类型,并在需要不区分大小写比较时手动使用 lower 函数;如果只偶尔需要不区分大小写比较,这就可以正常工作。如果您大多数情况下需要不区分大小写行为,而区分大小写行为很少,请考虑将数据存储为 citext,并在需要区分大小写比较时将列显式强制转换为 text。在这两种情况下,如果您希望两种类型的搜索都很快,您都需要两个索引。

  • 包含 citext 运算符的模式必须在当前的 search_path 中(通常是 public);如果不是,则将调用正常的区分大小写的 text 运算符。

  • 将字符串转换为小写以进行比较的方法无法正确处理一些 Unicode 特殊情况,例如,当一个大写字母有两个小写字母等效项时。Unicode 区分大小写映射大小写折叠,原因就在于此。使用非确定性排序规则而不是 citext 来正确处理这种情况。

F.9.5. 作者 #

David E. Wheeler

受到 Donald Fraser 的原始 citext 模块的启发。

提交更正

如果您在文档中发现任何错误,不符合您对特定功能的体验,或者需要进一步澄清,请使用 此表格 报告文档问题。