2024年9月26日: PostgreSQL 17 发布!
支持的版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:开发版本
不支持的版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3 / 8.2

23.1. 区域设置支持 #

区域设置支持是指应用程序遵循关于字母表、排序、数字格式等方面的文化偏好。 PostgreSQL 使用服务器操作系统提供的标准 ISO C 和POSIX区域设置功能。有关更多信息,请参阅系统文档。

23.1.1. 概述 #

在使用 initdb 创建数据库集群时,会自动初始化区域设置支持。 initdb 默认情况下会使用其执行环境的区域设置初始化数据库集群,因此,如果您的系统已设置为在数据库集群中使用所需的区域设置,则无需执行其他操作。如果要使用不同的区域设置(或者不确定系统设置为哪个区域设置),可以通过指定 --locale 选项来指示 initdb 使用哪个区域设置。例如

initdb --locale=sv_SE

此 Unix 系统示例将区域设置设置为瑞典语 (sv),如瑞典 (SE) 所使用的。其他可能性可能包括 en_US(美国英语)和 fr_CA(加拿大法语)。如果可以为某个区域设置使用多个字符集,则规范可以采用 language_territory.codeset 的形式。例如,fr_BE.UTF-8 表示在比利时 (BE) 使用的法语 (fr),并使用UTF-8字符集编码。

系统上可以使用哪些名称的区域设置取决于操作系统供应商提供的设置和已安装的设置。在大多数 Unix 系统上,命令 locale -a 将提供可用区域设置的列表。Windows 使用更详细的区域设置名称,例如 German_GermanySwedish_Sweden.1252,但原理相同。

有时,混合使用来自多个区域设置的规则很有用,例如,使用英语排序规则但使用西班牙语消息。为了支持这一点,存在一组仅控制本地化规则某些方面的区域设置子类别

LC_COLLATE 字符串排序顺序
LC_CTYPE 字符分类(什么是字母?其大写等价物?)
LC_MESSAGES 消息语言
LC_MONETARY 货币金额的格式
LC_NUMERIC 数字的格式
LC_TIME 日期和时间的格式

类别名称转换为 initdb 选项的名称,以覆盖特定类别的区域设置选择。例如,要将区域设置设置为加拿大法语,但使用美国的货币格式规则,请使用 initdb --locale=fr_CA --lc-monetary=en_US

如果希望系统表现得好像没有区域设置支持,请使用特殊区域设置名称 C,或等效地使用 POSIX

某些区域设置类别在创建数据库时必须将其值固定。您可以为不同的数据库使用不同的设置,但是一旦创建了数据库,就不能再更改该数据库的设置了。 LC_COLLATELC_CTYPE 就是这些类别。它们会影响索引的排序顺序,因此必须保持固定,否则文本列上的索引将损坏。(但是,您可以使用排序规则来缓解此限制,如 第 23.2 节 中所述。)这些类别的默认值是在运行 initdb 时确定的,并且这些值在创建新数据库时使用,除非在 CREATE DATABASE 命令中另有指定。

其他区域设置类别可以在需要时更改,方法是设置与区域设置类别同名的服务器配置参数(有关详细信息,请参阅 第 19.11.2 节)。initdb 选择的值实际上仅写入配置文件 postgresql.conf 中,以便在服务器启动时用作默认值。如果从 postgresql.conf 中删除这些赋值,则服务器将继承其执行环境中的设置。

请注意,服务器的区域设置行为由服务器看到的环境变量决定,而不是由任何客户端的环境决定。因此,请务必在启动服务器之前配置正确的区域设置。这样做的结果是,如果客户端和服务器设置为不同的区域设置,则消息可能会以不同的语言显示,具体取决于消息的来源。

注意

当我们说从执行环境继承区域设置时,这意味着在大多数操作系统上:对于给定的区域设置类别(例如排序规则),将按以下顺序查询以下环境变量,直到找到一个已设置的变量:LC_ALLLC_COLLATE(或与相应类别对应的变量)、LANG。如果这些环境变量均未设置,则区域设置默认为 C

某些消息本地化库还会查看环境变量 LANGUAGE,该变量会覆盖所有其他区域设置,以用于设置消息的语言。如有疑问,请参阅操作系统的文档,尤其是关于 gettext 的文档。

要启用将消息翻译成用户首选语言的功能,NLS必须在构建时选择 (configure --enable-nls)。所有其他区域设置支持都会自动构建。

23.1.2. 行为 #

区域设置会影响以下 SQL 功能

  • 使用 ORDER BY 或文本数据的标准比较运算符的查询中的排序顺序

  • upperlowerinitcap 函数

  • 模式匹配运算符 (LIKESIMILAR TO 和 POSIX 样式正则表达式);区域设置会影响不区分大小写的匹配以及字符类正则表达式对字符的分类

  • to_char 函数族

  • 使用 LIKE 子句的索引的能力

PostgreSQL 中使用除 CPOSIX 之外的区域设置的缺点是其性能影响。它会减慢字符处理速度,并阻止 LIKE 使用普通索引。因此,仅在确实需要时才使用区域设置。

为了解决在非 C 区域设置下允许 PostgreSQL 使用 LIKE 子句的索引的问题,存在几个自定义运算符类。这些允许创建执行严格逐字符比较的索引,忽略区域设置比较规则。有关更多信息,请参阅 第 11.10 节。另一种方法是使用 C 排序规则创建索引,如 第 23.2 节 中所述。

23.1.3. 选择区域设置 #

可以根据需要在不同的范围内选择区域设置。以上概述显示了如何使用 initdb 指定区域设置以设置整个集群的默认值。以下列表显示了可以在哪里选择区域设置。每个项目都为后续项目提供默认值,并且每个较低的项目都允许更细粒度地覆盖默认值。

  1. 如上所述,操作系统的环境为新初始化的数据库集群的区域设置提供默认值。在许多情况下,这已经足够了:如果操作系统配置了所需的语言/区域,则 PostgreSQL 默认情况下也将根据该区域设置进行行为。

  2. 如上所示,initdb 的命令行选项指定新初始化的数据库集群的区域设置。如果操作系统没有数据库系统所需的区域设置配置,请使用此方法。

  3. 可以为每个数据库单独选择区域设置。SQL 命令 CREATE DATABASE 及其命令行等效项 createdb 具有用于此目的的选项。例如,如果数据库集群包含具有不同需求的多个租户的数据库,请使用此方法。

  4. 可以为各个表列设置区域设置。这使用称为排序规则的 SQL 对象,并在 第 23.2 节 中进行了说明。例如,可以使用此方法对不同语言的数据进行排序或自定义特定表的排序顺序。

  5. 最后,可以为单个查询选择区域设置。同样,这使用 SQL 排序规则对象。这可以用于根据运行时选择更改排序顺序或用于临时实验。

23.1.4. 区域设置提供程序 #

区域设置提供程序指定哪个库定义排序规则和字符分类的区域设置行为。

如上所述,选择区域设置的命令和工具都具有一个用于选择区域设置提供程序的选项。以下是如何使用 ICU 提供程序初始化数据库集群的示例

initdb --locale-provider=icu --icu-locale=en

有关详细信息,请参阅相应命令和程序的说明。请注意,可以在不同的粒度级别混合使用区域设置提供程序,例如,默认情况下对集群使用 libc,但有一个数据库使用 icu 提供程序,然后在这些数据库中使用任一提供程序的排序规则对象。

无论使用哪个区域设置提供程序,操作系统仍然用于提供一些区域设置感知的行为,例如消息(参见lc_messages)。

可用的区域设置提供程序如下所示

builtin

builtin 提供程序使用内置操作。此提供程序仅支持 CC.UTF-8 区域设置。

C 区域设置的行为与 libc 提供程序中的 C 区域设置相同。使用此区域设置时,行为可能取决于数据库编码。

只有在数据库编码为 UTF-8 时,C.UTF-8 区域设置才可用,并且其行为基于 Unicode。排序规则仅使用代码点值。正则表达式字符类基于“POSIX 兼容”语义,大小写映射为“简单”变体。

icu

icu 提供程序使用外部 ICU 库。PostgreSQL 必须已配置为支持此库。

ICU 提供与操作系统和数据库编码无关的排序规则和字符分类行为,如果您期望迁移到其他平台而无需更改结果,则此行为是首选。LC_COLLATELC_CTYPE 可以独立于 ICU 区域设置进行设置。

注意

对于 ICU 提供程序,结果可能取决于所用 ICU 库的版本,因为它会更新以反映自然语言随时间的变化。

libc

libc 提供程序使用操作系统的 C 库。排序规则和字符分类行为由设置 LC_COLLATELC_CTYPE 控制,因此它们不能独立设置。

注意

使用 libc 提供程序时,相同的区域设置名称在不同平台上可能具有不同的行为。

23.1.5. ICU 区域设置 #

23.1.5.1. ICU 区域设置名称 #

ICU 区域设置名称的格式为 语言标记

CREATE COLLATION mycollation1 (provider = icu, locale = 'ja-JP');
CREATE COLLATION mycollation2 (provider = icu, locale = 'fr');

23.1.5.2. 区域设置规范化和验证 #

在使用 ICU 作为提供程序定义新的 ICU 排序规则对象或数据库时,如果给定的区域设置名称尚未采用该格式,则将其转换为(“规范化”)为语言标记。例如,

CREATE COLLATION mycollation3 (provider = icu, locale = 'en-US-u-kn-true');
NOTICE:  using standard form "en-US-u-kn" for locale "en-US-u-kn-true"
CREATE COLLATION mycollation4 (provider = icu, locale = 'de_DE.utf8');
NOTICE:  using standard form "de-DE" for locale "de_DE.utf8"

如果您看到此通知,请确保 providerlocale 是预期结果。为了在使用 ICU 提供程序时获得一致的结果,请指定规范的 语言标记,而不是依赖于转换。

没有语言名称或具有特殊语言名称 root 的区域设置将转换为具有语言 und(“未定义”)的区域设置。

ICU 可以将大多数 libc 区域设置名称以及其他一些格式转换为语言标记,以便更容易地过渡到 ICU。如果在 ICU 中使用 libc 区域设置名称,则其行为可能与 libc 中的行为不完全相同。

如果在解释区域设置名称时出现问题,或者区域设置名称表示 ICU 不识别的语言或区域,您将看到以下警告

CREATE COLLATION nonsense (provider = icu, locale = 'nonsense');
WARNING:  ICU locale "nonsense" has unknown language "nonsense"
HINT:  To disable ICU locale validation, set parameter icu_validation_level to DISABLED.
CREATE COLLATION

icu_validation_level 控制如何报告消息。除非设置为 ERROR,否则排序规则仍将创建,但行为可能与用户预期不符。

23.1.5.3. 语言标记 #

语言标记(在 BCP 47 中定义)是一种标准化标识符,用于识别语言、区域和其他有关区域设置的信息。

基本语言标记只是 language-region;或者甚至只是 languagelanguage 是语言代码(例如,法语为 fr),region 是区域代码(例如,加拿大为 CA)。示例:ja-JPdefr-CA

排序规则设置可以包含在语言标记中以自定义排序规则行为。ICU 允许进行广泛的自定义,例如对重音、大小写和标点符号的敏感性(或不敏感性);文本中数字的处理方式;以及许多其他选项以满足各种用途。

要在语言标记中包含此附加的排序规则信息,请附加 -u,这表示存在其他排序规则设置,后跟一个或多个 -key-value 对。key排序规则设置 的键,value 是该设置的有效值。对于布尔设置,可以指定 -key 而无需相应的 -value,这意味着值为 true

例如,语言标记 en-US-u-kn-ks-level2 表示美国地区的英语语言的区域设置,排序规则设置 kn 设置为 trueks 设置为 level2。这些设置意味着排序规则将不区分大小写,并将数字序列视为单个数字。

CREATE COLLATION mycollation5 (provider = icu, deterministic = false, locale = 'en-US-u-kn-ks-level2');
SELECT 'aB' = 'Ab' COLLATE mycollation5 as result;
 result
--------
 t
(1 row)

SELECT 'N-45' < 'N-123' COLLATE mycollation5 as result;
 result
--------
 t
(1 row)

有关详细信息以及使用具有自定义排序规则信息的语言标记的区域设置的其他示例,请参见第 23.2.3 节

23.1.6. 问题 #

如果区域设置支持不按上述说明工作,请检查操作系统中的区域设置支持是否已正确配置。要检查系统上安装了哪些区域设置,如果您的操作系统提供,则可以使用命令 locale -a

检查 PostgreSQL 是否确实正在使用您认为它正在使用的区域设置。LC_COLLATELC_CTYPE 设置是在创建数据库时确定的,并且无法更改,除非创建新的数据库。其他区域设置设置,包括 LC_MESSAGESLC_MONETARY,最初由服务器启动的环境确定,但可以动态更改。您可以使用 SHOW 命令检查活动区域设置。

源代码分发版中的 src/test/locale 目录包含 PostgreSQL 区域设置支持的测试套件。

通过解析错误消息文本处理服务器端错误的客户端应用程序在服务器的消息使用不同的语言时显然会出现问题。建议此类应用程序的作者改用错误代码方案。

维护消息翻译目录需要许多志愿者的持续努力,他们希望看到 PostgreSQL 能很好地讲他们的首选语言。如果您的语言中的消息当前不可用或未完全翻译,我们将不胜感激您的帮助。如果您想提供帮助,请参阅第 55 章或写信给开发人员邮件列表。

提交更正

如果您在文档中发现任何不正确的内容、与您对特定功能的体验不符的内容或需要进一步说明的内容,请使用此表单报告文档问题。