2024年9月26日: PostgreSQL 17 发布!
支持的版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:devel
不受支持的版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3 / 8.2 / 8.1 / 8.0

8.16. 复合类型 #

一个复合类型表示行或记录的结构;它本质上只是一个字段名称及其数据类型的列表。PostgreSQL允许复合类型以许多与简单类型相同的方式使用。例如,表的列可以声明为复合类型。

8.16.1. 复合类型的声明 #

以下是如何定义复合类型的两个简单示例

CREATE TYPE complex AS (
    r       double precision,
    i       double precision
);

CREATE TYPE inventory_item AS (
    name            text,
    supplier_id     integer,
    price           numeric
);

语法类似于CREATE TABLE,只是只能指定字段名称和类型;目前无法包含约束(例如NOT NULL)。请注意,AS关键字是必需的;如果没有它,系统会认为这意味着另一种类型的CREATE TYPE命令,并且您将收到奇怪的语法错误。

定义了类型后,我们可以使用它们来创建表

CREATE TABLE on_hand (
    item      inventory_item,
    count     integer
);

INSERT INTO on_hand VALUES (ROW('fuzzy dice', 42, 1.99), 1000);

或函数

CREATE FUNCTION price_extension(inventory_item, integer) RETURNS numeric
AS 'SELECT $1.price * $2' LANGUAGE SQL;

SELECT price_extension(item, 10) FROM on_hand;

每当您创建表时,也会自动创建一个复合类型,其名称与表相同,以表示表的行类型。例如,如果我们说

CREATE TABLE inventory_item (
    name            text,
    supplier_id     integer REFERENCES suppliers,
    price           numeric CHECK (price > 0)
);

那么上面显示的相同inventory_item复合类型将作为副产品出现,并且可以像上面一样使用。但是请注意当前实现的一个重要限制:由于复合类型不包含任何约束,因此表定义中显示的约束不适用于表外部的复合类型值。(要解决此问题,请在复合类型上创建一个,并将所需的约束作为域的CHECK约束应用。)

8.16.2. 构造复合值 #

要将复合值编写为文字常量,请将其字段值括在括号中,并用逗号分隔。您可以将任何字段值用双引号括起来,如果字段值包含逗号或括号,则必须这样做。(更多详细信息请参见下面。)因此,复合常量的一般格式如下所示

'( val1 , val2 , ... )'

一个例子是

'("fuzzy dice",42,1.99)'

这将是上面定义的inventory_item类型的有效值。要使某个字段为NULL,请在其在列表中的位置不写入任何字符。例如,此常量指定第三个字段为NULL

'("fuzzy dice",42,)'

如果您想要空字符串而不是NULL,请写入双引号

'("",42,)'

这里第一个字段是非NULL空字符串,第三个字段为NULL。

(这些常量实际上只是第4.1.2.7节中讨论的通用类型常量的一个特例。该常量最初被视为字符串并传递给复合类型输入转换例程。可能需要显式类型规范来指示要将常量转换为哪种类型。)

ROW表达式语法也可用于构造复合值。在大多数情况下,这比字符串文字语法简单得多,因为您不必担心多层引号。我们已经在上面使用了这种方法

ROW('fuzzy dice', 42, 1.99)
ROW('', 42, NULL)

只要表达式中有多个字段,ROW关键字实际上都是可选的,因此这些可以简化为

('fuzzy dice', 42, 1.99)
('', 42, NULL)

ROW表达式语法在第4.2.13节中有更详细的讨论。

8.16.3. 访问复合类型 #

要访问复合列的字段,可以编写一个点和字段名称,就像从表名称中选择字段一样。事实上,它与从表名称中选择字段非常相似,以至于您经常需要使用括号来避免混淆解析器。例如,您可能尝试使用类似以下内容从我们的on_hand示例表中选择一些子字段

SELECT item.name FROM on_hand WHERE item.price > 9.99;

这将不起作用,因为根据SQL语法规则,名称item被视为表名,而不是on_hand的列名。您必须这样写

SELECT (item).name FROM on_hand WHERE (item).price > 9.99;

或者如果您也需要使用表名(例如在多表查询中),则可以这样写

SELECT (on_hand.item).name FROM on_hand WHERE (on_hand.item).price > 9.99;

现在,括号内的对象被正确地解释为对item列的引用,然后可以从中选择子字段。

每当您从复合值中选择字段时,都会出现类似的语法问题。例如,要从返回复合值的函数的结果中选择一个字段,您需要编写类似以下内容

SELECT (my_func(...)).field FROM ...

如果没有额外的括号,这将生成语法错误。

特殊字段名*表示所有字段,如第8.16.5节中进一步解释。

8.16.4. 修改复合类型 #

以下是一些有关插入和更新复合列的正确语法的示例。首先,插入或更新整列

INSERT INTO mytab (complex_col) VALUES((1.1,2.2));

UPDATE mytab SET complex_col = ROW(1.1,2.2) WHERE ...;

第一个示例省略了ROW,第二个示例使用了它;我们可以用任何一种方式来做。

我们可以更新复合列的单个子字段

UPDATE mytab SET complex_col.r = (complex_col).r + 1 WHERE ...;

请注意,这里我们不需要(实际上也不能)在SET之后出现的列名周围加上括号,但当在等号右侧的表达式中引用同一列时,我们需要加上括号。

我们也可以将子字段指定为INSERT的目标

INSERT INTO mytab (complex_col.r, complex_col.i) VALUES(1.1, 2.2);

如果我们没有为列的所有子字段提供值,则其余子字段将填充为null值。

8.16.5. 在查询中使用复合类型 #

在查询中,与复合类型相关联的各种特殊语法规则和行为。这些规则提供了有用的快捷方式,但如果您不知道其背后的逻辑,可能会令人困惑。

PostgreSQL中,对查询中表名(或别名)的引用实际上是对表当前行的复合值的引用。例如,如果我们有一个inventory_item表,如上文所示,我们可以编写

SELECT c FROM inventory_item c;

此查询生成单个复合值列,因此我们可能会得到如下输出

           c
------------------------
 ("fuzzy dice",42,1.99)
(1 row)

但是请注意,简单名称在表名称之前与列名称匹配,因此此示例仅在查询的表中没有名为c的列时才有效。

普通的限定列名语法table_name.column_name可以理解为对表当前行的复合值应用字段选择。(出于效率原因,它实际上并非以这种方式实现。)

当我们写

SELECT c.* FROM inventory_item c;

那么,根据SQL标准,我们应该得到扩展为单独列的表内容

    name    | supplier_id | price
------------+-------------+-------
 fuzzy dice |          42 |  1.99
(1 row)

就像查询是

SELECT c.name, c.supplier_id, c.price FROM inventory_item c;

PostgreSQL会将此扩展行为应用于任何复合值表达式,尽管如上文所示,每当它不是简单的表名时,都需要在应用.*的值周围加上括号。例如,如果myfunc()是返回具有abc列的复合类型的函数,则以下两个查询的结果相同

SELECT (myfunc(x)).* FROM some_table;
SELECT (myfunc(x)).a, (myfunc(x)).b, (myfunc(x)).c FROM some_table;

提示

PostgreSQL通过将第一种形式实际转换为第二种形式来处理列扩展。因此,在此示例中,myfunc()将使用任一语法每行调用三次。如果这是一个昂贵的函数,您可能希望避免这种情况,您可以使用如下查询来实现

SELECT m.* FROM some_table, LATERAL myfunc(x) AS m;

将函数放在LATERAL FROM项中可以防止它每行调用多次。m.*仍扩展为m.a, m.b, m.c,但现在这些变量只是对FROM项输出的引用。(LATERAL关键字此处是可选的,但我们显示它是为了阐明该函数正在从some_table获取x。)

composite_value.* 语法出现在 SELECT 输出列表RETURNING 列表(在 INSERT/UPDATE/DELETE/MERGE 中)、VALUES 子句行构造器 的顶层时,会导致这种形式的列扩展。在所有其他上下文中(包括嵌套在这些构造中的情况),将 .* 附加到复合值不会更改该值,因为它表示““所有列””,因此会再次生成相同的复合值。例如,如果 somefunc() 接受一个复合值参数,则以下查询是相同的

SELECT somefunc(c.*) FROM inventory_item c;
SELECT somefunc(c) FROM inventory_item c;

在这两种情况下,inventory_item 的当前行都作为单个复合值参数传递给函数。即使在这种情况下 .* 没有任何作用,使用它也是一种良好的风格,因为它明确表明了复合值的意图。特别是,解析器会认为 c.* 中的 c 指的是表名或别名,而不是列名,因此不会产生歧义;而在没有 .* 的情况下,不清楚 c 是指表名还是列名,事实上,如果存在名为 c 的列,则会优先选择列名的解释。

另一个演示这些概念的例子是,以下所有查询都具有相同的含义

SELECT * FROM inventory_item c ORDER BY c;
SELECT * FROM inventory_item c ORDER BY c.*;
SELECT * FROM inventory_item c ORDER BY ROW(c.*);

所有这些 ORDER BY 子句都指定了行的复合值,从而根据 第 9.25.6 节 中描述的规则对行进行排序。但是,如果 inventory_item 包含一个名为 c 的列,则第一种情况将与其他情况不同,因为它意味着仅按该列排序。鉴于前面显示的列名,以下查询也等效于上述查询

SELECT * FROM inventory_item c ORDER BY ROW(c.name, c.supplier_id, c.price);
SELECT * FROM inventory_item c ORDER BY (c.name, c.supplier_id, c.price);

(最后一种情况使用行构造器,并省略了关键字 ROW。)

与复合值相关的另一种特殊的语法行为是,我们可以使用 函数表示法来提取复合值的字段。简单来说,表示法 field(table)table.field 是可以互换的。例如,以下查询是等效的

SELECT c.name FROM inventory_item c WHERE c.price > 1000;
SELECT name(c) FROM inventory_item c WHERE price(c) > 1000;

此外,如果我们有一个接受复合类型单个参数的函数,我们可以使用这两种表示法来调用它。以下所有查询都是等效的

SELECT somefunc(c) FROM inventory_item c;
SELECT somefunc(c.*) FROM inventory_item c;
SELECT c.somefunc FROM inventory_item c;

函数表示法和字段表示法之间的这种等效性使得可以在复合类型上使用函数来实现““计算字段””。 使用上面最后一个查询的应用程序不需要直接知道 somefunc 是否是表的真实列。

提示

由于这种行为,最好不要将接受单个复合类型参数的函数命名为该复合类型的任何字段。如果存在歧义,如果使用字段名语法,则会选择字段名解释,而如果使用函数调用语法,则会选择函数。但是,PostgreSQL 11 之前的版本始终选择字段名解释,除非调用的语法要求它成为函数调用。在旧版本中强制使用函数解释的一种方法是对函数名称进行模式限定,即编写 schema.func(compositevalue)

8.16.6. 复合类型输入和输出语法 #

复合值的外部文本表示由根据各个字段类型的 I/O 转换规则解释的项目以及指示复合结构的修饰组成。修饰由整个值周围的括号(())以及相邻项目之间的逗号(,)组成。括号外部的空格将被忽略,但在括号内部,它被视为字段值的一部分,并且根据字段数据类型的输入转换规则,它可能是或可能不是重要的。例如,在

'(  42)'

如果字段类型是整数,则空格将被忽略,但如果它是文本,则不会被忽略。

如前所述,在编写复合值时,可以在任何单个字段值周围添加双引号。如果字段值在其他情况下会使复合值解析器混淆,则必须这样做。特别是,包含括号、逗号、双引号或反斜杠的字段必须用双引号括起来。要在带引号的复合字段值中放置双引号或反斜杠,请在其前面加上反斜杠。(此外,带引号的复合字段值中的双引号对表示双引号字符,类似于 SQL 文字字符串中单引号的规则。)或者,您可以避免使用引号,并使用反斜杠转义来保护所有在其他情况下会被视为复合语法的字符。

完全空的字段值(逗号或括号之间没有任何字符)表示 NULL。要写入一个空字符串而不是 NULL 的值,请写入 ""

复合输出例程将在字段值为空字符串或包含括号、逗号、双引号、反斜杠或空格时,在字段值周围加上双引号。(对空格这样做不是必需的,但有助于提高可读性。)嵌入在字段值中的双引号和反斜杠将被加倍。

注意

请记住,您在 SQL 命令中编写的內容首先会被解释为字符串文字,然后被解释为复合值。这使得您所需的反斜杠数量加倍(假设使用了转义字符串语法)。例如,要在复合值中插入包含双引号和反斜杠的 text 字段,您需要编写

INSERT ... VALUES ('("\"\\")');

字符串文字处理器删除一层反斜杠,以便到达复合值解析器的内容看起来像 ("\"\\")。反过来,提供给 text 数据类型的输入例程的字符串变为 "\。(如果我们正在使用其输入例程也对反斜杠进行特殊处理的数据类型,例如 bytea,则可能需要在命令中使用多达八个反斜杠才能在存储的复合字段中获得一个反斜杠。)美元引用(请参阅 第 4.1.2.4 节)可以用来避免需要加倍反斜杠。

提示

在 SQL 命令中编写复合值时,ROW 构造器语法通常比复合文字语法更容易使用。在 ROW 中,各个字段值以与它们不是复合成员时相同的方式编写。

提交更正

如果您在文档中发现任何不正确的内容、与您对特定功能的体验不符的内容或需要进一步澄清的内容,请使用 此表单 报告文档问题。