2024 年 9 月 26 日: PostgreSQL 17 发布!
支持的版本:当前 (17) / 16 / 15 / 14 / 13 / 12
开发版本:devel
不支持的版本:11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3

F.16. fuzzystrmatch — 确定字符串相似度和距离 #

fuzzystrmatch 模块提供了一些函数来确定字符串之间的相似度和距离。

警告

目前,该 soundex, metaphone, dmetaphone, 和 dmetaphone_alt 函数在多字节编码(如 UTF-8)下表现不佳。对于此类数据,请使用 daitch_mokotofflevenshtein

该模块被认为是 可信的,即非超级用户可以在拥有当前数据库的 CREATE 权限的情况下安装它。

F.16.1. Soundex #

Soundex 系统是一种通过将相似发音的姓名转换为相同的代码来匹配这些姓名的方法。它最初由美国人口普查局在 1880 年、1900 年和 1910 年使用。请注意,Soundex 对非英语姓名不太有用。

fuzzystrmatch 模块提供两个用于处理 Soundex 代码的函数

soundex(text) returns text
difference(text, text) returns int

soundex 函数将字符串转换为其 Soundex 代码。该 difference 函数将两个字符串转换为它们的 Soundex 代码,然后报告匹配代码位置的数量。由于 Soundex 代码有四个字符,因此结果范围从零到四,零表示不匹配,四表示完全匹配。(因此,该函数的命名存在误导性——similarity 将是一个更好的名称。)

以下是一些用法示例

SELECT soundex('hello world!');

SELECT soundex('Anne'), soundex('Ann'), difference('Anne', 'Ann');
SELECT soundex('Anne'), soundex('Andrew'), difference('Anne', 'Andrew');
SELECT soundex('Anne'), soundex('Margaret'), difference('Anne', 'Margaret');

CREATE TABLE s (nm text);

INSERT INTO s VALUES ('john');
INSERT INTO s VALUES ('joan');
INSERT INTO s VALUES ('wobbly');
INSERT INTO s VALUES ('jack');

SELECT * FROM s WHERE soundex(nm) = soundex('john');

SELECT * FROM s WHERE difference(s.nm, 'john') > 2;

F.16.2. Daitch-Mokotoff Soundex #

与原始的 Soundex 系统类似,Daitch-Mokotoff Soundex 通过将相似发音的姓名转换为相同的代码来匹配这些姓名。但是,Daitch-Mokotoff Soundex 对非英语姓名比原始系统更有用。与原始系统相比,主要的改进包括

  • 该代码基于前六个有意义的字母,而不是四个。

  • 一个字母或字母组合映射到十个可能的代码,而不是七个。

  • 当两个连续字母具有单个发音时,它们被编码为单个数字。

  • 当一个字母或字母组合可能具有不同的发音时,会发出多个代码以涵盖所有可能性。

该函数为其输入生成 Daitch-Mokotoff soundex 代码

daitch_mokotoff(source text) returns text[]

结果可能包含一个或多个代码,具体取决于有多少种合理的读音,因此它表示为一个数组。

由于 Daitch-Mokotoff soundex 代码仅包含 6 位数字,因此 source 最好是一个单词或姓名。

以下是一些示例

SELECT daitch_mokotoff('George');
 daitch_mokotoff
-----------------
 {595000}

SELECT daitch_mokotoff('John');
 daitch_mokotoff
-----------------
 {160000,460000}

SELECT daitch_mokotoff('Bierschbach');
                      daitch_mokotoff
-----------------------------------------------------------
 {794575,794574,794750,794740,745750,745740,747500,747400}

SELECT daitch_mokotoff('Schwartzenegger');
 daitch_mokotoff
-----------------
 {479465}

对于单个姓名的匹配,返回的文本数组可以直接使用 && 运算符进行匹配:任何重叠都可以被视为匹配。可以使用 GIN 索引提高效率,请参阅 第 64.4 节 和此示例

CREATE TABLE s (nm text);
CREATE INDEX ix_s_dm ON s USING gin (daitch_mokotoff(nm)) WITH (fastupdate = off);

INSERT INTO s (nm) VALUES
  ('Schwartzenegger'),
  ('John'),
  ('James'),
  ('Steinman'),
  ('Steinmetz');

SELECT * FROM s WHERE daitch_mokotoff(nm) && daitch_mokotoff('Swartzenegger');
SELECT * FROM s WHERE daitch_mokotoff(nm) && daitch_mokotoff('Jane');
SELECT * FROM s WHERE daitch_mokotoff(nm) && daitch_mokotoff('Jens');

对于任何数量的名称以任何顺序进行索引和匹配,可以使用全文搜索功能。请参阅 第 12 章 和此示例

CREATE FUNCTION soundex_tsvector(v_name text) RETURNS tsvector
BEGIN ATOMIC
  SELECT to_tsvector('simple',
                     string_agg(array_to_string(daitch_mokotoff(n), ' '), ' '))
  FROM regexp_split_to_table(v_name, '\s+') AS n;
END;

CREATE FUNCTION soundex_tsquery(v_name text) RETURNS tsquery
BEGIN ATOMIC
  SELECT string_agg('(' || array_to_string(daitch_mokotoff(n), '|') || ')', '&')::tsquery
  FROM regexp_split_to_table(v_name, '\s+') AS n;
END;

CREATE TABLE s (nm text);
CREATE INDEX ix_s_txt ON s USING gin (soundex_tsvector(nm)) WITH (fastupdate = off);

INSERT INTO s (nm) VALUES
  ('John Doe'),
  ('Jane Roe'),
  ('Public John Q.'),
  ('George Best'),
  ('John Yamson');

SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('john');
SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('jane doe');
SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('john public');
SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('besst, giorgio');
SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('Jameson John');

如果希望在索引重新检查期间避免重新计算 soundex 代码,可以使用单独列上的索引,而不是表达式上的索引。可以使用存储的生成列来实现这一点;请参阅 第 5.4 节

F.16.3. Levenshtein #

该函数计算两个字符串之间的 Levenshtein 距离

levenshtein(source text, target text, ins_cost int, del_cost int, sub_cost int) returns int
levenshtein(source text, target text) returns int
levenshtein_less_equal(source text, target text, ins_cost int, del_cost int, sub_cost int, max_d int) returns int
levenshtein_less_equal(source text, target text, max_d int) returns int

两者 sourcetarget 可以是任何非空字符串,最多 255 个字符。成本参数指定对字符插入、删除或替换分别收取多少费用。您可以省略成本参数,如函数的第二个版本所示;在这种情况下,它们都默认为 1。

levenshtein_less_equal 是 Levenshtein 函数的加速版本,用于仅对小的距离感兴趣的情况。如果实际距离小于或等于 max_d,则 levenshtein_less_equal 返回正确的距离;否则,它将返回大于 max_d 的某个值。如果 max_d 为负,则行为与 levenshtein 相同。

示例

test=# SELECT levenshtein('GUMBO', 'GAMBOL');
 levenshtein
-------------
           2
(1 row)

test=# SELECT levenshtein('GUMBO', 'GAMBOL', 2, 1, 1);
 levenshtein
-------------
           3
(1 row)

test=# SELECT levenshtein_less_equal('extensive', 'exhaustive', 2);
 levenshtein_less_equal
------------------------
                      3
(1 row)

test=# SELECT levenshtein_less_equal('extensive', 'exhaustive', 4);
 levenshtein_less_equal
------------------------
                      4
(1 row)

F.16.4. Metaphone #

Metaphone 与 Soundex 一样,基于为输入字符串构建一个代表性代码的想法。然后,如果两个字符串具有相同的代码,则认为它们相似。

该函数计算输入字符串的 metaphone 代码

metaphone(source text, max_output_length int) returns text

source 必须是一个非空字符串,最多 255 个字符。 max_output_length 设置输出 metaphone 代码的最大长度;如果更长,则输出将被截断到此长度。

示例

test=# SELECT metaphone('GUMBO', 4);
 metaphone
-----------
 KM
(1 row)

F.16.5. 双元音 Metaphone #

双元音 Metaphone 系统为给定的输入字符串计算两个 听起来像 字符串——一个 和一个 备用。在大多数情况下它们是相同的,但对于非英语姓名来说,它们可能会略有不同,具体取决于发音。这些函数计算主代码和备用代码

dmetaphone(source text) returns text
dmetaphone_alt(source text) returns text

输入字符串没有长度限制。

示例

test=# SELECT dmetaphone('gumbo');
 dmetaphone
------------
 KMP
(1 row)

提交更正

如果您在文档中发现任何错误,不符合您对特定功能的体验,或者需要进一步澄清,请使用 此表格 报告文档问题。