pg_kazsearch

PostgreSQL 哈萨克语全文检索扩展

概览

扩展包名版本分类许可证语言
pg_kazsearch0.1.0FTSLGPL-3.0Rust
ID扩展名BinLibLoadCreateTrustReloc模式
2200pg_kazsearch-

Upstream release/package version is 2.0.0; extension control version is 0.1.0.

版本

类型仓库版本PG 大版本包名依赖
EXTPIGSTY0.1.01817161514pg_kazsearch-
RPMPIGSTY2.0.01817161514pg_kazsearch_$v-
DEBPIGSTY2.0.01817161514postgresql-$v-pg-kazsearch-
OS / PGPG18PG17PG16PG15PG14
el8.x86_64PIGSTY MISSPIGSTY MISS
el8.aarch64PIGSTY MISSPIGSTY MISS
el9.x86_64PIGSTY MISSPIGSTY MISS
el9.aarch64PIGSTY MISSPIGSTY MISS
el10.x86_64PIGSTY MISSPIGSTY MISS
el10.aarch64PIGSTY MISSPIGSTY MISS
d12.x86_64PIGSTY MISSPIGSTY MISS
d12.aarch64
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY MISSPIGSTY MISS
d13.x86_64
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY MISSPIGSTY MISS
d13.aarch64
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY MISSPIGSTY MISS
u22.x86_64
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY MISSPIGSTY MISS
u22.aarch64
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY MISSPIGSTY MISS
u24.x86_64
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY MISSPIGSTY MISS
u24.aarch64
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY 2.0.0
PIGSTY MISSPIGSTY MISS

构建

您可以使用 pig build 命令构建 pg_kazsearch 扩展的 RPM / DEB 包:

pig build pkg pg_kazsearch         # 构建 RPM / DEB 包

安装

您可以直接安装 pg_kazsearch 扩展包的预置二进制包,首先确保 PGDGPIGSTY 仓库已经添加并启用:

pig repo add pgsql -u          # 添加仓库并更新缓存

使用 pig 或者是 apt/yum/dnf 安装扩展:

pig install pg_kazsearch;          # 当前活跃 PG 版本安装
pig ext install -y pg_kazsearch -v 18  # PG 18
pig ext install -y pg_kazsearch -v 17  # PG 17
pig ext install -y pg_kazsearch -v 16  # PG 16
dnf install -y pg_kazsearch_18       # PG 18
dnf install -y pg_kazsearch_17       # PG 17
dnf install -y pg_kazsearch_16       # PG 16
apt install -y postgresql-18-pg-kazsearch   # PG 18
apt install -y postgresql-17-pg-kazsearch   # PG 17
apt install -y postgresql-16-pg-kazsearch   # PG 16

创建扩展

CREATE EXTENSION pg_kazsearch;

用法

来源: README项目仓库

pg_kazsearch 是一个面向哈萨克语的 PostgreSQL 全文检索扩展。 上游 README 将其描述为使用 pgrx 构建的 Rust 扩展,它接入 PostgreSQL 的文本检索流水线。

它会创建一个可直接使用的配置 kazakh_cfg,以及配套词典 pg_kazsearch_dict

快速开始

CREATE EXTENSION pg_kazsearch;

SELECT to_tsvector('kazakh_cfg', 'президенттің жарлығы');
-- 'жарлық':2 'президент':1

SELECT ts_lexize('pg_kazsearch_dict', 'алмаларымыздағы');
-- {алма}

使用场景

README 展示了以下典型用法:

  • 对单个哈萨克语词语做词干提取
  • 使用 to_tsvector('kazakh_cfg', ...) 构建 tsvector
  • 为表添加生成列类型的 tsvector
  • 用 GIN 索引这些列
  • 使用 websearch_to_tsquery('kazakh_cfg', ...) 进行检索

示例表工作流:

ALTER TABLE articles ADD COLUMN fts tsvector
    GENERATED ALWAYS AS (
        setweight(to_tsvector('kazakh_cfg', title), 'A') ||
        setweight(to_tsvector('kazakh_cfg', body), 'B')
    ) STORED;

CREATE INDEX idx_fts ON articles USING GIN (fts);

SELECT title FROM articles
WHERE fts @@ websearch_to_tsquery('kazakh_cfg', 'президенттің жарлығы')
ORDER BY ts_rank_cd(fts, websearch_to_tsquery('kazakh_cfg', 'президенттің жарлығы')) DESC
LIMIT 10;

调优

可以在运行时调整惩罚权重:

ALTER TEXT SEARCH DICTIONARY pg_kazsearch_dict (w_deriv = 3.5, w_short_char = 100.0);

部署

README 列出了三种支持的安装路径:

  • 预编译的 Debian/Ubuntu 软件包
  • 基于 ghcr.io/darkhanakh/pg-kazsearch 的 Docker 镜像
  • 使用 cargo pgrx install 从源码构建

本项目的仓库元数据对应 PostgreSQL 16-18。


最后修改 2026-04-14: update extension catalog (fa7cf58)