

PostgreSQL 近期发布的 pgvector 0.8.0 版本引入了几项关键改进,对专用向量数据库方案提出了新的挑战。其核心在于更紧密地融合了向量相似性搜索与传统的结构化数据查询能力。
技术背景:从独立向量存储到一体化查询
随着 RAG(检索增强生成)等 AI 应用模式的普及,高效存储和检索向量嵌入(Embeddings)成为刚需。专用向量数据库一度被视为唯一解决方案,其论点是传统关系型数据库无法有效处理高维向量近似最近邻(ANN)搜索。
然而,许多企业已拥有成熟稳定的 PostgreSQL 数据库集群。pgvector 扩展的出现,使得在现有数据库基础设施内直接进行向量操作成为可能。最新版本的增强功能,正致力于解决混合查询(向量搜索+元数据过滤)这一核心痛点。
pgvector 0.8.0 的核心改进
0.8.0 版本并非增加新的距离算法,而是优化了查询执行引擎,使其更“智能”。
1. 迭代索引扫描
此功能解决了混合查询中因过滤条件过于严格而导致结果为空的问题。系统现在能够进行增量扫描,在满足过滤条件的记录中寻找最相似的向量,直到返回所需数量的结果,避免了“零结果”的尴尬。
2. 改进的查询规划器
PostgreSQL 的查询规划器现在能更好地为涉及向量索引和常规索引(如 B-tree)的查询制定执行计划。它会自动评估是应该先利用元数据条件过滤再计算相似度,还是先进行向量搜索再过滤,从而选择成本更低的路径。
实战:构建带过滤条件的向量搜索
以下示例展示如何在已有的产品表中集成向量搜索功能。
步骤1:启用扩展与添加向量列
-- 启用pgvector扩展
CREATE EXTENSION IF NOT EXISTS vector;
-- 为现有表添加向量列(假设使用 OpenAI 的 1536 维嵌入)
ALTER TABLE products
ADD COLUMN IF NOT EXISTS embedding vector(1536);
步骤2:创建复合索引策略
高效的混合查询需要合理的索引。
-- 创建向量索引,使用余弦相似度操作符
CREATE INDEX idx_product_embedding_cosine
ON products USING hnsw (embedding vector_cosine_ops);
-- 保留或在关键过滤字段上创建索引
CREATE INDEX idx_product_price ON products(price);
CREATE INDEX idx_product_category ON products(category);
步骤3:执行混合查询
以下 Python 示例演示了如何使用新的能力进行智能查询。
import psycopg2
def find_similar_with_filters(target_product_id, max_price=None, category=None):
"""
查找相似商品,并支持价格和品类过滤。
pgvector 0.8.0 的查询规划器会自动优化执行路径。
"""
conn = psycopg2.connect(“你的连接信息”)
cur = conn.cursor()
# 获取目标商品的向量
cur.execute("SELECT embedding FROM products WHERE id = %s;", (target_product_id,))
target_embedding = cur.fetchone()[0]
# 构建基础查询
query = """
SELECT id, name, price,
(embedding <=> %s) AS similarity
FROM products
WHERE id != %s
"""
params = [target_embedding, target_product_id]
# 动态添加过滤条件
if max_price is not None:
query += " AND price <= %s"
params.append(max_price)
if category:
query += " AND category = %s"
params.append(category)
query += " ORDER BY similarity LIMIT 10;"
# 执行查询,PostgreSQL会自动选择最佳索引和扫描方式
cur.execute(query, params)
results = cur.fetchall()
conn.close()
return results
# 使用示例:寻找与商品ID 123 相似、价格低于100元、同属‘electronics’品类的商品
matches = find_similar_with_filters(123, max_price=100, category='electronics')
架构与成本优势分析
架构简化
使用 pgvector 意味着向量数据与业务核心数据共存于同一数据库,带来显著优势:
- 数据一致性:无需在数据库间同步数据,保证强一致性。
- 运维简化:只需维护一套数据库系统,降低运维/DevOps复杂度。
- 事务支持:向量数据的插入、更新可与其他业务数据在同一事务中完成。
成本对比
专用向量数据库通常按向量数量收费。对于百万级向量的应用,采用 pgvector 的成本优势非常明显:
- 软件成本:pgvector 是开源扩展,免费。
- 基础设施成本:向量存储仅占用额外的磁盘空间,复用现有 PostgreSQL 实例。
- 开发成本:团队使用熟悉的 SQL 接口,无需学习新的查询语言或 API。
性能考量
虽然专用向量数据库在纯向量、超大规模(数十亿)搜索场景下可能仍有性能优势,但 pgvector 的性能对于大多数应用(百万到千万级向量)已完全足够。更重要的是,它消除了网络往返和数据同步带来的延迟,在混合查询场景下,整体链路性能往往更优。
适用场景与选型建议
pgvector 是理想选择的情况:
- 数据量在百万至千万级别。
- 查询需要频繁结合业务元数据(价格、状态、时间范围等)进行过滤。
- 已在使用 PostgreSQL,希望最小化技术栈复杂性。
- 对数据强一致性和事务有要求。
仍可考虑专用向量数据库的情况:
- 数据规模达到十亿乃至百亿向量级别。
- 工作负载几乎全是纯向量相似度搜索,极少需要结构化过滤。
- 需要完全托管的服务且不愿管理数据库。
总结
pgvector 0.8.0 的进步,标志着 PostgreSQL 在胜任人工智能应用数据基础设施核心的角色上又迈出了一步。它并非要完全取代专用向量数据库,而是为广大的开发者提供了一个更简单、经济且功能集成的选择。技术选型的核心应是匹配实际业务场景,而非盲目追随技术潮流。对于许多正在探索 AI 集成的团队而言,从已有的 PostgreSQL 生态中挖掘潜力,可能是最高效、稳健的起点。