云栈社区»论坛 › 开源实战「 OpenSource 」 › Embedding模型微调实战：基于LlamaIndex与BGE提升RAG检索效果 ...

发回帖发新帖

2843 积分	0 好友	391 主题

发消息

[Python] Embedding模型微调实战：基于LlamaIndex与BGE提升RAG检索效果

发表于 2025-12-15 19:00:39 | 查看: 60| 回复: 0

在构建RAG（检索增强生成）系统时，检索效果不佳是一个常见痛点。通用Embedding模型往往难以精准理解特定领域的语义和术语关联，导致相关文档召回率低。本文将详细介绍如何使用LlamaIndex框架，对开源的BGE Embedding模型进行领域微调，从而显著提升在专业场景下的检索准确性。

一、为什么需要对Embedding模型进行微调？

Embedding模型作为RAG系统的基石，其质量直接决定了检索阶段的效果。尽管市面上存在众多优秀的通用Embedding模型（如BGE系列、OpenAI的text-embedding-ada-002等），但在处理专业领域文档时，其局限性便显露出来：

领域术语理解偏差：例如，在金融证券领域，通用模型可能无法准确建立“证券发行”与“股票上市”之间的强语义关联。
业务语境缺失：模型对领域特有的表达方式和上下文逻辑不敏感。
长尾查询匹配弱：针对非常具体、专业的查询语句，通用模型难以找到最相关的文档片段。

解决方案是通过领域数据对预训练的Embedding模型进行微调，使其编码器能够更好地捕捉特定领域文本的语义特征，从而在相似度计算时获得更精准的结果。

二、微调流程概述

本次微调采用三步走的策略，流程清晰，易于实现：

生成训练数据集：从领域文档（如PDF）中提取文本，并利用大语言模型自动生成问答对，构造监督学习所需的(query, positive_doc)对。
执行模型微调：使用LlamaIndex提供的微调引擎，加载生成的数据集对选定的基础Embedding模型进行训练。
评估微调效果：通过命中率等指标，定量对比微调前后模型在验证集上的性能差异。

三、实战步骤与代码详解

环境与数据准备

首先，准备一份领域文档作为训练语料（本例使用《中华人民共和国证券法》PDF）。创建项目并配置环境变量（.env文件）：

OPENAI_API_KEY=sk-xxxx
OPENAI_API_BASE=https://api.siliconflow.cn/v1
LLM_MODEL=deepseek-ai/DeepSeek-V3
EMBEDDING_MODEL=Qwen/Qwen3-Embedding-8B

在 pyproject.toml 中配置项目依赖，核心包括 llama-index-finetuning, transformers 等库。准备好 Python 环境后即可开始。

3.1 第一步：自动生成训练数据集

我们利用LLM自动从文档中生成问答对，极大降低了人工标注成本。

# 1-gen_train_dataset.py
import json
from llama_index.core import SimpleDirectoryReader
from llama_index.core.node_parser import SentenceSplitter
import os
from llama_index.finetuning import generate_qa_embedding_pairs
from llama_index.llms.openai_like import OpenAILike
from dotenv import load_dotenv

load_dotenv()

BASE_DIR = r"D:\Test\embedding_ft\data"
TRAIN_FILES = [os.path.join(BASE_DIR, "中华人民共和国证券法(2019修订).pdf")]
VAL_FILES = TRAIN_FILES # 本例中训练验证使用同一份文件

TRAIN_CORPUS_FPATH = os.path.join(BASE_DIR, "train_corpus.json")
VAL_CORPUS_FPATH = os.path.join(BASE_DIR, "val_corpus.json")

def load_corpus(files, verbose=False):
    reader = SimpleDirectoryReader(input_files=files)
    docs = reader.load_data()
    parser = SentenceSplitter()
    nodes = parser.get_nodes_from_documents(docs, show_progress=verbose)
    return nodes

def mk_dataset():
    train_nodes = load_corpus(TRAIN_FILES, verbose=True)
    val_nodes = load_corpus(VAL_FILES, verbose=True)

    llm = OpenAILike(
        model=os.getenv("LLM_MODEL"),
        api_base=os.getenv("OPENAI_API_BASE"),
        api_key=os.getenv("OPENAI_API_KEY"),
        temperature=0.7,
    )
    train_dataset = generate_qa_embedding_pairs(llm=llm, nodes=train_nodes)
    val_dataset = generate_qa_embedding_pairs(llm=llm, nodes=val_nodes)

    train_dataset.save_json(TRAIN_CORPUS_FPATH)
    val_dataset.save_json(VAL_CORPUS_FPATH)

mk_dataset()

关键步骤说明：

SimpleDirectoryReader 和 SentenceSplitter 负责文档读取与文本分块。
generate_qa_embedding_pairs 是核心函数，它调用LLM为每个文本块生成对应的潜在问题，形成高质量的问答对训练数据。
最终生成 train_corpus.json 和 val_corpus.json 两个数据集文件。

3.2 第二步：使用LlamaIndex微调引擎训练模型

LlamaIndex 的 SentenceTransformersFinetuneEngine 封装了训练细节，使微调过程变得非常简单。

# 2-fine_tune.py
from llama_index.finetuning import SentenceTransformersFinetuneEngine
from llama_index.core.evaluation import EmbeddingQAFinetuneDataset
import os

BASE_DIR = r"D:\Test\embedding_ft\data"
TRAIN_CORPUS_FPATH = os.path.join(BASE_DIR, "train_corpus.json")
VAL_CORPUS_FPATH = os.path.join(BASE_DIR, "val_corpus.json")

def finetune_embedding_model():
    train_dataset = EmbeddingQAFinetuneDataset.from_json(TRAIN_CORPUS_FPATH)
    val_dataset = EmbeddingQAFinetuneDataset.from_json(VAL_CORPUS_FPATH)

    model_path = os.path.join(".", "model", "BAAI", "bge-small-en-v1___5")
    finetune_engine = SentenceTransformersFinetuneEngine(
        train_dataset,
        model_id=model_path,
        val_dataset=val_dataset,
    )
    finetune_engine.finetune()
    embed_model = finetune_engine.get_finetuned_model()
    print(f"微调完成，模型保存于: {embed_model}")

finetune_embedding_model()

关键步骤说明：

基础模型选用 bge-small-en-v1.5，需提前从Hugging Face下载至本地 model 目录。
训练引擎会自动处理训练循环、损失计算和模型保存，微调后的模型默认保存在 exp_finetune 目录。

3.3 第三步：评估与效果对比

我们采用命中率作为核心评估指标，即对于每个查询，正确答案是否出现在检索结果的前K个文档中。

# 3-eval_embedding.py (核心评估函数)
from llama_index.core import VectorStoreIndex
from llama_index.core.schema import TextNode
from llama_index.core.evaluation import EmbeddingQAFinetuneDataset
from llama_index.embeddings.openai_like import OpenAILikeEmbedding
from tqdm import tqdm
import pandas as pd
import os
from dotenv import load_dotenv

load_dotenv()
BASE_DIR = r"D:\Test\embedding_ft\data"
VAL_CORPUS_FPATH = os.path.join(BASE_DIR, "val_corpus.json")

def evaluate(dataset, embed_model, top_k=5):
    corpus = dataset.corpus
    queries = dataset.queries
    relevant_docs = dataset.relevant_docs

    nodes = [TextNode(id_=id_, text=text) for id_, text in corpus.items()]
    index = VectorStoreIndex(nodes, embed_model=embed_model, show_progress=True)
    retriever = index.as_retriever(similarity_top_k=top_k)

    eval_results = []
    for query_id, query in tqdm(queries.items()):
        retrieved_nodes = retriever.retrieve(query)
        retrieved_ids = [node.node.node_id for node in retrieved_nodes]
        expected_id = relevant_docs[query_id][0]
        is_hit = expected_id in retrieved_ids
        eval_results.append({"is_hit": is_hit})
    return pd.DataFrame(eval_results)["is_hit"].mean()

if __name__ == "__main__":
    dataset = EmbeddingQAFinetuneDataset.from_json(VAL_CORPUS_FPATH)

    # 1. 评估在线通用模型 (Qwen3-Embedding-8B)
    model_online = OpenAILikeEmbedding(
        model_name=os.getenv("EMBEDDING_MODEL"),
        api_base=os.getenv("OPENAI_API_BASE"),
        api_key=os.getenv("OPENAI_API_KEY"),
    )
    hr_online = evaluate(dataset, model_online)
    print(f"Qwen3_Embedding_8B 命中率: {hr_online:.4f}")

    # 2. 评估原始BGE模型
    model_original = r"local:D:\Test\embedding_ft\model\BAAI\bge-small-en-v1___5"
    hr_original = evaluate(dataset, model_original)
    print(f"原始BGE模型 命中率: {hr_original:.4f}")

    # 3. 评估微调后的BGE模型
    model_finetuned = r"local:D:\Test\embedding_ft\exp_finetune"
    hr_finetuned = evaluate(dataset, model_finetuned)
    print(f"微调后BGE模型 命中率: {hr_finetuned:.4f}")

评估结果输出示例：

Qwen3_Embedding_8B 命中率为: 0.2584
原始BGE模型 命中率为: 0.0899
微调后BGE模型 命中率为: 0.2360

结果分析：
在本次《证券法》领域的测试中，微调后的BGE-small模型命中率从 8.99% 提升至 23.60%，绝对提升超过14个百分点，效果显著。这证明了领域微调对于提升算法检索精度的有效性。

四、技术要点与总结

为什么选择LlamaIndex进行微调？

流程封装完善：提供了从数据生成、训练到评估的全流程高级API，降低了实现门槛。
数据生成自动化：利用LLM生成高质量训练对，解决了监督学习数据匮乏的难题。
模型兼容性好：支持多种Sentence Transformers架构的模型进行微调。
评估工具集成：方便进行效果对比与量化分析。

微调过程中的关键考量

数据质量优先：用于生成问答对的文档应准确、权威，覆盖领域核心知识。
基础模型选择：选择与目标任务（如语义匹配）和领域（如中文、法律）相近的预训练模型作为起点。
警惕过拟合：保留独立的验证集，监控模型在未见数据上的表现。
评估指标对齐：根据实际RAG应用场景选择评估指标，如Hit Rate@K、MRR或NDCG。

总结

本文完成了一个完整的Embedding模型领域微调实战：

✅ 利用LLM自动生成训练数据，无需人工标注。
✅ 使用LlamaIndex微调BGE模型，过程简洁高效。
✅ 定量评估显示效果显著提升，检索命中率大幅增加。

核心价值在于提供了一套低成本、可复现的领域适配方案。对于希望提升自有RAG系统检索效果的同学，可以尝试收集更多高质量领域数据，或更换更大的基础模型进行微调，以期获得更优的性能。微调后的模型可直接部署，为生产环境下的精准检索提供强大支撑。

上一篇：Next.js CVE-2025-55182漏洞复现：React RCE攻击分析与安全审计
下一篇：Open Notebook：开源本地部署的Google NotebookLM替代方案，支持多模型与隐私优先

Embedding, RAG, LlamaIndex, Python, 信息检索