语义缓存 GPTCache：降低 LLM 调用成本与时延

FreeGuideOnline 最新 2026-06-14

什么是语义缓存？为什么 LLM 应用需要它？

大型语言模型（LLM）虽然强大，但每次调用都意味着成本、网络延迟和计算资源消耗。对于大量重复或相似的问题，如果每次都直接请求模型，就会造成不必要的浪费。

语义缓存（Semantic Cache） 正是为了解决这一问题而生。与传统的精确键值缓存不同，语义缓存并不要求查询完全一致，而是通过理解查询之间的语义相似度，将之前相似问题的答案直接返回，从而：

大幅降低 API 调用成本：省去重复或近似请求的模型调用费用。
显著减少响应延迟：缓存命中时，可在毫秒级返回结果，无需等待模型生成。
提升系统吞吐与稳定性：降低后端 LLM 负载，同时缓存可在模型服务不可用时提供降级回复。

GPTCache 就是为此构建的开源语义缓存库，它为 LLM 应用提供了一个可插拔、可扩展的缓存层。

GPTCache 的核心原理

GPTCache 的工作流程可以抽象为以下阶段：

查询向量化（Embedding）
将用户输入的自然语言文本转换成高维语义向量。这个向量能代表文本的“含义”，而不仅仅是字面形式。
相似度检索（Similarity Search）
将生成的向量在缓存向量数据库中进行近邻搜索，找到语义最接近的历史查询及其缓存结果。
缓存命中判断（Evaluation）
根据预设的相似度阈值（例如余弦相似度 > 0.9）决定是否命中。如果命中，直接返回缓存的 LLM 回答；否则进入下一步。
LLM 调用与缓存写入
调用真实 LLM 服务获取答案，同时将本次询问的向量、原始问题、答案以及相关元数据存入缓存，供后续使用。

GPTCache 采用模块化设计，上述每个组件都可以按需替换，极大提高了灵活性。

快速上手：安装与基础配置

环境要求

Python 3.7+
一个可以使用的 LLM 服务（如 OpenAI API 密钥）

安装 GPTCache

pip install gptcache

如果计划使用本地向量数据库（如 Milvus、Faiss），可安装对应扩展：

pip install gptcache[milvus]   # 或 gptcache[chroma] 等

最简示例：使用 OpenAI 接口的语义缓存

以下示例展示了如何为 OpenAI 的 ChatCompletion 开启语义缓存：

from gptcache import cache
from gptcache.adapter import openai
from gptcache.processor.pre import get_prompt
from gptcache.embedding import Onnx
from gptcache.similarity_evaluation.distance import SearchDistanceEvaluation

# 初始化缓存，指定嵌入模型和相似度评估方式
onnx_embedding = Onnx()
cache.init(
    pre_embedding_func=get_prompt,
    embedding_func=onnx_embedding.to_embeddings,
    similarity_evaluation=SearchDistanceEvaluation()
)

# 设置 OpenAI API 密钥（或通过环境变量）
openai.api_key = "your-api-key"

# 正常调用 OpenAI，但背后自动使用缓存
response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": "解释一下相对论"}]
)
print(response.choices[0].message.content)

# 第二次询问语义几乎相同的问题，将直接命中缓存
response2 = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": "请简单说说什么是相对论"}]
)
# 第二次调用几乎不耗时，且不产生 token 费用

模块拆解：打造你的专属缓存策略

GPTCache 的配置由以下几个核心接口决定，你可以像搭积木一样组合它们。

1. 前置处理（Pre-processor）

将原始输入转化为字符串，通常用于提取对话中的最新用户消息。常用实现：

get_prompt：直接提取 messages 中最后一个 user 角色内容。
last_content：类似功能，可自定义处理逻辑。

2. 嵌入函数（Embedding Function）

负责文本 → 向量的转换。GPTCache 支持多种嵌入源：

本地模型（离线、隐私）
Onnx（基于 ONNX Runtime 运行小型模型，如 all-MiniLM-L6-v2）
Huggingface（指定 Hugging Face 模型名）
PaddleNLP、UForm 等。
云端 API（高精度）
OpenAI（text-embedding-ada-002）
Cohere、Huggingface、DashScope 等。

示例：使用 OpenAI 嵌入

from gptcache.embedding import OpenAI

cache.init(embedding_func=OpenAI())

3. 向量存储（Vector Store）

存放嵌入向量及对应缓存数据。选项包括：

内存级
MapStore（默认，基于字典）——快速但不持久化。
本地持久化
FaissStore、ChromaStore、MilvusLite 等，适合中小规模部署。
分布式生产级
MilvusStore、PgVectorStore、ZillizCloud 等。

示例：使用 FAISS 存储并设置索引路径

from gptcache.manager import manager_factory

cache.init(
    embedding_func=...,
    data_manager=manager_factory("vector_store,map", vector_params={"dimension": 384, "top_k": 5})
)

4. 缓存存储（Cache Store）

存放最终返回给用户的答案。通常配合向量存储使用，可以是 MapStore、RedisStore、SQLite 等。

5. 相似度评估（Similarity Evaluation）

决定一个查询是否可以命中缓存，最常用的是：

SearchDistanceEvaluation：基于向量距离，距离小于阈值视为命中。
ExactMatchEvaluation：要求查询完全匹配（降级为传统精确缓存）。
OnnxModelEvaluation：通过一个专用二分类模型判断语义是否足够接近。

可自定义阈值：

from gptcache.similarity_evaluation.distance import SearchDistanceEvaluation

evaluation = SearchDistanceEvaluation(max_distance=0.3)  # 越小越严格

高级用法：缓存复杂数据与多轮对话

缓存包含系统提示的对话

很多时候，系统角色（system prompt）会影响答案，缓存时需要将其纳入考量。只需修改前置处理函数，将整个消息序列拼接为字符串进行嵌入即可。

def get_full_messages(data, **kwargs):
    return str(data.get("messages", ""))

cache.init(pre_embedding_func=get_full_messages)

会话级缓存（Session Cache）

在多轮对话中，同一个问题可能因上下文不同而有不同答案。GPTCache 支持基于会话标识的隔离：

from gptcache import Cache
from gptcache.session import Session

session_id = "user_123"
cache = Cache()
cache.init(session=Session(name="my_app", check_hit_func=your_custom_func))
# 后续请求中携带 session_id 即可保证独立性

自定义评估与回退逻辑

你可以实现 OnnxModelEvaluation 之外更复杂的逻辑，比如结合关键词过滤、长度检查、或当缓存未命中时调用多个模型做灾备切换。

性能优化与部署建议

嵌入模型的选择
本地 Onnx 模型延迟在个位数毫秒，OpenAI 嵌入约 200ms。根据延迟敏感度权衡。
向量数据库调优
对于百万级以上向量，推荐使用 Milvus 等专业向量数据库，并配置合适的索引（如 IVF_PQ、HNSW）以平衡查询速度与精度。
缓存淘汰策略
默认使用 LRU（最近最少使用）。可通过 cache.init(eviction="size", max_size=10000) 控制内存占用。
监控命中率
通过 cache.report() 可以获得缓存命中次数、平均相似度等指标，便于持续优化阈值。

# 获取缓存状态
print(cache.report())

常见问题解答

问：语义缓存会不会返回不准确的答案？
通过合理设置相似度阈值，可以确保只有高度相似的问题才会命中缓存。对于严肃应用，建议采用较大的嵌入模型和严格的阈值，并辅以人工抽检机制。

问：GPTCache 可以配合 LangChain 或 LlamaIndex 使用吗？
可以。GPTCache 提供了 LangChain 的集成适配器，只需一行代码即可为 LangChain 的 LLM 链添加缓存。

from gptcache.adapter.langchain_models import LangChainLLMs

llm = LangChainLLMs(llm=your_original_llm)

问：缓存数据存储在哪儿？如何保证安全？
所有数据均存储在您指定的向量数据库和缓存存储中（本地文件或自建服务），不会上传到任何第三方。如需加密，可以在存储层进行二次开发。

问：是否需要自己训练模型？
不需要。GPTCache 自带的 Onnx 嵌入模型和距离评估可直接使用，开箱即用。同时也支持接驳自定义模型。

总结

GPTCache 凭借其简洁的模块化设计，让开发者无需从头构建语义缓存基础设施，即可为 LLM 应用快速叠加成本优化和加速能力。无论你是在构建聊天机器人、内容生成流水线，还是检索增强生成（RAG）系统，引入语义缓存都能在几乎不改变代码逻辑的前提下，带来立竿见影的性能提升和开销下降。

现在就从 pip install gptcache 开始，给你的 LLM 应用装上一个智能加速器吧。