Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/本地LLM提示工程2026:思维链与少样本
高级技术

本地LLM提示工程2026:思维链与少样本

·阅读约11分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

本地LLM(7B-13B模型)对提示的响应方式与云API不同。它们需要明确的结构、更清晰的指示,以及较少对上下文学习的依赖。

本地7B-13B模型对提示的响应方式与GPT-5.2或Claude不同。它们需要明确的结构、更清晰的指示,以及云模型需要1-2个的地方需要3-5个少样本示例。截至2026年4月,经过验证的技术包括思维链提示词(+10-20%准确率)、角色定义、结构化输出格式(JSON)以及Ollama和LM Studio中的系统提示词配置。

关键要点

  • 本地7B模型需要比GPT-5.5更明确的指导。更长的提示、更清晰的指示。
  • 思维链("让我逐步思考")将推理准确率提高10-20%。
  • 始终指定输出格式(JSON、Markdown、纯文本)。非结构化输出是不可预测的。
  • 少样本示例(1-3个)对本地模型比零样本效果更好。更多示例=更好的一致性。
  • 角色定义("你是Python专家")改进特定领域的响应。

关键事实

  • 思维链准确率提升: 推理任务提高10-20%
  • 少样本要求: 本地7B需要3-5个示例vs云API需要1-2个
  • 上下文消耗: 每个示例消耗50-200个token
  • 温度影响: 从0.8降低到0.3可将事实准确率提高15-25%
  • 模型大小差异: 7B模型比70B模型需要更明确的指导
  • 输出格式一致性: JSON规范将可靠性提高30-40%

本地模型有何不同?

方面GPT-5.2 (ChatGPT Plus)本地7B (Llama 3.3 8B)本地70B (Llama 3.3)
上下文窗口128K token4K-128K token128K token
指令遵循优秀明确提示下良好非常好
少样本学习1-2个示例需要3-5个示例2-3个示例
推理多步隐式逐步显式必需中等隐式
系统提示词API处理按工具配置按工具配置
默认温度1.0 (API)0.8 (Ollama默认)0.8 (Ollama默认)

思维链提示词如何提高准确性?

思维链(CoT)提示词要求LLM在回答前逐步展示推理。 这种技术对本地7B-13B模型特别有效,因为它们缺乏更大云模型的隐式推理能力。对于"17 × 24"这样的数学问题,没有CoT的本地模型经常猜错。通过明确的逐步推理,它们将问题分解成部分,准确率提高10-20%。

无CoT: "17 × 24是多少?" → 模型直接回答,通常错误。

有CoT: "逐步解决:17 × 24" → 模型展示:17 × 20 = 340、17 × 4 = 68、总计 = 408。更准确。

了解这种技术如何扩展到本地AI代理在内部使用推理来选择工具。

📍 简单一句话

思维链提示词指示模型在回答前将推理分解为显式步骤,在复杂任务上将准确率提高10-20%。

python
# Prompt with CoT
prompt = """
You will answer a question by thinking step-by-step.
Let me think about this:

Question: Why do local LLMs require more explicit prompting than cloud APIs?

Thinking:
1. First, consider the differences in model size...
2. Then, think about training data and fine-tuning...
3. Finally, consider the architecture and inference optimization...

Answer:
"""

# This guides the model to reason through the problem

💡: 专业提示:当用部分推理启动输出时,CoT效果最佳。示例:"让我逐步分解:首先,我注意到..."

为什么在本地模型中指定输出格式至关重要?

指定确切的输出格式(JSON、Markdown、纯文本)对本地模型至关重要,因为没有明确指示它们会产生不可预测的输出。 像GPT-5.5这样的云模型可以从模糊请求推断意图;本地7B-13B模型则不能。对于需要结构化文档提取的本地RAG系统,JSON格式规范可防止解析错误并将提取准确率提高30-40%。

示例: "从文本中提取实体"可能返回叙述文本而不是列表。

更好: "以JSON格式提取实体,键为:人员、位置、组织"。

python
# Bad: ambiguous output
prompt = "Summarize this text"

# Good: explicit format
prompt = """
Summarize the text in EXACTLY 3 bullet points.
Format as a JSON list:
{
  "summary": [
    "- Point 1",
    "- Point 2",
    "- Point 3"
  ]
}
"""

⚠️: 常见问题:本地模型有时拒绝输出原始JSON。添加"仅输出JSON,无markdown围栏"到提示词以解决此问题。

角色分配如何改进本地模型响应?

分配具体角色("你是具有10年经验的Python专家")与通用提示相比大大改进了特定领域的响应。 这种称为角色提示的技术通过将模型的响应生成锚定到特定专业域来工作。本地模型对角色定义的响应比云模型好15-25%,因为它们缺乏允许通用提示工作的强大RLHF对齐。示例:

  • "你是Python专家" → 更好的代码解释
  • "你是医学研究员" → 更详细的生物医学响应
  • "你是怀疑分析师" → 更批判性思考

结合角色定义与微调以获得更强的领域对齐,如果你在许多用例中部署。

💬 简单来说

简单来说,角色提示词告诉模型在回答时戴哪顶"帽子"。Python专家帽子产生与通用助手帽子不同(且更好)的代码。

🎯: 最佳实践:具体性很重要。"你是专家"很弱;"你是具有10年后端经验的Python专家,专注于异步/等待模式"很强。

如何在Ollama、LM Studio和llama.cpp中设置系统提示词?

系统提示词在用户消息之前定义模型的角色和约束,每个工具(Ollama、LM Studio、llama.cpp)需要不同的格式来设置它。

bash
# Ollama (Modelfile)
FROM llama3.1:8b
SYSTEM """You are a Python expert with 10 years experience. Answer only Python questions. Provide code examples. Use type hints."""
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER repeat_penalty 1.1

# Ollama (API / OpenAI SDK)
response = client.chat.completions.create(
  model="llama3.1:8b",
  messages=[
    {"role": "system", "content": "You are a Python expert..."},
    {"role": "user", "content": "Write a FastAPI endpoint"}
  ],
  temperature=0.7
)

# LM Studio (GUI)
# Settings → System Prompt field (paste your prompt)
# Or via API at localhost:1234 — identical format to Ollama

# llama.cpp (CLI)
./main -m llama-3.1-8b.gguf \
  --system-prompt "You are a Python expert..." \
  --temp 0.7 --top-p 0.9 --repeat-penalty 1.1 \
  -p "Write a FastAPI endpoint"

温度和采样参数如何影响输出质量?

调整温度、top_p和repeat_penalty对本地7B输出质量的影响比单纯的提示词措辞更大,本地模型需要与云API不同的默认值。

本地模型的关键洞察: Ollama的默认温度(0.8)高于OpenAI的API默认值(核心采样为1.0)。将温度降低到0.3-0.5可大幅提高本地7B模型的事实准确率。对于编码任务,将温度设置为0.1-0.2,repeat_penalty设置为1.0(代码需要导入和函数调用等重复模式)。

参数控制内容默认值 (Ollama)推荐
temperature随机性0.8事实性0.3-0.5,创意0.7-0.9
top_p词汇多样性0.9一致性0.8,变化0.95
repeat_penalty重复回避1.1聊天1.1-1.2,代码1.0

📌: 关键点:温度是logits的倍增器。在0.0处,始终选择概率最高的token。在1.0+,随机性增加。本地模型在1.5温度以上饱和。

为什么本地模型需要比云API更多的少样本示例?

提供3-5个示例(少样本学习)给本地模型改进输出一致性15-25%超过零样本,而云模型只需1-2个示例。

本地模型从更多示例中受益,因为它们的参数较少,训练数据多样性较低。少样本学习是一种上下文学习技术,在要求模型解决实际任务之前向其展示预期的输入/输出模式。

python
# Few-shot prompt
prompt = """
Classify sentiment. Examples:

"I love this product!" → positive
"Worst experience ever" → negative
"It's okay, nothing special" → neutral

Now classify: "This is amazing!"
Answer: """

# Model learns format and style from examples

🛠️: 实施提示:变化示例(1个简单、1个中等、1个困难)优于3个相似的。多样性改进泛化并防止对特定模式的过度拟合。

提示工程的常见错误

  • 冗长的无结构提示。 漫无边际的指示会使本地模型困惑。简洁而明确。
  • 不使用思维链。 CoT将准确率提高10-20%。推理任务始终包含。
  • 假设一个提示适用于所有情况。 迭代并测试。微小的措辞变化导致大的输出变化。
  • 忽视输出格式。 没有明确的格式指定,输出是不可预测的。
  • 使用模糊的角色定义。 "你是专家"很模糊。"你是具有10年经验的Python专家"更好。

📍: 你知道吗?最有效的提示词迭代3-5个版本。本地模型提示不是"设置后忘记"—小的改进累积为显著的准确性收益。

地区考虑事项

中国(数据安全法2021): 中国大陆的本地LLM部署必须将所有推理、提示和模型调整保持在本地。Qwen和其他国内模型是首选,以确保数据驻留合规性。提示工程应完全在本地进行,无云端API调用。

亚太地区(数据跨境): 在东南亚和APAC地区,受数据边界框架约束,本地LLM是最优的。提示迭代可在本地服务器上进行,无需将数据移出区域。遵守MLAI(多ASEAN/APAC)合规框架。

企业部署(金融、医疗、法律): 金融机构、医疗机构和法律机构必须完全遵守数据处理法规。提示工程在本地进行时自动满足合规性,所有提示迭代和模型输出都记录在内部档案中。

本地LLM提示工程常见问题

为什么本地LLM需要比GPT-5.5更明确的提示?

本地7B-13B模型的参数少于GPT-5.5(估计1.8T参数),训练数据多样性较低。它们无法像GPT-5.5那样推断模糊意图。明确的指示(格式、角色、逐步推理)弥补了这一差距。思维链提示在推理任务上将本地模型准确率提高10-20%。

我应该在本地LLM的提示中包含多少个少样本示例?

本地7B模型的最优值为3-5个示例。GPT-5.5通常只需1-2个示例。更多示例改进一致性但消耗上下文窗口token(根据模型4K-32K token)。对于具有4K上下文窗口的Llama 3.2 8B,限制为3个示例加任务。对于具有32K+上下文的模型,5个示例是安全的。

思维链提示词是否适用于所有本地模型?

思维链适用于任何指令调优模型(Llama 3.x、Qwen 3、Mistral Small)。基础模型(非指令调优)不能可靠地遵循"逐步思考"指示。对于本地模型,"逐步解决:"或"推理:"这样的CoT短语在预期输出的开始效果最佳。

本地LLM最可靠的输出格式是什么?

JSON是本地LLM最可靠的结构化输出格式。在提示中指定确切的JSON模式。Markdown标题(##)对部分来说是可靠的。避免请求XML或自定义格式—本地模型处理这些的一致性很低。

如何防止本地LLM偏离主题?

向系统或指令提示添加明确约束:"仅回答关于[主题]的问题。如果被问及其他内容,说:我只能帮助[主题]。"对于Ollama,使用系统提示字段。对于llama.cpp,将其作为系统消息预先添加。这种边界设置在本地7B模型上远好于有强大RLHF对齐的云模型。

本地模型中零样本和少样本提示的区别是什么?

零样本不给出示例:"将此电子邮件分类为垃圾邮件或非垃圾邮件。"少样本在任务前给出2-5个标记示例。对于本地7B模型,少样本在分类和提取任务上一致地比零样本好15-25%。零样本对生成任务(摘要、翻译)效果很好,格式不太关键。

我如何测试和迭代本地模型的提示?

在5-10个不同示例上测试。一次改变一个变量(角色、格式或CoT指示)。测量变化前后的准确性或一致性。使用简单测试集:2-3个简单示例、2-3个困难示例。跟踪哪个提示版本效果最佳。以3-5个提示变化周期迭代。在提示库中记录工作提示。

我应该为特定任务进行提示工程或微调?

首先进行提示工程(快速、免费、迭代)。如果在20+个提示变化后准确性达到平台期,则进行微调。微调需要500+特定任务示例和1-4小时训练时间。对于通用任务,提示工程通常足够。对于特定领域任务(医疗、法律、编码),微调提供持久改进。

本地LLM中系统提示词与用户指示有何不同?

系统提示词在用户消息前定义模型的角色和约束,是请求结构的一部分(在Ollama、LM Studio或API中)。用户指示是对话的一部分。系统提示词设置基线行为,比将指示嵌入用户文本更可靠。对于本地模型,精心编写的系统提示词改进一致性15-25%,因为模型优先系统级约束而非用户级文本。

我可以在不同本地模型间使用相同提示吗?

部分可以。基本CoT结构和角色定义在模型(Llama、Qwen、Mistral)间转移。然而,每个模型需要提示调优以获得最佳结果。Llama模型响应"让我逐步思考",而Qwen模型更喜欢"首先,我需要..."。在确切部署的模型上测试你的提示。更大模型(70B)对提示变化比小模型(7B)更宽容。

来源

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM