PromptQuorumPromptQuorum
主页/提示词工程/提示工程词汇表:500个必备术语
Fundamentals

提示工程词汇表:500个必备术语

·12分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

为中国开发者精心编选的完整提示工程词汇表。涵盖从令牌(Token)和上下文窗口(Context Window)的基础概念,到多代理编排(Multi-Agent Orchestration)、检索增强生成(RAG)和评估指标等实战应用——500个术语,一本全书。

Top 20 Most Important AI & Prompt Engineering Terms (2026)

Master the essential terminology of artificial intelligence and prompt engineering. These 20 core concepts form the foundation of working with LLMs, from fundamental architectures to advanced optimization techniques. Whether you're building AI agents, implementing RAG systems, or optimizing prompt performance, understanding these terms will accelerate your expertise across all areas of AI development and deployment.

Commonly Confused AI Terms

Quick reference for 10 term pairs that are frequently misunderstood or used interchangeably.

CategoryTerm ATerm BKey Difference
Prompting TechniqueZero-shotFew-shotZero-shot: ask without examples (faster, cheaper). Few-shot: provide 2–5 examples (more accurate for specific formats or domains).
ReasoningChain-of-ThoughtTree-of-ThoughtCoT: single linear reasoning path. ToT: explores multiple branches, evaluates paths. ToT costs 2–3× more tokens but handles harder problems.
Knowledge ArchitectureRAGFine-tuningRAG: retrieves current data at inference time — no retraining. Fine-tuning: adjusts model weights permanently — expensive, requires labeled data.
SecurityPrompt injectionJailbreakInjection: structural attack — user input overrides system instructions. Jailbreak: behavioral attack — crafted phrasing bypasses safety guardrails.
Sampling ParametersTemperatureTop-pTemperature: scales all token probabilities (0 = deterministic, 1+ = creative). Top-p: samples only from the smallest set of tokens covering probability p. Use one at a time.
MemoryShort-term memoryLong-term memoryShort-term: active conversation context (tokens in window). Long-term: persistent store across sessions (vector DB or key-value). Agents need both.
AlignmentGuardrailRLHFGuardrail: runtime policy enforcement (filter, validate, block) — no retraining. RLHF: training-time alignment via human feedback — rewires model behavior permanently.
Agent BehaviorTool callingAgenticTool calling: single function invocation per turn. Agentic: autonomous loop — decide → call tool → observe → decide — until goal is achieved.
Output QualityHallucinationConfabulationSynonymous in practice. Both describe confident, plausible-sounding but false model output. "Hallucination" is more common in US/tech; "confabulation" in academic/EU contexts.
Prompt ArchitectureSystem promptUser promptSystem: persistent instructions (role, rules, format) — set once per conversation. User: specific task per turn. System controls behavior; user specifies request.

Level

Domain

Learning Paths

Curated term sequences — follow a path to build expertise in one area.

Prompt Engineering Foundations

Beginner

Learn the core vocabulary every AI practitioner needs — from what a prompt is to why models hallucinate.

Customer service chatbotsContent drafting assistantsInternal Q&A toolsDeveloper code review
  1. 1Prompt
  2. 2LLM (Large Language Model)
  3. 3Token
  4. 4Context window
  5. 5System prompt
  6. 6Zero-Shot Prompting
  7. 7Few-Shot Prompting
  8. 8Chain-of-Thought (CoT)
  9. 9Temperature
  10. 10Instruction following
  11. 11Hallucination
  12. 12Output formatting prompt

RAG Mastery

Intermediate

Build retrieval-augmented generation pipelines from chunking strategy to production-grade re-ranking.

Enterprise knowledge basesCustomer support botsLegal document Q&AMedical reference lookup
  1. 1RAG (Retrieval-Augmented Generation)
  2. 2Embedding model
  3. 3Vector database
  4. 4Document chunking
  5. 5Semantic search
  6. 6Hybrid retrieval
  7. 7Reranking model
  8. 8Grounding
  9. 9Context window
  10. 10Prompt Injection

Agent Orchestration

Advanced

Design autonomous agents that plan, use tools, manage memory, and coordinate across multi-agent systems.

Autonomous research agentsCode generation pipelinesMulti-step data analysisAI-powered workflows
  1. 1Agent
  2. 2ReAct Prompting
  3. 3Function calling
  4. 4Memory (Long-Term)
  5. 5Memory (Short-Term)
  6. 6Prompt Chaining
  7. 7LangChain
  8. 8LangGraph
  9. 9Multi-Agent System
  10. 10Long-horizon planning
  11. 11Agent Orchestration
  12. 12Reflection agent

Reasoning Mastery

Intermediate

Master the prompting techniques that unlock reliable multi-step logical and mathematical reasoning.

Math tutoring systemsLegal reasoning toolsComplex debugging assistantsScientific analysis
  1. 1Chain-of-Thought (CoT)
  2. 2Zero-Shot CoT
  3. 3Few-Shot Prompting
  4. 4Automatic CoT (Auto-CoT)
  5. 5Self-Consistency
  6. 6Tree-of-Thought (ToT)
  7. 7Step-back prompting
  8. 8Automatic Prompt Engineer (APE)

Fine-tuning & Alignment

Advanced

Understand when prompts are not enough — and how fine-tuning, RLHF, and alignment techniques change model behavior.

Domain-specific chatbotsBrand voice enforcementMedical/legal specializationSafety-critical systems
  1. 1Fine-Tuning
  2. 2Instruction-tuned model
  3. 3RLHF
  4. 4LoRA
  5. 5Constitutional AI
  6. 6Alignment
  7. 7Hallucination
  8. 8Evals (evaluation suite)

Evaluation & Production

Intermediate

Ship AI features confidently — build eval frameworks, measure quality metrics, and run prompt A/B tests.

CI/CD prompt regression testingQuality monitoring dashboardsA/B prompt experimentsModel selection frameworks
  1. 1Evals (evaluation suite)
  2. 2Benchmark harness
  3. 3LLM-as-a-Judge
  4. 4ROUGE
  5. 5BLEU
  6. 6BERTScore
  7. 7A/B Prompt Test
  8. 8Prompt Versioning

Safety & Security

Intermediate

Build AI systems that resist attacks, avoid harmful outputs, and pass safety audits — from prompt injection to red-teaming.

High-stakes deployment reviewsRed-teaming AI productsCompliance verificationEnterprise AI security
  1. 1Prompt Injection
  2. 2Jailbreak
  3. 3Constitutional AI
  4. 4Safety evaluation framework
  5. 5Bias
  6. 6Red-Teaming
  7. 7Alignment
  8. 8Hallucination

关键要点

  • 500个术语分为6大类:基础概念、代理与编排、安全与对齐、评估与测试、高级技术、指标与生产
  • 每个术语都有清晰实用的定义,配以1–3个权威来源,确保内容可信度(E-E-A-T)
  • 覆盖从基础技法(链式思维、RAG、少样本)到2026年前沿(多代理、GraphRAG、分布式编排)
  • 15个核心术语直接链接到PromptQuorum工程中心的深度文章,便于进阶学习
  • 使用FAQPage + DefinedTermSet结构化标记,让Google、Claude、Perplexity等AI搜索引擎能精准引用

这份词汇表汇集了提示工程领域的500个核心术语,从基本概念延伸到高级的代理编排和评估框架。每个术语都配备实用清晰的定义,专为开发者和AI实践者撰写,并提供可信的参考资源供深入学习。

全表共分6大类别:基础提示概念、代理与编排、安全与对齐、评估与测试、高级技术、指标与生产。你可以用它作为快速查询工具,也可以点击链接进入PromptQuorum工程中心的专题深度文章。

中国企业实际应用

互联网大厂与AI平台:阿里巴巴通过通义千问和Qwen系列模型深度集成提示工程,在电商推荐、客服、内容生成中广泛应用。腾讯的混元模型则在社交媒体内容审核和用户分析中发挥重要作用。百度文心一言主要应用于搜索增强和知识图谱问答。字节跳动在推荐算法和短视频内容理解中大量应用RAG + 提示工程的组合。这些企业都采用私有化部署 + RAG的架构,确保数据安全和实时更新。

制造业与工业应用:华为在硬件文档生成、技术支持自动化和研发流程优化中深入应用提示工程。通过Chain-of-Thought提示,提升复杂技术问题的求解能力。海康威视等安全企业则利用提示工程加强内容审核和异常检测。

金融与合规场景:国内银行(工商、农业、中国、建设四大行)和头部互联网金融企业(蚂蚁、微众等)因严格的合规要求(如MLPS合规),特别重视提示工程中的安全性、可解释性和对齐。他们通常部署私有化Qwen或通义模型,配合企业级护栏(Guardrails)和人工在线(HITL)评估。

B端与SaaS生态:企业服务公司利用开源模型(DeepSeek、Qwen)快速打造AI助手,成本可控、部署灵活。许多数据分析、BI工具商通过提示工程实现"自然语言查询"功能。

政府与公共事业:政府机构利用安全且可控的本地LLM进行政务流程优化、数据分析和舆情监测。医疗卫生、教育机构则应用提示工程来增强诊断建议和教学内容的准确性。

实用建议:中国开发团队必读

## 提示词设计的核心技巧

- 明确的角色和上下文:在系统提示中清楚地陈述模型的身份、目标和约束。例:你是一个资深财务顾问,专业知识基于中国税法;对非税法范围的问题回答不在我的专业范围内

- 中文特有的复杂性处理:考虑多音字、异义词、方言差异和繁简转换问题。在系统提示中明确使用简体中文、避免歧义表述

- 结构化输出:要求模型以JSON或Markdown格式输出,便于后续的程序处理和集成。例:以JSON格式返回,字段包括summary、risk_level、recommendations

- 链式思维与逐步推理:对于复杂的中文业务场景(如合同审查、税务计算),显式要求模型逐步分析并展示推理过程

- 多模型对比测试:在Qwen(阿里)、通义千问、DeepSeek、混元(腾讯)等国内开源模型间进行对标测试,评估成本、延迟和精度

## 数据属地化与合规部署

- 数据留存要求:严格遵守MLPS、网安法等法规,选择部署方案时确保数据不出国境。优先选择阿里云、腾讯云等国内服务,或本地部署开源模型

- 隐私与脱敏处理:在将数据送入LLM前,对个人信息、商业机密、敏感财务数据进行脱敏或加密。建立数据分类体系(密级从高到低)

- 合规审计与日志:记录所有提示输入和输出,确保可溯源,支持监管部门的审查。特别是在金融、医疗、公共安全领域

- 第三方工具与云服务的风险评估:谨慎使用国外API(OpenAI、Google等),确保合同中明确了数据处理和隐私条款

## RAG与企业知识库的最佳实践

- 中文分词与向量化的精准性:使用领先的中文NLP工具(jieba、HanLP、FastText等)进行分词,然后利用中文优化的向量模型(如Qwen-text-embedding)生成嵌入向量

- 知识库质量控制:定期清理过期、重复、错误的文档。建立知识库维护SOP(标准操作流程),由领域专家定期审查和更新

- 混合检索策略:结合向量相似度检索和关键词BM25检索,提高多种查询方式下的命中率

- 成本友好的向量数据库:国内选择包括开源Milvus、Weaviate和云服务的阿里云Elasticsearch、腾讯云向量搜索,根据数据规模选型

- RAG的实时更新机制:建立增量更新流程,新文档上传后自动进行向量化和索引,确保检索始终基于最新信息

## 模型选择与成本优化

- 本地部署vs.API调用的决策树:(1) 涉及敏感数据→本地部署(Ollama + Qwen 72B); (2) 高吞吐量需求→API调用(通过批处理降低成本); (3) 实时低延迟→混合方案

- 模型选型对标:Qwen系列(通用能力强)vs. DeepSeek(推理成本低)vs. 通义千问(阿里体系整合)。按照延迟、成本、精度三维度评估

- Prompt工具链的建设:使用PromptHub、LangChain等框架管理提示版本,避免重复开发,加速部署迭代

- 成本核算模型:建立详细的令牌计数机制,预估不同场景的成本(输入vs.输出令牌),做好长期预算规划

## 安全防护与运维

- 防止提示注入攻击:对用户输入进行严格的输入验证,限制特殊字符和危险指令。在RAG系统中,验证检索结果是否被污染

- 监测与告警:建立实时监控系统,跟踪错误率、延迟、成本异常。设置告警阈值,及时发现问题

- 人工在线审查(HITL):在高风险场景(金融建议、医疗诊断)中集成人工审查环节,确保输出在发送给用户前通过人工检验

- 版本管理与回滚机制:当新的提示版本导致性能下降时,能快速回滚到上一个稳定版本。建立A/B测试框架评估变更

重要注意事项

幻觉问题(Hallucination):中文模型有时会编造不存在的信息,尤其在处理特定领域问题时。在金融、医疗、法律等高风险领域,必须配置强有力的事实核查机制,优先使用RAG而非纯粹的生成。

提示注入攻击(Prompt Injection):恶意用户可能通过精心构造的输入覆盖你的系统提示。在面向用户的应用中,一定要对输入进行清理和验证,限制用户能传入的字符类型。

上下文窗口的效率问题:中文通常需要比英文更多的令牌数来表达相同的信息。如果处理长文档,选择上下文窗口足够大的模型(如Claude 200K),或者分割文档。

成本与延迟的权衡:调用云端API(OpenAI、Google等)的成本较高。考虑部署开源模型(Qwen、DeepSeek)到本地或私有云上,既能保护数据隐私,也能降低成本。

模型选择与合规:国内企业需要考虑数据的属地化要求。使用国内LLM服务(阿里云、腾讯云)可确保数据留在国内,但需要了解各服务的具体限制和审核政策。

核心提示概念

代理和编排

安全和对齐

评估和测试

高级技术

指标和生产

常见问题

简单来说,提示工程是什么?

提示工程是设计和迭代提示的学科,使语言模型生成有用、可预测和安全的输出。它涉及结构化指令、添加上下文和选择Few-Shot或Chain-of-Thought等技术来改进可靠性和质量。

零样本提示和少样本提示有什么区别?

零样本提示仅使用指令而不使用任何示例要求模型执行任务,最适合模型的先验训练已覆盖模式的常见任务。少样本提示在提示中包含少量输入输出示例,以便模型在处理实际查询之前推断所需的模式、格式或风格。少样本通常对复杂或异寻常的任务产生更高的质量。

AI中RAG意味着什么?

RAG代表检索增强生成。这是一种架构,相关文档从知识库检索并注入到提示中,以便模型基于当前接地数据而不仅仅是训练来回答。这减少了幻觉并确保答案基于真实、当前的信息。

提示工程和微调有什么区别?

提示工程是设计和迭代提示的学科,无需修改模型本身即可导向模型输出。另一方面,微调通过在任务特定数据上训练来修改模型的权重。提示工程更快、更便宜、更易于迭代,但微调可以在专科任务上实现更好的结果,但需要更多的数据和计算资源。

AI中的上下文窗口是什么?

上下文窗口是模型一次可以处理的最大令牌数,包括系统提示、对话历史和检索文档。超过上下文限制会截断或忽略较早或中间部分。理解上下文窗口大小对管理成本和延迟至关重要,因为更长的上下文更昂贵且处理速度更慢。

中国企业应该如何选择合适的LLM模型?

这取决于你的数据属地化要求和成本预算。如果需要数据留在国内且要求严格合规,选择阿里的通义千问(Qwen)、腾讯的混元或百度的文心一言。如果对成本敏感且不需要超强泛化能力,开源的Qwen系列或DeepSeek是不错的选择——可以部署在私有GPU集群。如果需要最强的泛化性能且不关心数据属地化,GPT-4o或Claude在海外云上也可用。关键是在合规、成本和性能间找到平衡点。

如何在企业内部安全地部署提示工程应用?

安全部署的三个层面:(1) 数据层——使用RAG时,严格控制输入数据源,确保没有个人信息或商业机密被注入到提示中;(2) 模型层——在系统提示中明确边界和约束,使用护栏(Guardrails)过滤敏感回答;(3) 审计层——记录每次提示和输出,定期审查高风险操作(如财务建议、法律咨询),建立反馈闭环以持续改进。在金融、医疗等高监管行业,还需与法务和合规团队协作,确保应用符合行业规范。

提示工程与微调相比,对中国企业有什么优势?

提示工程的优势很明显:(1) 速度快——无需收集训练数据和等待模型训练,几天就能上线;(2) 成本低——不需要GPU集群和算力预算,直接用现成模型;(3) 灵活性强——业务需求变化时,调整提示词即可,无需重新训练;(4) 合规相对简单——你不改动模型本身,审核负担轻。微调适合需要特定领域深度优化的场景(如医学诊断、法律咨询),但投入大。多数企业应该先用提示工程达到80%效果,确认ROI后再考虑微调。

数据属地化(Data Localization)对选择LLM部署方案有什么影响?

数据属地化是中国企业选择LLM方案的关键因素。(1) 严格的属地化要求(如金融、能源、电信)→部署本地开源模型(Qwen、DeepSeek)到公司私有云或本地服务器;(2) 中等合规要求(如普通互联网企业)→使用国内云服务(阿里云、腾讯云)的LLM API,数据默认留在国内;(3) 无严格限制(如技术研发)→可使用海外服务(OpenAI、Google),但要签署明确的数据处理协议。MLPS、网安法等法规要求敏感数据不出国境。建议企业进行法务评估,明确自己的合规等级。

本地LLM部署(Ollama、Qwen等)的性价比如何?

本地部署性价比很高,适合大规模、持续性应用:(1) 初期投入——购买GPU集群(如NVIDIA A100),单个GPU成本$10k-$50k;(2) 长期运营——API调用完全免费,电费是主要成本(约$0.02-0.1/小时/GPU);(3) 对标云API——百万级推理调用,本地部署可节省70-90%的成本;(4) 数据安全——所有数据保留在企业内部,无云服务商访问;(5) 模型灵活性——可微调模型,添加行业特定知识。缺点是需要深度学习基础设施团队维护。建议流量大且有IT能力的企业优先考虑本地部署。

MLPS、CAC等中国合规框架对提示工程应用有什么具体要求?

MLPS(机器学习平台安全)、CAC(内容审核与合规)等框架对提示工程应用施加了明确约束:(1) MLPS合规——要求企业对输入数据、模型行为、输出内容进行全流程审计和记录(日志保存≥90天);(2) 内容审核——系统生成的内容必须经过自动或人工审查,确保不违反《网络安全法》《广告法》等;(3) 用户隐私——严禁将用户的个人信息(姓名、手机、账号)用于模型训练或数据统计;(4) 信息安全——涉及国家机密、经济命脉等的数据必须加密存储和传输。建议企业咨询法务和安全团队,制定详细的合规清单,并在部署前进行安全审查。

如何有效控制大语言模型输出中的幻觉(Hallucination)问题?

幻觉是LLM的重大风险,尤其在金融、医疗、法律等高风险领域。控制幻觉的5个层级:(1) 提示工程——明确告诉模型"如果不确定,就回答'我不知道'",加入例子引导;(2) RAG增强——使用可靠的知识库而不是让模型凭记忆回答,被认为是最有效的方法;(3) 输出验证——自动检查生成的事实(如人物身份、日期、数字)是否与源数据一致;(4) 人工审查——高风险场景集成人工审查,特别是涉及财务建议、医疗诊断的情况;(5) 模型选择——一些模型(如Claude、Qwen)的幻觉率相对较低,可通过benchmark对标选择。多层防护是应对幻觉的最佳策略。

LoRA微调和全量微调哪个更适合中国企业?

中国企业通常选择LoRA(低秩适应),原因如下:(1) 成本优势——LoRA只训练少量适配器参数,成本仅为全量微调的5-10%;(2) GPU需求低——Qwen 72B的全量微调需~40GB VRAM,LoRA只需~8-12GB,消费级GPU即可;(3) 速度快——训练周期从数周缩短到数天,快速迭代;(4) 保留基础能力——原模型能力保留,只添加特定领域知识,不容易"遗忘"通用技能;(5) 多任务支持——可为不同业务线训练不同的LoRA适配器,灵活组合使用。全量微调仅在需要彻底改变模型行为时考虑(很少情况)。建议大多数企业从LoRA开始,通过PromptQuorum或LangChain框架管理多个LoRA模块。

如何建立企业级的提示词版本管理和治理体系?

提示词版本管理是规模化应用的关键。建议构建4层体系:(1) 存储层——使用Git、GitLab或PromptHub等工具管理提示版本,记录作者、修改时间、变更原因;(2) 评估层——定义质量指标(准确率、延迟、成本),每个新版本必须通过基准测试和A/B对照;(3) 发布层——制定发布流程(开发→测试→灰度→全量),关键提示需经过法务和安全团队审查;(4) 监控层——部署后持续监控性能指标,异常时能快速回滚。还应建立SOP(标准操作流程),规范所有提示的命名、结构和文档要求,确保团队协作的一致性和可维护性。

在没有强技术基础的企业中,如何快速启动提示工程应用?

对于技术基础薄弱的企业,推荐"低代码"启动路径:(1) 第一步:选用托管平台——使用PromptQuorum、通义千问控制台等低代码平台,无需写代码即可构建应用;(2) 第二步:使用模板和Best Practices——利用平台内置的行业模板和提示库,快速部署常见场景(客服、文档总结);(3) 第三步:收集反馈和优化——让小范围用户使用,收集反馈迭代提示;(4) 第四步:逐步升级——在有了一定经验和数据后,考虑集成RAG、微调等高级特性。整个过程可由非技术人员(产品、运营)驱动,技术团队做支撑。这样既能快速获得收益,又能为后续深度应用积累经验。

使用PromptQuorum将这些技术同时应用于25+个AI模型。

免费试用PromptQuorum →

← 返回提示词工程

提示工程词汇表:500+ 术语完整解释 | PromptQuorum