这份词汇表汇集了提示工程领域的500个核心术语,从基本概念延伸到高级的代理编排和评估框架。每个术语都配备实用清晰的定义,专为开发者和AI实践者撰写,并提供可信的参考资源供深入学习。
全表共分6大类别:基础提示概念、代理与编排、安全与对齐、评估与测试、高级技术、指标与生产。你可以用它作为快速查询工具,也可以点击链接进入PromptQuorum工程中心的专题深度文章。
中国企业实际应用
互联网大厂与AI平台:阿里巴巴通过通义千问和Qwen系列模型深度集成提示工程,在电商推荐、客服、内容生成中广泛应用。腾讯的混元模型则在社交媒体内容审核和用户分析中发挥重要作用。百度文心一言主要应用于搜索增强和知识图谱问答。字节跳动在推荐算法和短视频内容理解中大量应用RAG + 提示工程的组合。这些企业都采用私有化部署 + RAG的架构,确保数据安全和实时更新。
制造业与工业应用:华为在硬件文档生成、技术支持自动化和研发流程优化中深入应用提示工程。通过Chain-of-Thought提示,提升复杂技术问题的求解能力。海康威视等安全企业则利用提示工程加强内容审核和异常检测。
金融与合规场景:国内银行(工商、农业、中国、建设四大行)和头部互联网金融企业(蚂蚁、微众等)因严格的合规要求(如MLPS合规),特别重视提示工程中的安全性、可解释性和对齐。他们通常部署私有化Qwen或通义模型,配合企业级护栏(Guardrails)和人工在线(HITL)评估。
B端与SaaS生态:企业服务公司利用开源模型(DeepSeek、Qwen)快速打造AI助手,成本可控、部署灵活。许多数据分析、BI工具商通过提示工程实现"自然语言查询"功能。
政府与公共事业:政府机构利用安全且可控的本地LLM进行政务流程优化、数据分析和舆情监测。医疗卫生、教育机构则应用提示工程来增强诊断建议和教学内容的准确性。
实用建议:中国开发团队必读
## 提示词设计的核心技巧
- 明确的角色和上下文:在系统提示中清楚地陈述模型的身份、目标和约束。例:你是一个资深财务顾问,专业知识基于中国税法;对非税法范围的问题回答不在我的专业范围内
- 中文特有的复杂性处理:考虑多音字、异义词、方言差异和繁简转换问题。在系统提示中明确使用简体中文、避免歧义表述
- 结构化输出:要求模型以JSON或Markdown格式输出,便于后续的程序处理和集成。例:以JSON格式返回,字段包括summary、risk_level、recommendations
- 链式思维与逐步推理:对于复杂的中文业务场景(如合同审查、税务计算),显式要求模型逐步分析并展示推理过程
- 多模型对比测试:在Qwen(阿里)、通义千问、DeepSeek、混元(腾讯)等国内开源模型间进行对标测试,评估成本、延迟和精度
## 数据属地化与合规部署
- 数据留存要求:严格遵守MLPS、网安法等法规,选择部署方案时确保数据不出国境。优先选择阿里云、腾讯云等国内服务,或本地部署开源模型
- 隐私与脱敏处理:在将数据送入LLM前,对个人信息、商业机密、敏感财务数据进行脱敏或加密。建立数据分类体系(密级从高到低)
- 合规审计与日志:记录所有提示输入和输出,确保可溯源,支持监管部门的审查。特别是在金融、医疗、公共安全领域
- 第三方工具与云服务的风险评估:谨慎使用国外API(OpenAI、Google等),确保合同中明确了数据处理和隐私条款
## RAG与企业知识库的最佳实践
- 中文分词与向量化的精准性:使用领先的中文NLP工具(jieba、HanLP、FastText等)进行分词,然后利用中文优化的向量模型(如Qwen-text-embedding)生成嵌入向量
- 知识库质量控制:定期清理过期、重复、错误的文档。建立知识库维护SOP(标准操作流程),由领域专家定期审查和更新
- 混合检索策略:结合向量相似度检索和关键词BM25检索,提高多种查询方式下的命中率
- 成本友好的向量数据库:国内选择包括开源Milvus、Weaviate和云服务的阿里云Elasticsearch、腾讯云向量搜索,根据数据规模选型
- RAG的实时更新机制:建立增量更新流程,新文档上传后自动进行向量化和索引,确保检索始终基于最新信息
## 模型选择与成本优化
- 本地部署vs.API调用的决策树:(1) 涉及敏感数据→本地部署(Ollama + Qwen 72B); (2) 高吞吐量需求→API调用(通过批处理降低成本); (3) 实时低延迟→混合方案
- 模型选型对标:Qwen系列(通用能力强)vs. DeepSeek(推理成本低)vs. 通义千问(阿里体系整合)。按照延迟、成本、精度三维度评估
- Prompt工具链的建设:使用PromptHub、LangChain等框架管理提示版本,避免重复开发,加速部署迭代
- 成本核算模型:建立详细的令牌计数机制,预估不同场景的成本(输入vs.输出令牌),做好长期预算规划
## 安全防护与运维
- 防止提示注入攻击:对用户输入进行严格的输入验证,限制特殊字符和危险指令。在RAG系统中,验证检索结果是否被污染
- 监测与告警:建立实时监控系统,跟踪错误率、延迟、成本异常。设置告警阈值,及时发现问题
- 人工在线审查(HITL):在高风险场景(金融建议、医疗诊断)中集成人工审查环节,确保输出在发送给用户前通过人工检验
- 版本管理与回滚机制:当新的提示版本导致性能下降时,能快速回滚到上一个稳定版本。建立A/B测试框架评估变更
重要注意事项
幻觉问题(Hallucination):中文模型有时会编造不存在的信息,尤其在处理特定领域问题时。在金融、医疗、法律等高风险领域,必须配置强有力的事实核查机制,优先使用RAG而非纯粹的生成。
提示注入攻击(Prompt Injection):恶意用户可能通过精心构造的输入覆盖你的系统提示。在面向用户的应用中,一定要对输入进行清理和验证,限制用户能传入的字符类型。
上下文窗口的效率问题:中文通常需要比英文更多的令牌数来表达相同的信息。如果处理长文档,选择上下文窗口足够大的模型(如Claude 200K),或者分割文档。
成本与延迟的权衡:调用云端API(OpenAI、Google等)的成本较高。考虑部署开源模型(Qwen、DeepSeek)到本地或私有云上,既能保护数据隐私,也能降低成本。
模型选择与合规:国内企业需要考虑数据的属地化要求。使用国内LLM服务(阿里云、腾讯云)可确保数据留在国内,但需要了解各服务的具体限制和审核政策。
核心提示概念
代理和编排
安全和对齐
评估和测试
高级技术
指标和生产
常见问题
简单来说,提示工程是什么?
提示工程是设计和迭代提示的学科,使语言模型生成有用、可预测和安全的输出。它涉及结构化指令、添加上下文和选择Few-Shot或Chain-of-Thought等技术来改进可靠性和质量。
零样本提示和少样本提示有什么区别?
零样本提示仅使用指令而不使用任何示例要求模型执行任务,最适合模型的先验训练已覆盖模式的常见任务。少样本提示在提示中包含少量输入输出示例,以便模型在处理实际查询之前推断所需的模式、格式或风格。少样本通常对复杂或异寻常的任务产生更高的质量。
AI中RAG意味着什么?
RAG代表检索增强生成。这是一种架构,相关文档从知识库检索并注入到提示中,以便模型基于当前接地数据而不仅仅是训练来回答。这减少了幻觉并确保答案基于真实、当前的信息。
提示工程和微调有什么区别?
提示工程是设计和迭代提示的学科,无需修改模型本身即可导向模型输出。另一方面,微调通过在任务特定数据上训练来修改模型的权重。提示工程更快、更便宜、更易于迭代,但微调可以在专科任务上实现更好的结果,但需要更多的数据和计算资源。
AI中的上下文窗口是什么?
上下文窗口是模型一次可以处理的最大令牌数,包括系统提示、对话历史和检索文档。超过上下文限制会截断或忽略较早或中间部分。理解上下文窗口大小对管理成本和延迟至关重要,因为更长的上下文更昂贵且处理速度更慢。
中国企业应该如何选择合适的LLM模型?
这取决于你的数据属地化要求和成本预算。如果需要数据留在国内且要求严格合规,选择阿里的通义千问(Qwen)、腾讯的混元或百度的文心一言。如果对成本敏感且不需要超强泛化能力,开源的Qwen系列或DeepSeek是不错的选择——可以部署在私有GPU集群。如果需要最强的泛化性能且不关心数据属地化,GPT-4o或Claude在海外云上也可用。关键是在合规、成本和性能间找到平衡点。
如何在企业内部安全地部署提示工程应用?
安全部署的三个层面:(1) 数据层——使用RAG时,严格控制输入数据源,确保没有个人信息或商业机密被注入到提示中;(2) 模型层——在系统提示中明确边界和约束,使用护栏(Guardrails)过滤敏感回答;(3) 审计层——记录每次提示和输出,定期审查高风险操作(如财务建议、法律咨询),建立反馈闭环以持续改进。在金融、医疗等高监管行业,还需与法务和合规团队协作,确保应用符合行业规范。
提示工程与微调相比,对中国企业有什么优势?
提示工程的优势很明显:(1) 速度快——无需收集训练数据和等待模型训练,几天就能上线;(2) 成本低——不需要GPU集群和算力预算,直接用现成模型;(3) 灵活性强——业务需求变化时,调整提示词即可,无需重新训练;(4) 合规相对简单——你不改动模型本身,审核负担轻。微调适合需要特定领域深度优化的场景(如医学诊断、法律咨询),但投入大。多数企业应该先用提示工程达到80%效果,确认ROI后再考虑微调。
数据属地化(Data Localization)对选择LLM部署方案有什么影响?
数据属地化是中国企业选择LLM方案的关键因素。(1) 严格的属地化要求(如金融、能源、电信)→部署本地开源模型(Qwen、DeepSeek)到公司私有云或本地服务器;(2) 中等合规要求(如普通互联网企业)→使用国内云服务(阿里云、腾讯云)的LLM API,数据默认留在国内;(3) 无严格限制(如技术研发)→可使用海外服务(OpenAI、Google),但要签署明确的数据处理协议。MLPS、网安法等法规要求敏感数据不出国境。建议企业进行法务评估,明确自己的合规等级。
本地LLM部署(Ollama、Qwen等)的性价比如何?
本地部署性价比很高,适合大规模、持续性应用:(1) 初期投入——购买GPU集群(如NVIDIA A100),单个GPU成本$10k-$50k;(2) 长期运营——API调用完全免费,电费是主要成本(约$0.02-0.1/小时/GPU);(3) 对标云API——百万级推理调用,本地部署可节省70-90%的成本;(4) 数据安全——所有数据保留在企业内部,无云服务商访问;(5) 模型灵活性——可微调模型,添加行业特定知识。缺点是需要深度学习基础设施团队维护。建议流量大且有IT能力的企业优先考虑本地部署。
MLPS、CAC等中国合规框架对提示工程应用有什么具体要求?
MLPS(机器学习平台安全)、CAC(内容审核与合规)等框架对提示工程应用施加了明确约束:(1) MLPS合规——要求企业对输入数据、模型行为、输出内容进行全流程审计和记录(日志保存≥90天);(2) 内容审核——系统生成的内容必须经过自动或人工审查,确保不违反《网络安全法》《广告法》等;(3) 用户隐私——严禁将用户的个人信息(姓名、手机、账号)用于模型训练或数据统计;(4) 信息安全——涉及国家机密、经济命脉等的数据必须加密存储和传输。建议企业咨询法务和安全团队,制定详细的合规清单,并在部署前进行安全审查。
如何有效控制大语言模型输出中的幻觉(Hallucination)问题?
幻觉是LLM的重大风险,尤其在金融、医疗、法律等高风险领域。控制幻觉的5个层级:(1) 提示工程——明确告诉模型"如果不确定,就回答'我不知道'",加入例子引导;(2) RAG增强——使用可靠的知识库而不是让模型凭记忆回答,被认为是最有效的方法;(3) 输出验证——自动检查生成的事实(如人物身份、日期、数字)是否与源数据一致;(4) 人工审查——高风险场景集成人工审查,特别是涉及财务建议、医疗诊断的情况;(5) 模型选择——一些模型(如Claude、Qwen)的幻觉率相对较低,可通过benchmark对标选择。多层防护是应对幻觉的最佳策略。
LoRA微调和全量微调哪个更适合中国企业?
中国企业通常选择LoRA(低秩适应),原因如下:(1) 成本优势——LoRA只训练少量适配器参数,成本仅为全量微调的5-10%;(2) GPU需求低——Qwen 72B的全量微调需~40GB VRAM,LoRA只需~8-12GB,消费级GPU即可;(3) 速度快——训练周期从数周缩短到数天,快速迭代;(4) 保留基础能力——原模型能力保留,只添加特定领域知识,不容易"遗忘"通用技能;(5) 多任务支持——可为不同业务线训练不同的LoRA适配器,灵活组合使用。全量微调仅在需要彻底改变模型行为时考虑(很少情况)。建议大多数企业从LoRA开始,通过PromptQuorum或LangChain框架管理多个LoRA模块。
如何建立企业级的提示词版本管理和治理体系?
提示词版本管理是规模化应用的关键。建议构建4层体系:(1) 存储层——使用Git、GitLab或PromptHub等工具管理提示版本,记录作者、修改时间、变更原因;(2) 评估层——定义质量指标(准确率、延迟、成本),每个新版本必须通过基准测试和A/B对照;(3) 发布层——制定发布流程(开发→测试→灰度→全量),关键提示需经过法务和安全团队审查;(4) 监控层——部署后持续监控性能指标,异常时能快速回滚。还应建立SOP(标准操作流程),规范所有提示的命名、结构和文档要求,确保团队协作的一致性和可维护性。
在没有强技术基础的企业中,如何快速启动提示工程应用?
对于技术基础薄弱的企业,推荐"低代码"启动路径:(1) 第一步:选用托管平台——使用PromptQuorum、通义千问控制台等低代码平台,无需写代码即可构建应用;(2) 第二步:使用模板和Best Practices——利用平台内置的行业模板和提示库,快速部署常见场景(客服、文档总结);(3) 第三步:收集反馈和优化——让小范围用户使用,收集反馈迭代提示;(4) 第四步:逐步升级——在有了一定经验和数据后,考虑集成RAG、微调等高级特性。整个过程可由非技术人员(产品、运营)驱动,技术团队做支撑。这样既能快速获得收益,又能为后续深度应用积累经验。