提示词工程：质量如何影响LLM的答案准确性 – 无触亦达

一、绪论

（一）研究背景

自2022年底ChatGPT发布以来，大语言模型（Large Language Model, LLM）以惊人的速度进入公众视野，并在短短几年内深刻改变了信息获取与知识处理的方式。以ChatGPT、Kimi、DeepSeek、文心一言、通义千问、豆包等为代表的LLM，凭借其强大的自然语言理解与生成能力，正在成为越来越多高校学生日常学习与生活中的高频使用工具。

尽管LLM展现出强大的能力，但这种能力并非无条件释放。用户与LLM之间的唯一交互通道是——提示词（Prompt）。提示词是用户输入的自然语言指令，它告诉模型“我需要什么”以及“请以什么样的方式提供”。

LLM本质上是基于海量文本训练的“下一个词预测器”。给定一段提示词，模型会计算所有可能的后续词的概率分布，并从中采样生成回答。模糊的提示词对应一个宽泛且分散的概率分布，模型的输出充满不确定性；而清晰、具体、结构化的提示词将概率分布收窄到高质量区域，输出更可能符合用户预期。

因此，提示词工程（Prompt Engineering）——即设计、优化和评估提示词的系统性方法——成为LLM应用中的关键技能。同样的LLM（如GPT-4），在精心设计的提示词下可以完成复杂的逻辑推理任务，而在粗糙的提示词下甚至连简单的事实查询都可能出错。

然而，一个矛盾的现象正在高校中普遍存在：学生虽然是LLM的高频使用者，却极少接受过关于“如何写好提示词”的系统训练。这种“技术使用与技能缺失”的差距，具体表现为以下几个典型问题：

1.过于笼统：例如，用户提问“帮我写个论文”，结果模型输出空泛、模板化的内容，难以直接使用。

2.缺少角色定位：例如，用户提问“解释一下区块链”，结果输出可能在“写给儿童”和“写给博士生”之间随机漂移，缺乏针对性。

3.缺少输出格式约束：例如，用户提问“列出中国历史朝代”，结果模型可能返回一段段落式文本，而非清晰的列表，不便于阅读。

4.缺少示例引导：例如，用户提问“用正式语气写一封XX申请信”，但未提供任何参考，结果模型对“正式”的理解可能与用户期望不一致，不符合用户预期。

5.一次问太多：例如，用户在一个提示词中包含三个不相关的问题，结果模型可能只回答部分问题，或每个问题都答得浅尝辄止。

6.不追问、不迭代：例如，对不满意的输出直接放弃，而不是调整提示词重新提问，结果错失了通过对话式交互获得高质量答案的机会。

因此，系统探究提示词质量如何影响LLM答案准确性，并针对高校学生的典型使用场景提出可操作的优化策略，既具有理论价值，也具有现实意义。

（二）研究问题

基于上述研究背景，本研究聚焦于“提示词质量”与“LLM答案准确性”之间的关系，并特别关注高校学生在典型使用场景中的实际表现。具体而言，本研究试图回答以下三个核心问题：

1.提示词质量对LLM答案准确性的影响程度如何？

当提示词从“低质量”（模糊、笼统、无结构）提升至“中质量”（有基本约束）再提升至“高质量”（角色定位、步骤拆解、格式约束、示例引导），LLM输出的答案准确性是否呈现显著的系统性提升？提升的幅度和稳定性如何？

2.提示词质量的影响是否因任务类型不同而存在差异？

在“解题任务”（如数学计算、编程调试、逻辑推理，有明确标准答案）与“资料查找任务”（如概念解释、事实确认、文献推荐，答案开放但可验证事实）两类场景中，提示词质量对答案准确性的影响强度是否存在显著差异？哪一类任务对提示词质量更敏感？

3.提示词中的哪些具体特征对答案准确性的贡献最大？

在高质量提示词的构成要素中——包括角色设定（如“你是一名大学物理助教”）、步骤拆解（如“请分三步解答”）、格式约束（如“每点不超过50字”）、示例引导（如“参考以下格式：……”）等——哪些特征对提升答案准确性的独立贡献最为显著？不同任务类型下，关键特征是否存在差异？

通过回答上述三个问题，本研究旨在揭示提示词质量影响LLM输出准确性的内在机制，并为高校学生的日常使用提供可操作的优化策略。

（二）研究意义

本研究的理论意义在于通过定量实验揭示提示词质量对LLM答案准确性的具体影响程度，深化LLM时代人机交互中“输入质量—输出质量”关系的理论认识，并比较解题与资料查找两类任务对提示词质量的敏感度差异。实践意义在于为高校学生提炼具体、易操作的提示词优化策略，同时增强使用者对提问方式影响答案质量的意识，降低LLM幻觉带来的误导风险。

二、概念界定与理论基础

（一）核心概念

提示词是指用户为引导大语言模型生成特定输出而提供的输入文本或指令，是人与LLM之间唯一的交互通道。根据功能定位，提示词可分为系统提示词与用户提示词，前者持久影响模型行为逻辑，后者对应单次具体请求。

提示词质量衡量的是提示词在引导模型生成准确、相关输出方面的有效程度。其核心维度包括清晰度（指令无歧义）、具体性（提供足够上下文）、结构化程度（任务分解与逻辑组织）与约束条件（输出格式与范围限定）。高质量提示词能够将模型的概率输出收窄到符合用户预期的区域，而低质量提示词则导致输出分布发散、不确定性增加。

答案准确性是指LLM生成的回答与真实答案或预期答案之间的一致程度。在解题任务中，准确性表现为最终答案与标准答案的匹配程度及推理过程的逻辑正确性；在资料查找任务中，则体现为回答中的事实信息与可验证来源之间的一致性，强调事实正确性而非表面的词汇重叠。

（二）理论基础

提示词工程是设计、优化和评估提示词以从LLM中获得期望输出的系统性方法。Wei等（2022）提出的思维链提示证明，通过在提示词中加入“让我们一步一步思考”等引导语句，可以促使模型显式构建推理过程，显著提升其在逻辑与算术任务上的准确性。提示词工程的核心原则包括：清晰明确，即指令应无歧义地传达任务目标；具体详细，即提供足够的上下文与细节；任务分解，即将复杂任务拆解为可逐步执行的子任务；格式约束，即明确输出结果的呈现方式；示例引导，即通过提供输入-输出示例帮助模型理解任务格式与风格要求。

从技术机制上看，大语言模型本质上是基于海量文本训练的“下一个词预测器”。给定一段提示词，模型计算所有可能后续词的概率分布，并通过采样机制生成回答。2022年提出的思维链方法进一步证明，结构化提示词能够将概率分布的权重集中于高质量回答区域，而模糊提示词则导致分布发散，增加不确定性。清晰、具体的提示词相当于为模型提供了更强的“条件约束”，使其在生成每一步时都有更明确的上下文依赖，从而降低随机性、提升准确性。此外，人机交互理论中的“输入质量决定输出质量”这一基本命题在LLM时代依然成立。尽管LLM具备一定的输入容错性，能够利用预训练知识进行部分信息补全，但实证研究表明，高质量输入所带来的输出质量增益远高于模糊输入，尤其在需要精确推理或事实核查的任务场景中，提示词质量差异直接决定了LLM能否发挥其应有的能力。

（三）文献综述

在提示词工程研究方面，早期研究聚焦于GPT-2、GPT-3等模型，提出了零样本提示、少样本提示等基础方法。Do Xuan Long等（2025）对2022年至2025年间发表的150余篇提示词相关论文进行了系统综述，发现现有研究在不同模型和任务类型上的支持存在不均衡，对于自然语言提示质量属性的量化评估仍缺乏概念共识。研究者已发展出自动提示优化等进阶技术，但针对普通用户日常使用场景的系统评估仍然有限。

在LLM教育应用研究方面，已有研究表明LLM在课业答疑、写作辅助、资料整合等方面具有显著价值。然而，针对“学生如何有效使用LLM”这一问题的实证研究相对匮乏，特别是关于提示词质量对学习效果影响的定量研究较少。现有研究在提示词质量的操作化定义、大学生典型使用场景（解题、资料查找）的针对性考察等方面仍存在不足。本研究旨在填补上述空白，通过实验设计定量考察提示词质量对LLM答案准确性的影响，并为高校学生的LLM使用提供可操作的优化策略。

三、研究设计

（一）研究框架

本研究采用实验研究方法，考察提示词质量对LLM答案准确性的影响。自变量为提示词质量（低、中、高三个水平），因变量为答案准确性（连续变量），调节变量为任务类型。通过控制LLM型号、参数设置等干扰因素，比较不同质量等级提示词所对应的输出准确度差异。

（二）任务设计

为覆盖高校学生的典型使用场景，本研究设计了两类任务，每类各包含3个具体题目。

1.解题任务（3题）

a.数学题：求∫cosmxsinn dx

b.专业题：土力学沉降量计算题。已知柱下单独方形基础，基础底面尺寸为2.5 m×2.5 m，埋深2 m，作用于基础上（设计地面标高处）的轴向荷载N = 1250 kN，基础底面以上基础和填土的混合重度取γ0 = 20kN/m3。有关地基勘察资料与基础剖面详见图，试用分层总和法，分别采用e – p曲线和附加应力系数计算基础下中点处最终沉降量

c.逻辑推理题：冯老师生日推理题。小惠、小宁、小旭是冯老师班里三个很聪明的学生，有一天，冯老师把她生日的月份和日期的乘积告诉了小惠，总和告诉了小宁，最大公约数告诉了小旭，三位学生就此展开对话：小旭说“我不敢肯定小惠知不知道冯老师的生日，但我敢肯定小宁是不知道的”；小惠说“尽管小旭为我排除掉了不可能的答案，但我还是不知道冯老师的生日”；小旭说“可是我还是不知道冯老师的生日。小宁，你能知道吗？”；小宁说“我本来不知道，听了小旭刚说的话，我已经知道了”；小惠说“听了小宁刚说的话，我也知道了”；小旭说“我也听了小宁的话知道了”。问冯老师生日在哪一天

2.资料查找任务（3题）

a.概念解释题：“概念”的概念解释

b.事实确认题：所有在2月29日所在年份的诺贝尔奖获奖者名单

c.文献推荐题：人机交互领域的最新研究成果推荐

3.复杂实践题（3题）

a.基于PHP后端的MBTI测试网站的搭建

b.基于Python的结构力学受力分析的小工具（图形化界面，Windows平台）

c.基于C开发的CPU绘制的光线追踪小工具

每道题目均保持一定的难度水平，使其具有一定评判标准。

（三）提示词质量分级

本研究将提示词质量划分为低、中、高三个等级。

1.低质量提示词：表述模糊、缺乏结构、无格式约束。例如，针对数学题提问“帮我算一下这个积分”，不提供任何额外要求。

2.中质量提示词：有基本任务描述和部分约束，但缺乏角色定位和详细步骤。例如，“请用分步的方式计算这个积分，给出最终答案”。

3.高质量提示词：包含角色设定、步骤拆解、格式约束，必要时加入示例引导。例如，“你是一名大学数学助教。请分三步解答以下积分问题：第一步写出化简思路，第二步代入计算，第三步得出最终答案。每步不超过两行。”

每个任务题目均对应三个质量等级的提示词，共计27条输入（9题×3等级）。

（四）数据收集

本研究选择DeepSeek、豆包作为实验模型，因其在中文语境下表现稳定且具有代表性。为减少随机采样带来的偶然误差，每条提示词重复输入3次，取准确度得分的平均值。将27条提示词依次输入模型，收集全部输出结果。

（五）准确度评估方法

针对不同任务的特征，分别设计评分标准。

1.解题任务评分标准（总分0-3分）：答案正确性（0-1分），最终答案是否匹配标准答案；推理过程（0-2分），步骤是否清晰、逻辑是否正确。

2.资料查找任务评分标准（总分0-4分）：事实准确性（0-2分），关键事实信息是否正确；完整度（0-1分），是否覆盖核心内容；相关性（0-1分），回答是否切合问题。

3.复杂实践题评分标准（总分0-5分）：功能实现（0-2分），核心功能是否正常运行；代码质量（0-2分），结构是否清晰、注释是否充分；可用性（0-1分），界面或交互是否友好。

评分由两名志愿者独立进行，最终取平均分。对于评分不一致的情况，通过讨论达成一致。

（六）数据分析方法

首先采用描述性统计，计算不同提示词质量等级下准确度的均值与标准差。其次，采用单因素方差分析检验提示词质量对答案准确性的主效应是否显著。最后，采用双因素分析比较任务类型与提示词质量的交互效应，即提示词质量的影响是否因任务类型不同而存在差异。

四、结果分析与讨论

（一）提示词质量对准确度的整体影响

（二）不同任务类型的对比分析

（三）实践建议

（四）研究局限

五、结论

（一）主要发现总结

（二）研究贡献与展望

发送评论 编辑评论

发送评论编辑评论