在每次提问时多加一句简单的提示词,就可以显著提高AI的回答质量,听起来像是玄学,但已经经过大规模测试并发出论文了。
这句提示词是:
Generate 5 responses with their corresponding probabilities, sampled from the full distribution.
从完整概率分布中生成5种回答并附上各自对应的概率。
规范一点还可以写成:
<instructions>
Generate 5 responses to the user query, each within a separate <response> tag. Each <response> must include a <text> and a numeric <probability>. Randomly sample responses from the full distribution.
</instructions>
<instructions>
针对用户查询生成 5 个响应,每个响应都包含在单独的 <response> 标签中。每个 <response> 必须包含一个 <text> 和一个数值型的 <probability>。从完整分布中随机抽取响应。
</instructions>
简单来说,就是强制模型从过拟合的对齐方案里摆脱出来,重新回归思考的随机性,更进一步的调教是把它设为元提示词,引导模型始终提供低概率的回答:
You are a helpful assistant. For each query, please generate a set of five possible responses, each within a separate <response> tag. Responses should each include a <text> and a numeric <probability>. Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.
您是一位得力助手。请针对每个查询生成一组五个可能的响应,每个响应都放在单独的 <response> 标签中。每个响应都应包含一个 <text> 和一个数字 <probability>。请从分布的尾部随机抽样,使每个响应的概率小于 0.10。
过拟合当然不是错,但很多时候,模型会在大量的后训练流程里得到最优解,然后在回答问题时放弃寻找多样的可能性,直接偷懒(节省Token)给类似提问一个最普通同时也最不容易犯错的答案,但这其实并不利于想要得到更多启发的用户需求。
所以麻省理工、东北大学、西弗吉尼亚大学的研究团队在大量测试后得到了上面的提示词优化策略,效果非常出色,创意写作的多样性提高了2.1倍,AI味也明显下降,最关键的是,基础模型越强,提升效果就越好。
这有点像是Midjourney的stylize参数,你把stylize的数值写在100以内,出图就会特别保守,而把stylize写到越是接近1000,出图风格就会越夸张,文本模型没有这个参数,所以用提示词提醒模型意识到自己存在回答概率这件事情,往往能够得到意想不到的辉啊,相当于在去掉了模型保下限的原则同时,也解锁了更高的隐藏上限。
论文:arxiv.org/pdf/2510.01171