进阶研究
带来源核验地比较 AI 回答
比较多个 AI 回答时,不奖励自信、流畅或篇幅,而是用来源映射、论点提取和矛盾检查来判断。
适合谁
- 检查 AI 研究内容的编辑。
- 比较助手回答的学生。
- 为决策比较模型输出的团队。
不适合谁
- 没有来源材料的人。
- 只想快速排序观点的人。
- 没有专家审查的高风险决策。
工作流步骤
步骤 1
统一问题
对每个 AI 工具使用同样问题、限制和来源材料。输入不同,就不是比较答案,而是在比较提示词。
示例输入
只用这两个来源回答,并标记无依据论点。
期望输出
在同等条件下产生的可比输出。
常见失败
某个回答胜出只是因为它拿到更好上下文。
人工检查
保存每次运行的完整提示词和来源包。
步骤 2
提取每个回答的论点
单独要求列出论点、证据和置信度。直接比较散文很难,比较论点行更容易。
示例输入
提取所有事实论点并映射到来源句子。
期望输出
每个回答的论点矩阵。
常见失败
流畅段落隐藏无依据论点。
人工检查
抽查高置信和低置信行。
步骤 3
检查矛盾和遗漏
检查相互冲突、单方提到、双方都无依据的论点。遗漏通常比错误更重要。
示例输入
比较论点矩阵,列出矛盾、遗漏和无依据点。
期望输出
差异报告。
常见失败
更长的回答因为字数多显得更好。
人工检查
和来源比较,不要和个人偏好比较。
步骤 4
评分证据而非风格
建立来源覆盖、准确性、有用限制和决策价值标准,把写作风格作为次要分数。
示例输入
按来源覆盖、准确性、限制和决策价值给每个回答 1-5 分。
期望输出
透明评分表。
常见失败
最自信或最漂亮的回答错误胜出。
人工检查
低于 4 或高于 4 的评分必须写理由。
步骤 5
写最终判断说明
总结哪个回答更安全、哪些部分要人工修正、发布前还要查哪些来源。
示例输入
写最终判断:可用部分、拒绝部分和来源核验。
期望输出
可分享给编辑或同事的决策说明。
常见失败
比较只有赢家,没有审查过程。
人工检查
确保同事能看懂胜出理由。
人工审查清单
- 检查 AI 输出是否真正解决 source-based AI answer comparison,而不是变成泛泛回答。
- 核验事实、日期、名称、数字、链接和引用内容。
- 删除无依据结论、空话、重复衔接和过度自信表达。
- 发布或发送前,对照读者、渠道和格式检查。
- 记录提示词、工具、输入材料、人工修改和最终判断,方便复用。
常见错误
- 用模糊提示词开始 source-based AI answer comparison,没有验收标准。
- 还没给来源、限制、示例和审查规则,就要求模型直接给最终答案。
- 把流畅回答当正确答案,没有检查来源覆盖、隐藏假设和边界情况。
- 研究、写作、审查和最终编辑都用同一个提示词。
- 因为第一版看起来顺,就跳过人工检查。