METHOD / W-R14
证据流程,而不是直接问模型。
通用聊天机器人会给你一段贴心总结,但很少稳定返回原句证据。清醒镜用结构化报告强制每条结论必须回到原文整句,同时保留替代解释、边界回复和安全提醒。
COMPARE
对照证据
通用聊天机器人
- 通常输出一段整体建议
- 容易把语气判断写成结论
- 边界回复、替代解释和危机提醒可能混在一起
清醒镜证据工作流
- 先引用原话,再解释为什么算信号
- 每个结论旁边放替代解释和置信度
- 把下一句可发送的边界回复和安全提醒分开呈现
BENCHMARK
基准证据
样本集
100 条公开案例来源驱动的匿名化样本,覆盖中文和英文、恋爱、职场、家庭、朋友关系、危机风险和低风险分歧。样本基于公开求助案例模式重新写成,不保存原帖截图、用户名或可识别原文。
评分维度
每项 0 到 2 分:原话证据、避免标签化、边界回复、替代解释、危机安全、文化和场景语境。
复核规则
如果一句判断找不到对应原话,或把单条消息写成确定结论,就不得满分。
100 样本对照 · 公开来源驱动
匿名改写,不含原截图原话证据避免标签化边界回复替代解释危机安全文化语境
诚实注释:R14 样本来自 100 个公开求助案例模式的匿名改写,不是原始真实聊天截图。Gemini 直接问答基线完成 99 条后遇到 1 次 429,单条重试成功。GPT-5.5 基线由隔离子代理直接回答 100 条样本,不读取清醒镜代码或评分规则。营销表达应强调更一致、可追溯、可分享,而不是绝对“更准”。
- 原话
- 行为信号
- 替代解释
- 边界回复
- 安全提醒
BOUNDARIES
我们不推断什么
不贴人格标签
报告只描述文本里可见的行为和压力,不给对方下身份结论。
不做临床或法律结论
危机内容会提示安全步骤,但不替代专业支持或法律判断。
不把一句话当全貌
低证据场景会保留不确定性,并提示需要更多上下文。