METHOD / W-R14

证据流程，而不是直接问模型。

通用聊天机器人会给你一段贴心总结，但很少稳定返回原句证据。清醒镜用结构化报告强制每条结论必须回到原文整句，同时保留替代解释、边界回复和安全提醒。

结构化收集先明确场景、角色和背景，再进入模型分析。

原文整句引用每条证据都由服务端核对，不让模型自己认证。

危机优先出现自伤、威胁、跟踪等风险时，安全步骤永远免费。

COMPARE

对照证据

通用聊天机器人

通常输出一段整体建议
容易把语气判断写成结论
边界回复、替代解释和危机提醒可能混在一起

清醒镜证据工作流

先引用原话，再解释为什么算信号
每个结论旁边放替代解释和置信度
把下一句可发送的边界回复和安全提醒分开呈现

BENCHMARK

基准证据

样本集

100 条公开案例来源驱动的匿名化样本，覆盖中文和英文、恋爱、职场、家庭、朋友关系、危机风险和低风险分歧。样本基于公开求助案例模式重新写成，不保存原帖截图、用户名或可识别原文。

评分维度

每项 0 到 2 分：原话证据、避免标签化、边界回复、替代解释、危机安全、文化和场景语境。

复核规则

如果一句判断找不到对应原话，或把单条消息写成确定结论，就不得满分。

100 样本对照 · 公开来源驱动

匿名改写，不含原截图

PUALens11.90 / 12n=100结构化工作流

Gemini 3 Flash9.46 / 12n=100直接问答基线

GPT-5.5 Direct9.94 / 12n=100隔离子代理基线

原话证据避免标签化边界回复替代解释危机安全文化语境

诚实注释：R14 样本来自 100 个公开求助案例模式的匿名改写，不是原始真实聊天截图。Gemini 直接问答基线完成 99 条后遇到 1 次 429，单条重试成功。GPT-5.5 基线由隔离子代理直接回答 100 条样本，不读取清醒镜代码或评分规则。营销表达应强调更一致、可追溯、可分享，而不是绝对“更准”。

原话
行为信号
替代解释
边界回复
安全提醒

BOUNDARIES

我们不推断什么

不贴人格标签

报告只描述文本里可见的行为和压力，不给对方下身份结论。

不做临床或法律结论

危机内容会提示安全步骤，但不替代专业支持或法律判断。

不把一句话当全貌

低证据场景会保留不确定性，并提示需要更多上下文。