我们如何评级一个中转站
完全透明、可解释的评分——不靠黑箱。每个等级、每个判定标签都有明确含义。检测内幕(探针与指纹库)保密以防规避,但评分逻辑全部公开。
认证等级
主流模型以强证据验真(可信分 ≥ 90,含加密签名或官方云确证),无替换、无降级。
主流模型确为真实模型(可信分 ≥ 75),无替换、无降级。
部分模型未确证,或存在同厂降级嫌疑。
至少一个主流模型未通过验真。我们只发布正向认证,未通过的仅标"未获认证",不公开任何"替换"指控。
封顶规则:杜绝"一真盖全假"
只要任一主流模型跨厂不符(替换)→ 全站封顶"未获认证",不论其它模型多真;任一同厂降级 → 封顶 B。再加旗舰模型权重更高,无法用便宜的真模型刷高分、掩盖被换的旗舰模型。
可信指数(0–100)
站级可信指数是各模型可信分的加权平均(旗舰 opus / gpt-5 等权重高于便宜档),只计入实际测过的模型;我方参考库未覆盖的模型不计分、单独标注,既不拉高也不拉低。
逐模型判定标签
每个模型独立判定,给出 0–100 可信分与含义明确的标签:
| 100 | 加密级验真 | 原生加密签名经官方回放验证通过——最强证据。 |
| 92 | 真实模型·官方云转售确证 | 经 Bedrock / Vertex 官方云转售的真实模型,无原生签名但渠道指纹+多信号交叉一致。 |
| 90 | 真实模型·行为指纹高置信 | 行为指纹高置信匹配官方源参考。 |
| 85 | 真实模型·多信号验真 | 多个独立信号一致验真(无签名)。 |
| 75 | 真实模型·未加密确证 | 行为上确为真实模型,但缺加密级证据。 |
| 50 | 未确证 | 信号不足,无法给出可信判定。 |
| 30 | 同厂降级嫌疑 | 疑似被换成同厂更低档模型。 |
| 10 | 未通过验真 | 行为更像另一个(跨厂)模型。 |
| 5 | 签名被官方拒绝 | 声称的签名未通过官方验真。 |
| — | 暂未覆盖(不计分) | 我方参考库尚未覆盖该模型,不做任何判定。 |
我们怎么测
行为指纹比对
用一组探针采集模型的回答风格分布,与我方官方源参考指纹比对,识别它"行为上"更像哪个模型——即使被提示词伪装成 Claude 也能识破。
加密签名 / 官方回放
对支持原生加密签名的模型做官方回放验签;经 Bedrock / Vertex 官方云转售的真实模型虽无原生签名,用渠道指纹 + 多信号交叉确证。
多信号交叉 + 逐模型独立判定
身份、延迟、能力、秩检验等多个独立信号交叉一致才给高置信;一站里每个模型独立判定,绝不用一个"已验真"代表全站。
为什么可信
逐模型独立判定
一站里 claude 可能真、gpt 可能被换——每个模型单独判定,绝不用一个"已验真"代表全站。
诚实边界,不冤判
参考库未覆盖的模型只标"暂未覆盖",不猜、不冤判;同厂降级用双守卫阈值防误报。
只做正向认证
对外只发布"验真/认证",差的站只是没有认证微章、评级低或移出榜,绝不发布任何负面指控(品牌与法律安全)。
⚠️ 结果为概率信号,非法律证据。本认证为某一时点的快照,中转站后端随时可能变化;持续保证需付费监控。我方指纹库未覆盖的模型只标"暂未覆盖",不做任何判定。对外只做正向验真,未通过的仅标"未获认证"。