跳到主内容
Panshi
EN / /
中转站榜单 磐石哨兵 · 评分方法公开

我们如何评级一个中转站

完全透明、可解释的评分——不靠黑箱。每个等级、每个判定标签都有明确含义。检测内幕(探针与指纹库)保密以防规避,但评分逻辑全部公开。

认证等级

🛡️ 磐石认证 A

主流模型以强证据验真(可信分 ≥ 90,含加密签名或官方云确证),无替换、无降级。

验真通过 B

主流模型确为真实模型(可信分 ≥ 75),无替换、无降级。

🟡 部分存疑 C

部分模型未确证,或存在同厂降级嫌疑。

未获认证

至少一个主流模型未通过验真。我们只发布正向认证,未通过的仅标"未获认证",不公开任何"替换"指控。

封顶规则:杜绝"一真盖全假"

只要任一主流模型跨厂不符(替换)→ 全站封顶"未获认证",不论其它模型多真;任一同厂降级 → 封顶 B。再加旗舰模型权重更高,无法用便宜的真模型刷高分、掩盖被换的旗舰模型。

可信指数(0–100)

站级可信指数是各模型可信分的加权平均(旗舰 opus / gpt-5 等权重高于便宜档),只计入实际测过的模型;我方参考库未覆盖的模型不计分、单独标注,既不拉高也不拉低。

逐模型判定标签

每个模型独立判定,给出 0–100 可信分与含义明确的标签:

100 加密级验真 原生加密签名经官方回放验证通过——最强证据。
92 真实模型·官方云转售确证 经 Bedrock / Vertex 官方云转售的真实模型,无原生签名但渠道指纹+多信号交叉一致。
90 真实模型·行为指纹高置信 行为指纹高置信匹配官方源参考。
85 真实模型·多信号验真 多个独立信号一致验真(无签名)。
75 真实模型·未加密确证 行为上确为真实模型,但缺加密级证据。
50 未确证 信号不足,无法给出可信判定。
30 同厂降级嫌疑 疑似被换成同厂更低档模型。
10 未通过验真 行为更像另一个(跨厂)模型。
5 签名被官方拒绝 声称的签名未通过官方验真。
暂未覆盖(不计分) 我方参考库尚未覆盖该模型,不做任何判定。

我们怎么测

1

行为指纹比对

用一组探针采集模型的回答风格分布,与我方官方源参考指纹比对,识别它"行为上"更像哪个模型——即使被提示词伪装成 Claude 也能识破。

2

加密签名 / 官方回放

对支持原生加密签名的模型做官方回放验签;经 Bedrock / Vertex 官方云转售的真实模型虽无原生签名,用渠道指纹 + 多信号交叉确证。

3

多信号交叉 + 逐模型独立判定

身份、延迟、能力、秩检验等多个独立信号交叉一致才给高置信;一站里每个模型独立判定,绝不用一个"已验真"代表全站。

为什么可信

逐模型独立判定

一站里 claude 可能真、gpt 可能被换——每个模型单独判定,绝不用一个"已验真"代表全站。

诚实边界,不冤判

参考库未覆盖的模型只标"暂未覆盖",不猜、不冤判;同厂降级用双守卫阈值防误报。

只做正向认证

对外只发布"验真/认证",差的站只是没有认证微章、评级低或移出榜,绝不发布任何负面指控(品牌与法律安全)。

⚠️ 结果为概率信号,非法律证据。本认证为某一时点的快照,中转站后端随时可能变化;持续保证需付费监控。我方指纹库未覆盖的模型只标"暂未覆盖",不做任何判定。对外只做正向验真,未通过的仅标"未获认证"。

自己验证 / 持续监控

← 查看中转站榜单