Skip to content
Panshi
EN / /
中轉站榜單 磐石哨兵 · 評分方法公開

我們如何評級一箇中轉站

完全透明、可解釋的評分——不靠黑箱。每個等級、每個判定標籤都有明確含義。檢測內幕(探針與指紋庫)保密以防規避,但評分邏輯全部公開。

認證等級

🛡️ 磐石認證 A

主流模型以強證據驗真(可信分 ≥ 90,含加密簽名或官方雲確證),無替換、無降級。

驗真通過 B

主流模型確為真實模型(可信分 ≥ 75),無替換、無降級。

🟡 部分存疑 C

部分模型未確證,或存在同廠降級嫌疑。

未獲認證

至少一個主流模型未通過驗真。我們只發布正向認證,未通過的僅標"未獲認證",不公開任何"替換"指控。

封頂規則:杜絕"一真蓋全假"

只要任一主流模型跨廠不符(替換)→ 全站封頂"未獲認證",不論其它模型多真;任一同廠降級 → 封頂 B。再加旗艦模型權重更高,無法用便宜的真模型刷高分、掩蓋被換的旗艦模型。

可信指數(0–100)

站級可信指數是各模型可信分的加權平均(旗艦 opus / gpt-5 等權重高於便宜檔),只計入實際測過的模型;我方參考庫未覆蓋的模型不計分、單獨標註,既不拉高也不拉低。

逐模型判定標籤

每個模型獨立判定,給出 0–100 可信分與含義明確的標籤:

100 加密級驗真 原生加密簽名經官方回放驗證通過——最強證據。
92 真實模型·官方雲轉售確證 經 Bedrock / Vertex 官方雲轉售的真實模型,無原生簽名但渠道指紋+多訊號交叉一致。
90 真實模型·行為指紋高置信 行為指紋高置信匹配官方源參考。
85 真實模型·多訊號驗真 多個獨立訊號一致驗真(無簽名)。
75 真實模型·未加密確證 行為上確為真實模型,但缺加密級證據。
50 未確證 訊號不足,無法給出可信判定。
30 同廠降級嫌疑 疑似被換成同廠更低檔模型。
10 未通過驗真 行為更像另一個(跨廠)模型。
5 簽名被官方拒絕 聲稱的簽名未通過官方驗真。
暫未覆蓋(不計分) 我方參考庫尚未覆蓋該模型,不做任何判定。

我們怎麼測

1

行為指紋比對

用一組探針採集模型的回答風格分佈,與我方官方源參考指紋比對,識別它"行為上"更像哪個模型——即使被提示詞偽裝成 Claude 也能識破。

2

加密簽名 / 官方回放

對支援原生加密簽名的模型做官方回放驗籤;經 Bedrock / Vertex 官方雲轉售的真實模型雖無原生簽名,用渠道指紋 + 多訊號交叉確證。

3

多訊號交叉 + 逐模型獨立判定

身份、延遲、能力、秩檢驗等多個獨立訊號交叉一致才給高置信;一站裡每個模型獨立判定,絕不用一個"已驗真"代表全站。

為什麼可信

逐模型獨立判定

一站裡 claude 可能真、gpt 可能被換——每個模型單獨判定,絕不用一個"已驗真"代表全站。

誠實邊界,不冤判

參考庫未覆蓋的模型只標"暫未覆蓋",不猜、不冤判;同廠降級用雙守衛閾值防誤報。

只做正向認證

對外只發布"驗真/認證",差的站只是沒有認證微章、評級低或移出榜,絕不發布任何負面指控(品牌與法律安全)。

⚠️ 結果為機率訊號,非法律證據。本認證為某一時點的快照,中轉站後端隨時可能變化;持續保證需付費監控。我方指紋庫未覆蓋的模型只標"暫未覆蓋",不做任何判定。對外只做正向驗真,未通過的僅標"未獲認證"。

自己驗證 / 持續監控

← 檢視中轉站榜單