我們如何評級一箇中轉站
完全透明、可解釋的評分——不靠黑箱。每個等級、每個判定標籤都有明確含義。檢測內幕(探針與指紋庫)保密以防規避,但評分邏輯全部公開。
認證等級
主流模型以強證據驗真(可信分 ≥ 90,含加密簽名或官方雲確證),無替換、無降級。
主流模型確為真實模型(可信分 ≥ 75),無替換、無降級。
部分模型未確證,或存在同廠降級嫌疑。
至少一個主流模型未通過驗真。我們只發布正向認證,未通過的僅標"未獲認證",不公開任何"替換"指控。
封頂規則:杜絕"一真蓋全假"
只要任一主流模型跨廠不符(替換)→ 全站封頂"未獲認證",不論其它模型多真;任一同廠降級 → 封頂 B。再加旗艦模型權重更高,無法用便宜的真模型刷高分、掩蓋被換的旗艦模型。
可信指數(0–100)
站級可信指數是各模型可信分的加權平均(旗艦 opus / gpt-5 等權重高於便宜檔),只計入實際測過的模型;我方參考庫未覆蓋的模型不計分、單獨標註,既不拉高也不拉低。
逐模型判定標籤
每個模型獨立判定,給出 0–100 可信分與含義明確的標籤:
| 100 | 加密級驗真 | 原生加密簽名經官方回放驗證通過——最強證據。 |
| 92 | 真實模型·官方雲轉售確證 | 經 Bedrock / Vertex 官方雲轉售的真實模型,無原生簽名但渠道指紋+多訊號交叉一致。 |
| 90 | 真實模型·行為指紋高置信 | 行為指紋高置信匹配官方源參考。 |
| 85 | 真實模型·多訊號驗真 | 多個獨立訊號一致驗真(無簽名)。 |
| 75 | 真實模型·未加密確證 | 行為上確為真實模型,但缺加密級證據。 |
| 50 | 未確證 | 訊號不足,無法給出可信判定。 |
| 30 | 同廠降級嫌疑 | 疑似被換成同廠更低檔模型。 |
| 10 | 未通過驗真 | 行為更像另一個(跨廠)模型。 |
| 5 | 簽名被官方拒絕 | 聲稱的簽名未通過官方驗真。 |
| — | 暫未覆蓋(不計分) | 我方參考庫尚未覆蓋該模型,不做任何判定。 |
我們怎麼測
行為指紋比對
用一組探針採集模型的回答風格分佈,與我方官方源參考指紋比對,識別它"行為上"更像哪個模型——即使被提示詞偽裝成 Claude 也能識破。
加密簽名 / 官方回放
對支援原生加密簽名的模型做官方回放驗籤;經 Bedrock / Vertex 官方雲轉售的真實模型雖無原生簽名,用渠道指紋 + 多訊號交叉確證。
多訊號交叉 + 逐模型獨立判定
身份、延遲、能力、秩檢驗等多個獨立訊號交叉一致才給高置信;一站裡每個模型獨立判定,絕不用一個"已驗真"代表全站。
為什麼可信
逐模型獨立判定
一站裡 claude 可能真、gpt 可能被換——每個模型單獨判定,絕不用一個"已驗真"代表全站。
誠實邊界,不冤判
參考庫未覆蓋的模型只標"暫未覆蓋",不猜、不冤判;同廠降級用雙守衛閾值防誤報。
只做正向認證
對外只發布"驗真/認證",差的站只是沒有認證微章、評級低或移出榜,絕不發布任何負面指控(品牌與法律安全)。
⚠️ 結果為機率訊號,非法律證據。本認證為某一時點的快照,中轉站後端隨時可能變化;持續保證需付費監控。我方指紋庫未覆蓋的模型只標"暫未覆蓋",不做任何判定。對外只做正向驗真,未通過的僅標"未獲認證"。