編程領域知名開發者卡帕西近日推出了一款名為“大模型議會”的Web應用,該應用通過創新機制讓多個大語言模型協同工作,引發技術社區廣泛關注。與傳統單一模型對話界面不同,這個系統采用類似議會制的架構,在用戶提交問題后,會同時激活多個大模型進行集體討論。
系統運行流程分為三個核心環節:首先通過OpenRouter中間層同步調用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等主流模型,所有回復以標簽頁形式并列展示;接著進入匿名互評階段,每個模型會收到其他參與者的回答,在隱藏身份信息的情況下,依據準確性和洞察力進行評分并給出詳細理由;最終由指定主席模型整合所有評價,形成綜合答案返回給用戶。
這種設計不僅實現了模型間的橫向對比,更完整呈現了人工智能的決策過程。開發者特別強調,匿名機制有效避免了模型間的偏袒行為,測試數據顯示模型在互評時表現出較高客觀性,多數情況下能承認自身不足。例如在某次測試中,盡管GPT-5.1被多數模型評為最佳答案,但仍有模型指出其結構松散的問題。
該項目的GitHub倉庫上線后迅速獲得1.8k星標,技術社區出現多種創新應用場景。有開發者提出將這種自評估機制發展為新型自動評測基準,通過模型間的交叉驗證提升評估可靠性。暢銷技術書籍作者在體驗后認為,這種多模型協作模式可能重塑人工智能產品的開發范式,特別是在需要綜合判斷的復雜任務領域。
實際測試中,不同模型展現出鮮明個性特征。GPT-5.1以內容豐富見長但結構欠佳,Gemini 3的回答更為凝練,Claude的輸出則相對簡略。值得注意的是,盡管模型互評結果與人類主觀判斷存在差異,但這種差異本身提供了新的研究視角——通過分析模型評價標準與人類認知的偏差,可能發現現有評估體系的盲點。
項目文檔顯示,該系統源于開發者此前提出的“分階段深度閱讀”方法論。該方法將傳統閱讀流程改造為三步協作:人類先進行整體感知,再由模型解析結構,最后通過追問深化理解。新系統在此基礎上增加模型議會機制,使協作過程更具透明度。開發者透露,未來計劃引入更多模型參與討論,并優化評分算法以提升決策質量。
技術實現層面,系統采用模塊化設計,支持靈活替換底層模型。開發者在代碼注釋中特別說明,任何符合OpenAI API規范的模型都可接入議會機制。這種開放性設計降低了技術門檻,已有多個衍生項目開始探索不同模型組合的效果差異。社區討論焦點集中在如何平衡模型數量與決策效率,以及如何設計更精細的評分維度等問題上。











