微軟 Researcher 新增的 Critique 功能,旨在透過生成與評估分離的方式,提升研究報告的品質。此機制並非由單一模型完成所有工作,而是將任務拆解為兩個階段:首先,由一個模型負責深度探索與整合資訊,力求內容的廣度與深度;接著,另一個專門模型扮演審查者的角色,負責驗證論點,並從來源可信度、報告完整性及證據標準等面向,強化報告的整體品質。
Critique 的審查維度主要涵蓋三個方面,首先是來源可信度,確保報告引用具權威性且與領域相關的資料;其次是報告完整性,確保研究涵蓋足夠的廣度與深度,不會遺漏關鍵資訊;最後是嚴格的證據標準,確保每一項關鍵論點都有明確的引用來源支持,以提升報告的客觀性與可信度。透過這三重審查,Critique 力求產出更全面、更可靠的研究報告。
為了驗證 Critique 的實際效果,微軟進行了 DRACO 基準測試。該測試涵蓋 10 個領域、100 項複雜任務,結果顯示,相較於單一模型,Critique 的表現提升了 7.0 分(標準誤差 ±1.90)。更值得注意的是,Critique 與 Perplexity Deep Research 相比,改善幅度達到 13.88%,其中廣度與深度分析方面進步了 3.33 分,報告呈現品質方面也提升了 3.04 分。這些數據表明,Critique 在提升研究報告的廣度、深度和整體品質方面具有顯著優勢。
從產業角度來看,Critique 的設計理念代表著 AI 發展的一個重要趨勢,也就是多模型協作。不同於過去單一模型包辦所有任務的做法,多模型協作更強調將任務拆解,由不同的模型各司其職,發揮各自的優勢。這種模式不僅可以提升效率,也能夠提高產出結果的品質。隨著 AI 技術的不斷發展,我們可以預期,未來將會有更多類似的多模型協作機制出現,為各個領域帶來更高效、更可靠的解決方案。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容