Grok-2 的早期版本在 LMSYS 排行榜上以“sus-column-r”的假名進行測試。根據公告,xAI 聲稱其性能超過了 Anthropic 的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4-Turbo。然而,值得注意的是,GPT-4o 目前在整體能力方面仍然是最佳 AI 助手,其次是 Google 的 Gemini 1.5。
xAI 的內部評估過程使用 AI 導師來評估模型在各種現實世界任務中的表現。該公司表示,“Grok-2 在檢索內容的推理和工具使用能力方面顯示出顯著改進,例如正確識別缺失信息、推理事件序列以及剔除無關帖子”。xAI 分享的基準測試結果顯示,Grok-2 和 Grok-2 mini 在許多方面都顯示出相對於 Grok-1.5 的顯著改進。這些模型在研究生水平的科學知識、一般知識和數學競賽問題等領域表現出競爭力。值得注意的是,Grok-2 在視覺任務中表現出色,在視覺數學推理和基於文檔的問題回答方面達到了最先進的水平。
X 上的新 Grok 體驗具有重新設計的界面和新功能。高級和高級+訂閱者將可以訪問 Grok-2 和 Grok-2 mini。xAI 描述 Grok-2 為“在廣泛任務中更直觀、可控且多功能,無論是尋求答案、協作寫作還是解決編碼任務”。
xAI 還與 Black Forest Labs 合作,實驗他們的 FLUX.1 模型,以擴展 Grok 在 X 上的能力。對於開發人員來說,xAI 將於本月晚些時候推出企業 API 平台。該公司承諾提供增強的安全功能、豐富的流量統計和先進的計費分析。還將提供管理 API,用於將團隊、用戶和計費管理集成到現有工具和服務中。
展望未來,xAI 計劃在 X 和 API 上將多模態理解作為 Grok 體驗的核心部分。自 2023 年 11 月宣布 Grok-1 以來,該公司的快速進展歸因於“擁有最高人才密度的小團隊”。
xAI 的重點仍然是通過其新的計算集群推進核心推理能力,旨在保持其在 AI 開發前沿的地位。然而,該公司最近同意停止使用某些歐盟數據來訓練其模型。儘管 Grok-2 的發布標誌著 xAI 的一個重要里程碑,但顯然 AI 領域仍然競爭激烈。隨著 ChatGPT-4o 和 Google 的 Gemini 1.5 領先,以及其他主要參與者如 Anthropic 繼續取得進展,AI 至高無上的競賽遠未結束。