記者吳立言/綜合報導
▲xAI發布重大更新,Grok 整合視覺分析與超過145種語言的語音對話。(圖/Grok)
xAI所打造的生成式AI聊天機器人Grok,近期迎來關鍵性更新,進一步強化其在多模態人工智慧領域的競爭力。此次更新不僅首次向用戶開放視覺處理能力,還整合多語言音訊交互及語音模式下的即時搜尋功能,為AI的自然互動體驗開啟新篇章。
更新的重點之一,是Grok的「視覺理解功能」正式上線。早在2024年,xAI即曾披露Grok-1.5V具備處理圖像、圖表與文檔的潛力,惟該版本始終未公開釋出。如今,Grok不僅能解析圖片中的物體與文字資訊,更能解讀複雜圖表甚至轉譯為可執行的程式碼,顯著提升其在知識密集型任務中的應用價值。配合Grok具備的即時資料抓取能力,其在新聞分析、社群內容判讀等場景中尤具優勢。
Introducing Grok Vision, multilingual audio, and realtime search in Voice Mode. Available now.
— Ebby Amir (@ebbyamir) April 22, 2025
Grok habla español
Grok parle français
Grok Türkçe konuşuyor
グロクは日本語を話す
ग्रोक हिंदी बोलता है pic.twitter.com/lcaSyty2n5
語音互動方面,Grok融合全新「VoiceWave」擴充模組,支援超過145種語言的即時語音處理。該功能不僅具備語音轉文字與語音回放,還提供同步文字高亮顯示,實現自然語調、可調語速的個性化語音互動,適用於跨語言客服、國際化內容製作及語言學習等多種情境。
此外,Grok在語音模式下導入即時搜尋功能DeepSearch,可透過語音指令實時抓取來自網路與X平台的最新內容。其特點是能在回應時「同時引用資訊來源」,並呈現邏輯推理過程,使使用者得以掌握回答的可信依據。
這一系列創新功能,得益於xAI在運算與訓練基礎設施上的長期佈局。Grok3模型訓練依託配備20萬顆NVIDIA H100 GPU的Colossus超級電腦,整體效能較前一代提升十倍。搭配大規模強化學習技術,Grok不僅強化了推理與錯誤修正能力,也在多項標準測試中超越目前市場主流模型。
xAI此次更新不僅代表Grok自身邁向多模態通用智能的重要一步,更意味著生成式AI正快速朝向更即時、更智慧且更人性化的互動模式演進。
讀者迴響