Google釋出Gemini API核心更新 可處理超長文本與影片內容

▲▼             。(圖/Google)

▲Google正式揭露了新一代Gemini API的多項重點功能。(圖/Google)

記者吳立言/綜合報導

在Google I/O 2025第二天的「AI Stage」開發者專場中,Google正式揭露了新一代Gemini API的多項重點功能,聚焦於「多模態理解」、「長文本處理能力」與「上下文快取」等核心升級,展現其進一步推進AI視覺與語言融合應用的野心。

※多模態理解能力升級
Gemini API現已支援YouTube影片連結分析,並新增三種媒體解析度選項、動態影格率(Dynamic FPS)、影片剪輯功能(Video Clipping)、影像分割(Image Segmentation),這些新功能意味著開發者可將更豐富的視覺內容導入應用中,進一步拓展Gemini在教育、媒體與娛樂產業的實用性。

※長文本處理與記憶強化
新版本的Gemini API支援:

Pro模式:一次處理最多200萬個tokens的長篇內容
Flash模式:支援最多100萬個tokens
此外也針對模型記憶進行強化:上下文快取機制支援「明示與暗示」兩種模式,Flash模式最低快取1024 tokens;Pro模式最低快取2048 tokens。此升級讓AI在理解文章、影片逐字稿、長篇對話時,更具延續性與準確性,對於教育平台、自動筆記與企業知識管理系統尤為實用。

※Token計數透明化
雖然並未細談詳細介面,Google也確認Gemini API現在支援開發者追蹤Token使用狀況,方便進行效能評估與成本管理。

Gemini API的更新不只體現在技術提升,更代表Google正積極推進「可程式化AI平台」的開發策略。隨著這波升級落地,開發者將能建構更精準、即時且具互動性的AI體驗,橫跨影音、教育、寫作與專業應用場域。

06/21 全台詐欺最新數據

更多新聞
505 2 3321 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

追蹤我們:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

AI科技熱門新聞

OpenAI前主管談提示詞編程革命

OpenAI揭開AI行為偏差根本原因

路透:鴻海擬用機器人 投入輝達產線

OpenAI稱將打造超高品質AI硬體

研究示警:太依賴ChatGPT會變笨

OpenAI前主管:LLM將成軟體基礎設施

Copilot、Gemini、ChatGPT差在哪?

求職用AI寫履歷藏地雷?3關鍵一次看

Google推出Search Live新功能

Cursor登陸Slack提升開發流暢度

史丹佛數據揭與AI共事成職場主流

ChatGPT錄音模式正式登陸macOS

Claude Code擴大開放至Pro用戶

AI散熱明牌? 4公司股價直直飆

相關新聞

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面