▲Google正式揭露了新一代Gemini API的多項重點功能。(圖/Google)
記者吳立言/綜合報導
在Google I/O 2025第二天的「AI Stage」開發者專場中,Google正式揭露了新一代Gemini API的多項重點功能,聚焦於「多模態理解」、「長文本處理能力」與「上下文快取」等核心升級,展現其進一步推進AI視覺與語言融合應用的野心。
※多模態理解能力升級
Gemini API現已支援YouTube影片連結分析,並新增三種媒體解析度選項、動態影格率(Dynamic FPS)、影片剪輯功能(Video Clipping)、影像分割(Image Segmentation),這些新功能意味著開發者可將更豐富的視覺內容導入應用中,進一步拓展Gemini在教育、媒體與娛樂產業的實用性。
※長文本處理與記憶強化
新版本的Gemini API支援:
Pro模式:一次處理最多200萬個tokens的長篇內容
Flash模式:支援最多100萬個tokens
此外也針對模型記憶進行強化:上下文快取機制支援「明示與暗示」兩種模式,Flash模式最低快取1024 tokens;Pro模式最低快取2048 tokens。此升級讓AI在理解文章、影片逐字稿、長篇對話時,更具延續性與準確性,對於教育平台、自動筆記與企業知識管理系統尤為實用。
※Token計數透明化
雖然並未細談詳細介面,Google也確認Gemini API現在支援開發者追蹤Token使用狀況,方便進行效能評估與成本管理。
Gemini API的更新不只體現在技術提升,更代表Google正積極推進「可程式化AI平台」的開發策略。隨著這波升級落地,開發者將能建構更精準、即時且具互動性的AI體驗,橫跨影音、教育、寫作與專業應用場域。
讀者迴響