蘋果FastVLM模型亮相 首款可在iPhone運行的視覺語言模型

▲▼             。(圖/github.com/apple)

▲FastVLM為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型。(圖/github.com/apple)

記者吳立言/綜合報導
蘋果日前正式發布「FastVLM(Fast Vision Language Model)」系列模型,為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型(VLM),強調能以極低延遲完成圖文理解任務,並實現與大型語言模型(LLM)如GPT或Qwen的高度整合。

FastVLM的主要功能是將高解析圖像即時轉換為語言模型可處理的視覺token,讓設備得以在本地直接進行圖像描述、問答分析等任務,無須仰賴雲端資源或高耗能硬體。架構包含輕量級視覺主幹FastViTHD,以及可與開源語言模型搭配的解碼器模組。根據蘋果公開的效能資料,從「看懂圖片」到「即時語言輸出」:

◆FastVLM-0.5B:首token輸出速度比同級架構LLaVA-OneVision快85倍,模型體積縮小3.4倍。

◆FastVLM-7B+ Qwen2-7B:比Cambrian-1-8B快7.9倍,並維持相同精度。

蘋果表示,FastVLM 的定位是「為圖文任務打造的高速視覺前端」,其核心優勢包含支援高解析輸入圖像,且推理速度依然保持領先;提供低延遲、高效能的首token輸出表現;模型結構輕巧,可在端側(On-device)裝置直接運行。

FastVLM共推出三種模型規模,分別是FastVLM-0.5B、FastVLM-1.5B及FastVLM-7B,每一版本皆配有兩階段微調(stage2、stage3),並已開放模型下載,支援LLaVA-style訓練與HuggingFace接口,降低開發門檻。

蘋果特別強調FastVLM已針對其自家M系列晶片與iOS/MacOS系統進行優化,可直接在iPhone上本地推理,預期將加速AI功能在行動端的普及。此舉也與蘋果持續推動「端側 AI」策略不謀而合。此技術預期將在自動圖片標註(Image Captioning)、影像問答(Visual Question Answering)及圖像分類與目標偵測(Object Recognition)應用領域發揮關鍵角色。

隨著FastVLM正式登場,蘋果不僅展示了其在AI模型本地化部署上的領先地位,也為AI帶來新的發展可能。未來,使用者將有機會在iPhone上完成更多即時圖文任務,無需再依賴雲端模型的計算資源。

06/17 全台詐欺最新數據

更多新聞
561 2 4721 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

追蹤我們:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

AI科技熱門新聞

AI散熱明牌? 4公司股價直直飆

ChatGPT圖像生成功能登陸WhatsApp

OpenAI執行長:AI即將具象化

OpenAI執行長:AI將融入下一代日常

史丹佛數據揭與AI共事成職場主流

ChatGPT專案功能大升級

Gemini Flash、Pro穩定上線

相關新聞

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面