▲FastVLM為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型。(圖/github.com/apple)
記者吳立言/綜合報導
蘋果日前正式發布「FastVLM(Fast Vision Language Model)」系列模型,為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型(VLM),強調能以極低延遲完成圖文理解任務,並實現與大型語言模型(LLM)如GPT或Qwen的高度整合。
FastVLM的主要功能是將高解析圖像即時轉換為語言模型可處理的視覺token,讓設備得以在本地直接進行圖像描述、問答分析等任務,無須仰賴雲端資源或高耗能硬體。架構包含輕量級視覺主幹FastViTHD,以及可與開源語言模型搭配的解碼器模組。根據蘋果公開的效能資料,從「看懂圖片」到「即時語言輸出」:
◆FastVLM-0.5B:首token輸出速度比同級架構LLaVA-OneVision快85倍,模型體積縮小3.4倍。
◆FastVLM-7B+ Qwen2-7B:比Cambrian-1-8B快7.9倍,並維持相同精度。
蘋果表示,FastVLM 的定位是「為圖文任務打造的高速視覺前端」,其核心優勢包含支援高解析輸入圖像,且推理速度依然保持領先;提供低延遲、高效能的首token輸出表現;模型結構輕巧,可在端側(On-device)裝置直接運行。
FastVLM共推出三種模型規模,分別是FastVLM-0.5B、FastVLM-1.5B及FastVLM-7B,每一版本皆配有兩階段微調(stage2、stage3),並已開放模型下載,支援LLaVA-style訓練與HuggingFace接口,降低開發門檻。
蘋果特別強調FastVLM已針對其自家M系列晶片與iOS/MacOS系統進行優化,可直接在iPhone上本地推理,預期將加速AI功能在行動端的普及。此舉也與蘋果持續推動「端側 AI」策略不謀而合。此技術預期將在自動圖片標註(Image Captioning)、影像問答(Visual Question Answering)及圖像分類與目標偵測(Object Recognition)應用領域發揮關鍵角色。
隨著FastVLM正式登場,蘋果不僅展示了其在AI模型本地化部署上的領先地位,也為AI帶來新的發展可能。未來,使用者將有機會在iPhone上完成更多即時圖文任務,無需再依賴雲端模型的計算資源。
讀者迴響