全球多模態推理新標桿智譜視覺推理模型GLM-4.5V正式上線并開源

2025-08-12 16:25 來源：證券日報網

本報記者梁傲男

8月11日晚間，北京智譜華章科技股份有限公司（以下簡稱“智譜”）推出全球100B級效果最佳的開源視覺推理模型GLM-4.5V（總參數106B，激活參數12B），并同步在魔搭社區與HuggingFace開源。

這是智譜在通向通用人工智能（AGI）道路上的又一探索性成果。

GLM-4.5V基于智譜新一代旗艦文本基座模型GLM-4.5-Air，延續GLM-4.1V-Thinking技術路線，在41個公開視覺多模態榜單中綜合效果達到同級別開源模型SOTA性能，涵蓋圖像、視頻、文檔理解以及GUIAgent等常見任務。

智譜供圖

在多模態榜單之外，智譜更重視模型在真實場景下的表現與可用性。GLM-4.5V通過高效混合訓練，具備覆蓋不同種視覺內容的處理能力，實現全場景視覺推理，包括：圖像推理（場景理解、復雜多圖分析、位置識別）、視頻理解（長視頻分鏡分析、事件識別）、GUI任務（屏幕讀取、圖標識別、桌面操作輔助）、復雜圖表與長文檔解析（研報分析、信息提取）、Grounding能力（精準定位視覺元素）

同時，模型新增“思考模式”開關，用戶可靈活選擇快速響應或深度推理，平衡效率與效果。

在保持高精度的同時，GLM-4.5V兼顧推理速度與部署成本，為企業與開發者提供高性價比的多模態AI解決方案。API調用價格低至輸入2元/Mtokens，輸出6元/Mtokens。

在技術細節方面，GLM-4.5V由視覺編碼器、MLP適配器和語言解碼器三部分組成，支持64K多模態長上下文，支持圖像與視頻輸入，并通過三維卷積提升視頻處理效率。模型采用雙三次插值機制，有效增強了模型對高分辨率及極端寬高比圖像的處理能力與穩健性；同時，引入三維旋轉位置編碼（3D-RoPE），顯著強化了模型對多模態信息的三維空間關系的感知與推理能力。

此外，GLM-4.5V采用三階段策略：預訓練、監督微調（SFT）和強化學習（RL）。其中，在預訓練階段，智譜結合大規模圖文交錯多模態語料和長上下文內容，強化了模型對復雜圖文及視頻的處理能力；在SFT階段，智譜引入了顯式“思維鏈”格式訓練樣本，增強了GLM-4.5V的因果推理與多模態理解能力；最后，RL階段，智譜引入全領域多模態課程強化學習，通過構建多領域獎勵系統（RewardSystem），結合可驗證獎勵強化學習（RLVR）與基于人類反饋的強化學習（RLHF），GLM-4.5V在STEM問題、多模態定位、Agent任務等方面獲得全面優化。

多模態推理被視為通向通用人工智能的關鍵能力之一，讓AI能夠像人類一樣綜合感知、理解與決策。其中，視覺-語言模型（Vision-LanguageModel，VLM）是實現多模態推理的核心基礎。

今年7月份，智譜發布并開源了全球10B級效果的VLM——GLM-4.1V-9B-Thinking。該模型以小博大，展現了小體積模型的極限性能潛力，上線后迅速登上HuggingFaceTrending榜首，并累計獲得超過13萬次下載。

（編輯張明富）

-證券日報網

熱點新聞

24小時排行一周排行

深度策劃

聚焦2025陸家嘴論壇金融開放合作新動向

2025陸家嘴論壇6月18日正式啟幕……[詳情]

市場快訊

19:27	天陽科技：公司的供應鏈金融解決方...
19:27	天陽科技：魔數的模型全生命周期管...
19:27	天邑股份：截至2025年8月8日，公司...
19:27	通達海：公司積極推進基于CANN生態...
19:27	同興科技：截至2025年8月8日公司股...
19:26	完美世界：公司持續積極探索AI等前...
19:26	完美世界：公司與英偉達在AI技術與...
19:26	維峰電子：公司部分連接器產品已批...
19:26	維峰電子：公司目前已在東莞、昆山...
19:26	維峰電子：公司已進入部分機器人頭...
19:26	維峰電子：昆山工廠暫未投產，預計...
19:26	溫州宏豐：關于提前贖回“宏豐轉債...

www.精品-www.激情五月-www.波多野结衣.com-www.波多野-高清国产视频

全球多模態推理新標桿 智譜視覺推理模型GLM-4.5V正式上線并開源

全球多模態推理新標桿智譜視覺推理模型GLM-4.5V正式上線并開源