本報記者 梁傲男
8月11日晚間,北京智譜華章科技股份有限公司(以下簡稱“智譜”)推出全球100B級效果最佳的開源視覺推理模型GLM-4.5V(總參數106B,激活參數12B),并同步在魔搭社區與HuggingFace開源。
這是智譜在通向通用人工智能(AGI)道路上的又一探索性成果。
GLM-4.5V基于智譜新一代旗艦文本基座模型GLM-4.5-Air,延續GLM-4.1V-Thinking技術路線,在41個公開視覺多模態榜單中綜合效果達到同級別開源模型SOTA性能,涵蓋圖像、視頻、文檔理解以及GUIAgent等常見任務。
智譜供圖
在多模態榜單之外,智譜更重視模型在真實場景下的表現與可用性。GLM-4.5V通過高效混合訓練,具備覆蓋不同種視覺內容的處理能力,實現全場景視覺推理,包括:圖像推理(場景理解、復雜多圖分析、位置識別)、視頻理解(長視頻分鏡分析、事件識別)、GUI任務(屏幕讀取、圖標識別、桌面操作輔助)、復雜圖表與長文檔解析(研報分析、信息提取)、Grounding能力(精準定位視覺元素)
同時,模型新增“思考模式”開關,用戶可靈活選擇快速響應或深度推理,平衡效率與效果。
在保持高精度的同時,GLM-4.5V兼顧推理速度與部署成本,為企業與開發者提供高性價比的多模態AI解決方案。API調用價格低至輸入2元/Mtokens,輸出6元/Mtokens。
在技術細節方面,GLM-4.5V由視覺編碼器、MLP適配器和語言解碼器三部分組成,支持64K多模態長上下文,支持圖像與視頻輸入,并通過三維卷積提升視頻處理效率。模型采用雙三次插值機制,有效增強了模型對高分辨率及極端寬高比圖像的處理能力與穩健性;同時,引入三維旋轉位置編碼(3D-RoPE),顯著強化了模型對多模態信息的三維空間關系的感知與推理能力。
此外,GLM-4.5V采用三階段策略:預訓練、監督微調(SFT)和強化學習(RL)。其中,在預訓練階段,智譜結合大規模圖文交錯多模態語料和長上下文內容,強化了模型對復雜圖文及視頻的處理能力;在SFT階段,智譜引入了顯式“思維鏈”格式訓練樣本,增強了GLM-4.5V的因果推理與多模態理解能力;最后,RL階段,智譜引入全領域多模態課程強化學習,通過構建多領域獎勵系統(RewardSystem),結合可驗證獎勵強化學習(RLVR)與基于人類反饋的強化學習(RLHF),GLM-4.5V在STEM問題、多模態定位、Agent任務等方面獲得全面優化。
多模態推理被視為通向通用人工智能的關鍵能力之一,讓AI能夠像人類一樣綜合感知、理解與決策。其中,視覺-語言模型(Vision-LanguageModel,VLM)是實現多模態推理的核心基礎。
今年7月份,智譜發布并開源了全球10B級效果的VLM——GLM-4.1V-9B-Thinking。該模型以小博大,展現了小體積模型的極限性能潛力,上線后迅速登上HuggingFaceTrending榜首,并累計獲得超過13萬次下載。
(編輯 張明富)
19:27 | 天陽科技:公司的供應鏈金融解決方... |
19:27 | 天陽科技:魔數的模型全生命周期管... |
19:27 | 天邑股份:截至2025年8月8日,公司... |
19:27 | 通達海:公司積極推進基于CANN生態... |
19:27 | 同興科技:截至2025年8月8日公司股... |
19:26 | 完美世界:公司持續積極探索AI等前... |
19:26 | 完美世界:公司與英偉達在AI技術與... |
19:26 | 維峰電子:公司部分連接器產品已批... |
19:26 | 維峰電子:公司目前已在東莞、昆山... |
19:26 | 維峰電子:公司已進入部分機器人頭... |
19:26 | 維峰電子:昆山工廠暫未投產,預計... |
19:26 | 溫州宏豐:關于提前贖回“宏豐轉債... |
版權所有《證券日報》社有限責任公司
互聯網新聞信息服務許可證 10120240020增值電信業務經營許可證 京B2-20250455
京公網安備 11010602201377號京ICP備19002521號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關注
掃一掃,加關注