多模態(tài)理解是大模型理解復雜現(xiàn)實世界的關鍵能力之一。
8月2日,中文多模態(tài)大模型SuperCLUE-V基準8月榜單發(fā)布,騰訊混元大模型憑借其在多模態(tài)理解方面的卓越表現(xiàn),在眾多參評模型中脫穎而出,斬獲國內(nèi)大模型排名第一,穩(wěn)居卓越領導者象限。
多模態(tài)理解,俗稱“圖生文”,要求模型能準確識別圖像元素,理解它們的關系,并生成自然語言描述。這既考驗圖像識別的精確度,也體現(xiàn)了對場景的全面理解、對細節(jié)的深度洞察,考驗模型對復雜現(xiàn)實世界的理解力。
本次測評涵蓋了國內(nèi)外最具代表性的12個多模態(tài)理解大模型,包含4個海外模型和8個國內(nèi)代表性多模態(tài)模型,評估內(nèi)容包含基礎能力和應用能力兩大方向,以開放式問題對多模態(tài)大模型進行評估。騰訊混元大模型在多模態(tài)基礎能力和應用能力方面,獲得總分 71.95 的高分,顯示出在技術和應用層的綜合優(yōu)勢。
據(jù)SuperCLUE官方介紹,評估標準涵蓋了理解準確性、回應相關性和推理深度等維度,打分規(guī)則結合了自動化定量評分與專家復核,以確保評估的科學性和公正性。
評測結果顯示,國內(nèi)大模型在多模態(tài)理解的基礎能力方面,已經(jīng)逼近海外頂尖模型,其中騰訊混元大模型總成績僅略低于GPT-4o,表現(xiàn)好于CLaude3.5-Sonnet和Gemini-1.5-Pro,顯示國產(chǎn)模型在基礎能力上的快速迭代。而在應用能力維度上,騰訊混元大模型憑借對中文語境的深刻理解,以及在通用、常識、圖像等多領域的綜合能力,展現(xiàn)出實際應用的巨大潛力。
依托騰訊混元大模型的技術底座,AI 原生應用騰訊元寶在發(fā)布之初,就具備多模態(tài)理解能力,無論是文檔截圖、人像風景、收銀小票,還是任意一張隨手拍的照片,元寶都能基于圖中內(nèi)容給出自己的理解和分析。