昨日,全球最強(qiáng)端側(cè)多模態(tài)模型再次刷新,僅用8B參數(shù),擊敗了OpenAI的GPT-4V和谷歌的Gemini Pro,而且,其OCR長難圖識(shí)別刷新SOTA,圖像編碼速度暴漲150倍,而這個(gè)全球最強(qiáng)端側(cè)多模態(tài)模型不是國外大廠的出品,而是國內(nèi)大模型研發(fā)實(shí)力最頭部的公司面壁智能,最新打造出來的面壁小鋼炮MiniCPM-Llama3-V 2.5。
據(jù)了解,面壁小鋼炮MiniCPM-Llama3-V 2.5僅憑8B量級(jí)的端側(cè)模型,在評(píng)測平臺(tái)OpenCompass得分65.1,與閉源模型Qwen-VL-Max或可一戰(zhàn),綜合性能直接力壓重量級(jí)選手GPT-4V和Gemini Pro。在OCR綜合基準(zhǔn)測試中,又取得了725分的成績,大幅遠(yuǎn)超GPT-4V,并在大模型的“頑疾”幻覺能力上也獲得了重大改進(jìn),還有各種基準(zhǔn)測試,數(shù)據(jù)都遠(yuǎn)超GPT-4V和Gemini Pro。
簡單來說,MiniCPM-Llama3-V 2.5能看、能讀、速度快、更會(huì)思考,而且,還用最小的參數(shù)撬動(dòng)了最強(qiáng)性能!那么,拋開這些基準(zhǔn)測試,這個(gè)小鋼炮到底能給我們普通人帶來啥?首先,它能支持30+種語言,包括德語、法語、西班牙語、意大利語、俄語等主流語言;其次,它支持難圖、長圖、長文本的精準(zhǔn)識(shí)別,比如你在看一個(gè)吃瓜長文,總因?yàn)椤疤L不看”而煩惱,丟給它,它就能快速匯總出關(guān)鍵內(nèi)容;如果是一張英文版的圖文信息,它也能根據(jù)你的需求,給出非常精準(zhǔn)的匯總;而且,它能夠在一張擁有多種要素信息的圖片中,“一眼”看懂圖片的主題內(nèi)容,并推理出圖片的來源信息,再把“思考”后的信息整理匯總給我們。當(dāng)它搭載到手機(jī)上,將能直接在設(shè)備端快速、實(shí)時(shí)運(yùn)行,減少數(shù)據(jù)泄露風(fēng)險(xiǎn),而且,即使沒有網(wǎng)絡(luò)連接,也能正常工作,還適用于多種設(shè)備,或成為真正的AI“貼身助理”。