今年大模型還要如何進化,還有怎樣的想象空間?
剛剛,商湯正式推出“日日新”融合大模型,領先實現(xiàn)原生融合模態(tài),深度推理能力與多模態(tài)信息處理能力均大幅提升,并在兩大權威評測榜單奪得第一,成為“雙冠王”?! ?/p>
國內(nèi)權威大模型測評機構SuperCLUE最新發(fā)布的《中文大模型基準測評2024年度報告》:商湯“日日新”融合大模型以總分68.3的優(yōu)異成績,與 DeepSeek V3 一起并列國內(nèi)榜首,成為年度第一。
在近期另一個權威綜合評測機構OpenCompass的多模態(tài)評測中,商湯以同一款模型同樣取得了榜單第一,分數(shù)大幅領先GPT-4o?! ?/p>
“一個模型、雙料冠軍”,意味著商湯科技率先在原生融合模態(tài)訓練取得實質(zhì)性突破,這將引領業(yè)界從大語言模型和多模態(tài)大模型分立的普遍現(xiàn)狀,走向真正意義的模型一統(tǒng)。商湯“日日新”突破了模態(tài)融合的技術,跨越了模態(tài)之間的鴻溝,就為深度推理能力和多模態(tài)信息的結合鋪平了道路。文理兼修,能寫能看能推理商湯“日日新”融合大模型性能上文理兼修,在SuperCLUE年度評測中,文科成績以81.8分位列全球第一,超越OpenAI的o1模型;理科成績奪得金牌,其中計算維度以78.2分位列國內(nèi)第一。實現(xiàn)原生模態(tài)融合后,“日日新”融合大模型不止能達到人類“看”和“想”的水平,還可以幫助你解決更多復雜問題,看不清的字體、數(shù)據(jù)圖表里的信息、文學創(chuàng)作與撰寫……這些都可以實現(xiàn)。
融合模態(tài)開拓應用新維度在實際應用場景中,相較于傳統(tǒng)大語言模型僅支持單一文本輸入的模式,"日日新"融合大模型展現(xiàn)出顯著優(yōu)勢,尤其是在自動駕駛、視頻交互、辦公教育、金融、園區(qū)管理、工業(yè)制造等天然擁有豐富模態(tài)信息的場景中。“日日新"融合大模型能夠有效滿足用戶對圖像、視頻、語音、文本等多源異構信息的綜合處理與識別需求。例如,在辦公、金融領域,其行業(yè)屬性擁有很多復雜的富模態(tài)文檔:表格、文本、圖片、視頻,以及融合上述形式的豐富信息,基于“日日新”融合大模型的商湯應用——辦公小浣熊就可以高效地完成處理分析相關的復雜任務。
與此同時,基于融合大模型的優(yōu)勢,商湯“日日新”在視覺交互上也有豐富的應用場景,例如,在線上教育、語音客服等場景,均可以結合語音和自然語言來提升交互體驗。去年年底開始,原生多模態(tài)大模型就逐漸成為業(yè)內(nèi)探討的重要方向。然而由于數(shù)據(jù)和訓練方法的局限,業(yè)內(nèi)很多機構的嘗試并不成功——多模態(tài)訓練過程往往會導致純語言任務尤其是指令跟隨和推理任務的性能嚴重下降。得益于在計算機視覺領域十年深耕以及人工智能賦能場景的豐富經(jīng)驗,商湯一直堅信多模態(tài)模型是 AI 2.0 進行場景落地的必由之路,對于多模態(tài)大模型的研發(fā)也有自己的獨特見解。在推動語言模型和多模態(tài)模型融合的過程中,發(fā)展出兩項關鍵的創(chuàng)新技術:融合模態(tài)數(shù)據(jù)合成與融合任務增強訓練,進而完成“日日新”融合大模型的訓練,推向市場。在預訓練階段,商湯不僅采用了天然存在的海量圖文交錯數(shù)據(jù),還通過逆渲染、基于混合語義的圖像生成等方法合成了大量融合模態(tài)數(shù)據(jù),在圖文模態(tài)之間建立起大量交互橋梁,使得模型基座對于模態(tài)之間的豐富關系有更扎實的掌握,也為更好地完成跨模態(tài)任務打下堅實的基礎,從而實現(xiàn)整體性能的提升。在后訓練階段,商湯基于對廣泛業(yè)務場景的認知,構建了大量的跨模態(tài)任務,包括視頻交互、多模態(tài)文檔分析、城市場景理解、車載場景理解等。通過把這些任務融入到增強訓練的過程,商湯的融合模態(tài)模型不僅被激發(fā)出強大的對多模態(tài)信息進行整合理解分析的能力,而且還形成了對業(yè)務場景有效的響應能力,走通了應用落地反哺基礎模型迭代的閉環(huán)。實現(xiàn)多模態(tài)交互與深度融合、走向真正意義的模型一統(tǒng),是走向世界模型的必經(jīng)之路,商湯科技已在該賽道實現(xiàn)領跑優(yōu)勢。