5月24日,36氪“新質(zhì)生產(chǎn)力·AI Partner大會(huì)”于北京環(huán)球貿(mào)易中心正式拉開(kāi)帷幕。大會(huì)聚焦AI場(chǎng)景與應(yīng)用端,分為“AI能為我們做什么”和“我被AI賦能了”兩大篇章?,F(xiàn)場(chǎng)匯聚來(lái)自阿里云、螞蟻集團(tuán)、聯(lián)想、OPPO、百度、英特爾、大華股份等企業(yè)的AI領(lǐng)域先鋒者,以“賦能者”與“被賦能者”的不同視角,共同探討AI技術(shù)如何“爆改”千行百業(yè)。
以下是大華股份先進(jìn)技術(shù)研究院院長(zhǎng)殷俊先生主題演講。
非常感謝36氪給我這個(gè)機(jī)會(huì),與各位業(yè)內(nèi)同仁共同探討AI這個(gè)話(huà)題。人工智能發(fā)展到現(xiàn)在,已經(jīng)為經(jīng)濟(jì)社會(huì)帶來(lái)深刻變革,并普及到城市、企業(yè)、生活的方方面面。
大華股份是以視覺(jué)為核心的智慧物聯(lián)解決方案提供商和運(yùn)營(yíng)服務(wù)商,智慧物聯(lián)作為人工智能最典型的商業(yè)價(jià)值落地場(chǎng)景之一,我們?cè)诩夹g(shù)落地過(guò)程中積累了大量的實(shí)踐與業(yè)務(wù)經(jīng)驗(yàn)。以“視頻+AI”為牽引,借助先進(jìn)的視覺(jué)智能設(shè)備與解決方案,我們致力于整個(gè)社會(huì)生產(chǎn)效率的提升,賦能城市高效治理和企業(yè)的數(shù)智化創(chuàng)新與轉(zhuǎn)型。
AI領(lǐng)域發(fā)展了很多年,從16年AI在行業(yè)的應(yīng)用到前年大模型應(yīng)用的興起,AI生產(chǎn)力工具一直在不斷演進(jìn)的過(guò)程中,大模型的出現(xiàn)能夠進(jìn)一步提升AI的能力,能夠做好更新型工具鏈的建設(shè)和工具生產(chǎn)力的建設(shè),我們也看到兩個(gè)大的趨勢(shì):第一個(gè)是大模型參數(shù)規(guī)模的持續(xù)增長(zhǎng),隨著針對(duì)大模型能力的不斷探索,模型參數(shù)量仍在持續(xù)增長(zhǎng),scaling law還沒(méi)有失效;第二個(gè)是針對(duì)大模型算力的優(yōu)化,大模型的算力開(kāi)銷(xiāo)非常大,如何優(yōu)化算力開(kāi)銷(xiāo),通過(guò)更少量的算力來(lái)達(dá)到同等模型能力,各種降低算力消耗的方式被提出來(lái)。
當(dāng)前大模型應(yīng)用以文本類(lèi)、語(yǔ)音類(lèi)為主,大模型落地過(guò)程中仍然面臨很多的挑戰(zhàn),尤其是在視覺(jué)領(lǐng)域,如可靠性、穩(wěn)定性、認(rèn)知能力和成本等。首先可靠性挑戰(zhàn),我們希望能夠準(zhǔn)確識(shí)別一個(gè)物體,判定一個(gè)事件是否符合安全合規(guī)要求,對(duì)精度的要求是比較高的;其次是穩(wěn)定性,視覺(jué)場(chǎng)景要求穩(wěn)定識(shí)別物體,而當(dāng)前通用大模型在效果穩(wěn)定性方面離實(shí)戰(zhàn)要求還有差距,特別是幻覺(jué)問(wèn)題會(huì)嚴(yán)重影響大模型的穩(wěn)定性;第三個(gè)挑戰(zhàn)是認(rèn)知能力;第四個(gè)挑戰(zhàn)是成本,也就是如何讓客戶(hù)用得起,只有更低成本才能讓更多的客戶(hù)用得起大模型,進(jìn)而推動(dòng)大模型產(chǎn)業(yè)化落地。
真實(shí)準(zhǔn)確描述客觀(guān)世界是視覺(jué)大模型落地的關(guān)鍵,通用大模型對(duì)細(xì)分業(yè)務(wù)場(chǎng)景無(wú)法做到正確描述。比如煤礦傳送帶上的異物檢測(cè),要區(qū)分傳送帶上的是石頭還是礦物;在工業(yè)質(zhì)檢環(huán)境里,人員是否佩戴安全帽檢測(cè),要檢測(cè)戴的是安全帽、普通帽子或發(fā)飾;在糧倉(cāng)糧面分割時(shí),不同谷物分割線(xiàn)有什么區(qū)別,堆放的是什么谷物,這都是在真實(shí)場(chǎng)景中要解決的問(wèn)題。要讓模型做到精準(zhǔn)識(shí)別,需要通過(guò)大量參數(shù)優(yōu)化實(shí)際應(yīng)用效果,結(jié)合行業(yè)領(lǐng)域的專(zhuān)業(yè)知識(shí)進(jìn)行調(diào)優(yōu)。在電力行業(yè)應(yīng)用中,我們發(fā)現(xiàn)通用模型并不認(rèn)識(shí)絕緣子,不能很好理解什么是絕緣子,因此需要深入行業(yè)把絕緣子特征提取出來(lái),讓模型能更精準(zhǔn)地識(shí)別什么是絕緣端子,或者是對(duì)“絕緣”兩個(gè)字與廣泛的認(rèn)知形成差異,并且映射到實(shí)物,這就需要有大量行業(yè)經(jīng)驗(yàn)不斷調(diào)優(yōu)網(wǎng)絡(luò),讓網(wǎng)絡(luò)掌握特定行業(yè)或者細(xì)分行業(yè)的專(zhuān)業(yè)術(shù)語(yǔ)后,形成對(duì)行業(yè)更好的理解,精準(zhǔn)表述我們面向的業(yè)務(wù)應(yīng)用。
第二個(gè)是解決知識(shí)沖突問(wèn)題,大模型具備著強(qiáng)大的泛化能力,會(huì)對(duì)目標(biāo)理解形成差異。比如在油菜生長(zhǎng)過(guò)程中,我們用無(wú)人機(jī)去監(jiān)測(cè)植被生長(zhǎng)狀態(tài),然而在不同生長(zhǎng)階段油菜的顏色差異很大,如何對(duì)油菜進(jìn)行一致性的識(shí)別。又比如最簡(jiǎn)單的穿戴合規(guī)檢測(cè),不同行業(yè)甚至同一行業(yè)的不同場(chǎng)景下,對(duì)著裝的要求也不一樣,例如室外要求穿反光馬夾,室內(nèi)穿簡(jiǎn)裝制服即可,像我們?nèi)プ鲭娏π袠I(yè)合規(guī)檢測(cè),需要根據(jù)不同作業(yè)環(huán)境識(shí)別不同的著裝違規(guī),大模型要區(qū)分在不同作業(yè)環(huán)境下對(duì)應(yīng)的穿戴要求,需要行業(yè)領(lǐng)域知識(shí)庫(kù)才能夠區(qū)分清楚,這也是我們?cè)谛袠I(yè)落地里面遇到的挑戰(zhàn)。需要大量的行業(yè)知識(shí)和行業(yè)理解來(lái)持續(xù)匹配模型調(diào)優(yōu),通過(guò)大量知識(shí)協(xié)同來(lái)解決大模型知識(shí)沖突的問(wèn)題。
另一個(gè)是幻覺(jué)問(wèn)題,大家聽(tīng)說(shuō)的也很多,特別是在對(duì)話(huà)語(yǔ)義理解上一詞多義或者多詞一義很容易造成誤解,這些問(wèn)題在實(shí)際應(yīng)用過(guò)程中需要避免。我們使用高質(zhì)量的行業(yè)數(shù)據(jù)訓(xùn)練模型進(jìn)行二次分類(lèi),對(duì)大模型進(jìn)行模型監(jiān)督和后處理,自動(dòng)檢測(cè)和修正幻覺(jué)問(wèn)題,部署后定期進(jìn)行模型再訓(xùn)練,使用新的行業(yè)數(shù)據(jù)和反饋進(jìn)行優(yōu)化,讓大模型的認(rèn)知能力與行業(yè)匹配性逐步提升,從而讓大模型在業(yè)務(wù)落地中能夠更好地跟行業(yè)結(jié)合,減緩幻覺(jué)問(wèn)題。目前來(lái)看幻覺(jué)問(wèn)題相對(duì)比較穩(wěn)定,但是還會(huì)有錯(cuò)誤發(fā)生,我們希望通過(guò)與各行業(yè)的進(jìn)一步深耕打磨和融合,能把幻覺(jué)問(wèn)題降到更低的程度或者是轉(zhuǎn)化為能夠理解的過(guò)程。
在視頻序列分析上,大模型對(duì)視覺(jué)的理解也是一個(gè)難題,特別在特征融合后,大模型更多的是對(duì)全圖的理解,對(duì)細(xì)節(jié)理解的不夠,如何把識(shí)別范圍控制在需要關(guān)注的對(duì)象上面,這也是我們需要做的工作。在實(shí)際業(yè)務(wù)落地應(yīng)用上,我們需要更加關(guān)注管理對(duì)象的行為或者結(jié)果,在這個(gè)過(guò)程我們會(huì)把模型調(diào)整,將注意力調(diào)整到目標(biāo)物身上,對(duì)大量的背景等無(wú)效信息進(jìn)行過(guò)濾,才能進(jìn)行復(fù)雜行為的識(shí)別。
在部署協(xié)同問(wèn)題上,首先是成本,大模型需要消耗更大的算力,視覺(jué)和文本又不一樣,僅一張圖片可能就是 200k 分辨率,對(duì)于文本來(lái)說(shuō)可以變?yōu)槭畮讉€(gè)字符,因此處理視覺(jué)需要消耗更大量的算力。所以我們需要把模型做的更小,以有限的算力將視覺(jué)大模型跑起來(lái)。第二是兼容小模型階段做的大量成果,比如車(chē)牌識(shí)別、車(chē)輛識(shí)別,在小模型階段車(chē)輛識(shí)別精度已非常高,不需要再用大模型重新把這個(gè)事情做一遍,如何讓老的系統(tǒng)和新的系統(tǒng)協(xié)同融合,既發(fā)揮性?xún)r(jià)比優(yōu)勢(shì),又發(fā)揮出大模型能力,最終滿(mǎn)足全系統(tǒng)最佳利用率要求,這是我們已經(jīng)在重點(diǎn)做的工作。
所以,在實(shí)踐過(guò)程中,我們會(huì)想一個(gè)問(wèn)題,是要通用模型還是多模型協(xié)同?最終我們選擇了多模型協(xié)同,它是一個(gè)比較好的方式,既能夠發(fā)揮大模型的能力,又能夠相對(duì)合理的利舊,通過(guò)構(gòu)建多模型融合系統(tǒng),快速解決客戶(hù)實(shí)際需求的問(wèn)題。
去年,基于在視覺(jué)領(lǐng)域AI落地的研究與實(shí)踐,大華股份發(fā)布了星漢大模型,它是以視覺(jué)為核心、多模態(tài)融合的行業(yè)大模型。在以視頻為核心的智慧物聯(lián)領(lǐng)域,大華積累了豐富的行業(yè)和細(xì)分場(chǎng)景業(yè)務(wù)經(jīng)驗(yàn),充分結(jié)合行業(yè)經(jīng)驗(yàn)的視覺(jué)大模型是商業(yè)成功的關(guān)鍵。
星漢大模型具備四個(gè)方面的優(yōu)勢(shì):從準(zhǔn)確走向精準(zhǔn)、從個(gè)性走向通用、從識(shí)別走向理解、從靜態(tài)走向動(dòng)態(tài)。其準(zhǔn)確率和泛化能力大幅提升,可以通過(guò)圖文提示滿(mǎn)足海量碎片化需求,認(rèn)知能力提升識(shí)別復(fù)雜行為,通過(guò)全場(chǎng)景解析提升系統(tǒng)智能化水平。構(gòu)建星漢大模型的基礎(chǔ),是大華構(gòu)筑的“1+2”的人工智能能力體系。面向海量碎片化需求,通過(guò)四層技術(shù)架構(gòu)提升了算法供給能力,把AI嵌入到每個(gè)產(chǎn)品和場(chǎng)景,已覆蓋超過(guò)8000個(gè)細(xì)分場(chǎng)景。
我認(rèn)為,大模型未來(lái)發(fā)展趨勢(shì),首先是領(lǐng)域大模型,大模型落地過(guò)程中會(huì)結(jié)合業(yè)務(wù)場(chǎng)景,發(fā)展出更多的領(lǐng)域?qū)>竽P?。第二是多模態(tài)趨勢(shì),多模態(tài)融合,感知更全,知識(shí)互補(bǔ),準(zhǔn)確性會(huì)出現(xiàn)躍升。第三是端邊云MOE融合,提升整體模型系統(tǒng)的計(jì)算架構(gòu),實(shí)現(xiàn)整個(gè)系統(tǒng)的最優(yōu)化。