近年來,機器視覺一直在重構(gòu)著行業(yè)的產(chǎn)業(yè)鏈,扎了“AI”這劑強心針,百行百業(yè)數(shù)字化轉(zhuǎn)型正在加速落地。一個屬于AI視覺的大時代,正在呼嘯而來,智能算法與澎湃算力開始了不斷演進的步伐。
很多人認為,智能算法已經(jīng)開始趨于同質(zhì)化,精度差別也只有幾個百分點,算法已經(jīng)無法成為企業(yè)的核心競爭力。但事實并非如此,在許多場景與實際運用中,例如碰到千萬級別以上的數(shù)據(jù),這些百分點的差別便會非常的顯著,并且對整體的應(yīng)用及落地產(chǎn)生較大的影響,這就是算法的價值。
紫光華智自去年在MIT Scene Parsing Benchmark場景解析評測中獲得榜首成績后,今年在全球權(quán)威的ICDAR Robust Reading大賽榜單中,憑借領(lǐng)先的AI技術(shù)優(yōu)勢,在文本行檢測與識別兩項任務(wù)中均斬獲第一,一舉刷新榜單記錄。
▲紫光華智分別位居文本行檢測榜單&文本行識別榜單No.1
紫光華智CTO周斌表示:“此次成績打榜并不是我們的目的,實屬無心之舉。紫光華智一直以滿足客戶需求為導(dǎo)向和使命,將領(lǐng)先的AI技術(shù)落地到客戶實際應(yīng)用中,給客戶帶去實實在在的效能與效率,助力各行各業(yè)的智能化轉(zhuǎn)型,普惠AI技術(shù),賦能各行各業(yè),這是我們持續(xù)投入研發(fā)AI技術(shù)的目的,也是我們紫光華智的戰(zhàn)略目標?!?/p>
雖然紫光華智成立僅僅三年時間,但其繼承著紫光集團、新華三在AI、芯片、存儲、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等領(lǐng)域的多種強大基因,換句話而言,在其AI視覺的“槍”里,早已經(jīng)裝滿了賦能百行百業(yè)進行數(shù)字化轉(zhuǎn)型升級的“彈藥”。
理解了這點,再回過頭看紫光華智對于視覺技術(shù)的執(zhí)著與投入,戰(zhàn)略便能更加的清晰——智能化轉(zhuǎn)型上半場是AI蓄能,企業(yè)在算法、算力、數(shù)據(jù)等維度搶占制高點,下半場是AI產(chǎn)業(yè)化落地,智能化的技術(shù)及應(yīng)用滲透到各行各業(yè)中,只有保持技術(shù)不斷迭代,才能生存下來。
中國的商業(yè)環(huán)境一向殘酷,有的企業(yè)站穩(wěn)腳跟,有的企業(yè)就會被對手擠掉,只有圍繞著用戶需求做技術(shù)創(chuàng)新才能決定未來的話語權(quán)。
如何破解算法落地難問題
在AI賦能傳統(tǒng)產(chǎn)業(yè)中,真要打磨出可用的產(chǎn)品,既需要團隊掌握AI視覺算法等核心技術(shù),又需了解到百行百業(yè)各場景的真實需求,在這種背景下,落地成了AI企業(yè)當前最大的難題,既要回答“什么是用戶需要的”,又要審視“什么是企業(yè)可以提供的”,用戶端與技術(shù)端必須協(xié)調(diào)一致,才能讓AI落地創(chuàng)造價值。
對于當前智能算法的落地,周斌認為落地難可以分為以下三種情況:
一是場景的多樣性問題,算法訓(xùn)練的場景難以完全覆蓋算法部署的場景,一個算法在當前場景中表現(xiàn)不錯,但換了另外一個場景可能就會有各種問題,場景的多樣性包括場景背景不同、目標視角不同、目標自身的差異性等因素,這些因素的變化可能對算法指標都會帶來影響;
二是需求的碎片化,尤其像泛行業(yè)的算法需求,市場是細分的,需求是碎片化的,因此算法定制化程度很高,通用性較差,這無形中就增加了研發(fā)投入成本;
三是針對不同芯片平臺的適配部署,當前算法技術(shù)發(fā)展速度遠快于芯片工具鏈適配的速度,例如新出來的一項技術(shù)效果提升很明顯,但想落地時卻發(fā)現(xiàn)某些芯片平臺并不支持該算法中的新算子,或者支持,但效率較低,難以實際部署,這顯然就阻礙了該算法落地的進程。
為了解決這些問題,紫光華智針對性地提出應(yīng)對之策:
針對場景多樣性的問題,首先要從數(shù)據(jù)上入手,通過多種方式、多個渠道來獲取盡量豐富的數(shù)據(jù),擴充訓(xùn)練集和測試集;再通過算法和模型的優(yōu)化,來增加算法模型的泛化能力,防止過擬合到某些特定場景;通過設(shè)置合理的工勘指導(dǎo),提供在各種場景中最合適的部署、安裝、調(diào)試參數(shù),以發(fā)揮出算法的最優(yōu)效果;
針對碎片化的算法需求,紫光華智推出了AI開放平臺,該平臺為用戶開放模型訓(xùn)練、算法構(gòu)建與部署能力,同時為第三方算法開放接入能力,幫助用戶快速落地定制化算法,縮短AI應(yīng)用開發(fā)周期,降低算法開發(fā)、使用成本;
針對不同芯片的適配部署,紫光華智與多家芯片廠商建立了長期合作關(guān)系,協(xié)同開發(fā),在不同芯片上快速適配新算子的支持,以加速新算法的落地。
解除了算法落地難的后顧之憂,算法才有了長足發(fā)展的土壤。
▲非機動車牌智能識別
算法進步強化AI實戰(zhàn)?
算法的進步,是技術(shù)創(chuàng)新的量變。文本行檢測、識別與我們的生活場景息息相關(guān),如視頻圖片上文字審核,票據(jù)識別,手寫體識別,車牌識別等,在榜首的“皇冠”下,隨著業(yè)務(wù)的拓展,有著需要攻克眾多難題的“重”。周斌透露,在具體的應(yīng)用中,算法的表現(xiàn)跟場景息息相關(guān),例如如圖像分辨率、光照情況等不同,都會有不同的表現(xiàn)。為了提升在落地項目中算法的表現(xiàn),紫光華智往往會采取相應(yīng)的措施:
一是調(diào)整相機的位置、角度、視場角,或者增加一些配置來達到最優(yōu)的效果;
二是從一開始便對模型的泛化性提出了相應(yīng)的要求,支撐各種場景設(shè)備的接入分析。“我們的算法模型針對各類場景構(gòu)建了充分的測試集和訓(xùn)練集,以及一個強大的數(shù)據(jù)管理團隊,使模型泛化性能足夠應(yīng)對各類場景需求?!? 周斌介紹道。
算法的落地,是技術(shù)創(chuàng)新的質(zhì)變。產(chǎn)品技術(shù)的成熟度與場景應(yīng)用的吻合度的結(jié)合,攻克下來的難題,能給企業(yè)帶來技術(shù)領(lǐng)先的窗口期,技術(shù)的世界沒有太多捷徑,需要持續(xù)的投入與時間方能有所收獲。
▲機動車牌智能識別
尋找差異點持續(xù)推進
從另一個維度看,紫光華智作為行業(yè)后來者,要想在傳統(tǒng)巨頭近身肉搏大打價格戰(zhàn)與新巨頭跨界整合夾擊中生存下來,要尋找自身能力與競爭對手的差距,不斷的提升自身能力,彌補自身的不足,才能在實際業(yè)務(wù)中更好的滿足客戶需求。
“OCR技術(shù)便是其中一個差異點,通過技術(shù)的打磨與提升,華智將領(lǐng)先的文本檢測和識別技術(shù)充分應(yīng)用到各個領(lǐng)域?!敝鼙笱a充道:
在道路交通場景,非機動車管理費神費力,不同地區(qū)非機動車牌格式和文本字符差異巨大,紫光華智車牌識別算法可自動讀取車牌信息,實現(xiàn)非機動車的智能化管理,同時有效遏制了非機動車偷盜事件的發(fā)生。針對機動車管理,紫車牌識別算法為監(jiān)管部門在交通違法識別、高速違停等違法事件管理提供了有效幫助;
在教育、金融等場景,不同證件票據(jù)格式不一,字符類型多樣,字段長短不一,識別難度巨大。紫光華智文本識別算法可精確讀取證件票據(jù)的文本信息,避免了人工手動錄入產(chǎn)生的錯誤,同時大幅提升了輸入工作效率,提高了工作智能化水平;
在城市管理場景,城市街道中沿街商鋪為了吸引客戶存在設(shè)置多個招牌、招牌顏色各異、招牌大小不一、隨意變更招牌等問題,不僅影響市容市貌也存在安全隱患。紫光華智街面OCR識別算法可準確識別不同招牌的文本和語義信息,提升城市智能化管理能力和效率,助力城市精細化管理……
這是一個“如果用戶體驗不到差異性,所有的技術(shù)都不存在”的時代。在此次專訪中,周斌多次提及“持續(xù)”、“用戶”,這也是紫光華智未來市場策略的主心骨,圍繞用戶需求,持續(xù)創(chuàng)新。
客觀地說,算法的持續(xù)投入是場持久戰(zhàn),它的潛力原本就被低估。在當前AI視覺的產(chǎn)業(yè)中,仍然缺少真正意義上的領(lǐng)軍者,紫光華智對智能算法及AI視覺的加碼投入,勢必會開發(fā)出新的市場潛能。