在线免费观看成年人视频-在线免费观看国产-在线免费观看国产精品-在线免费观看黄网站-在线免费观看精品

產(chǎn)品分類

當(dāng)前位置: 首頁 > 工業(yè)電氣產(chǎn)品 > 端子與連接器 > 線路板連接器 > FFC連接器

類型分類:
科普知識
數(shù)據(jù)分類:
FFC連接器

通過NVIDIA TensorRT加速夸克瀏覽器AI應(yīng)用

發(fā)布日期:2022-04-22 點(diǎn)擊率:42

客戶簡介

? 本案例中通過TensorRT加速夸克瀏覽器視頻圖像相關(guān)模型的預(yù)測性能,比如待上線業(yè)務(wù)的相關(guān)流程整體性能達(dá)不到線上要求,通過對全流程的優(yōu)化以及使用NVIDIA TensorRT加速模型后,最終整體性能由10s級別降到400ms內(nèi),其中模型性能加速1~3倍,顯存占用下降50%。


? 本案例主要應(yīng)用到NVIDIA TensorRT、NVIDIA Nsight Systems

客戶簡介及應(yīng)用背景

夸克瀏覽器是阿里旗下的一個(gè)搭載極速AI引擎的高速智能瀏覽器。夸客以極速智能搜索為定位,致力于為用戶提供交互更智能高效、內(nèi)容更專業(yè)權(quán)威的新一代搜索引擎,同時(shí)也在產(chǎn)品極致體驗(yàn)上不斷實(shí)現(xiàn)突破。

夸克目前不僅提供極致的搜索體驗(yàn),也在探索以深度學(xué)習(xí)為基礎(chǔ)的AI工具,通過高效的算法效果和全流程的性能優(yōu)化,提供更好的用戶體驗(yàn)。深度學(xué)習(xí)模型在實(shí)際應(yīng)用的過程中,效果遠(yuǎn)好于傳統(tǒng)模型,但由于算法復(fù)雜度過高,預(yù)測性能成為制約模型最終能否上線的核心問題。NVIDIA TensorRT通過計(jì)算圖的優(yōu)化、高效Kernel的實(shí)現(xiàn)及更高效硬件的利用加速模型預(yù)測耗時(shí),使預(yù)測速度提升了1~3倍。

客戶挑戰(zhàn)

夸克瀏覽器為用戶提供智能相機(jī)功能,打開夸克APP后,通過相機(jī)入口(如下左圖紅框所示)進(jìn)入智能相機(jī)功能,可以看到智能相機(jī)提供的具體功能(如下右圖所示),包括萬能掃描、學(xué)習(xí)輔導(dǎo)、萬物識別等功能,這些功能對實(shí)時(shí)性要求極高,不少功能的底層核心技術(shù)依賴OCR。作為核心一環(huán),OCR需要承接巨大流量,其效果及性能影響整個(gè)上層業(yè)務(wù)的用戶體驗(yàn)。

OCR全流程包含檢測、識別等多個(gè)模型以及復(fù)雜的前后處理,整體耗時(shí)10s級別,耗時(shí)過長嚴(yán)重影響用戶體驗(yàn),無法達(dá)到上線要求。主要影響性能的因素有以下三點(diǎn):單個(gè)模型占用顯存過大導(dǎo)致全流程無法部署在同一個(gè)GPU上,需要在多個(gè)GPU上進(jìn)行數(shù)據(jù)傳輸,多GPU部署導(dǎo)致GPU利用率不高;模型本身性能慢,涉及復(fù)雜的檢測和識別模型;全流程中模型前后處理復(fù)雜。

應(yīng)用方案

對比目前性能優(yōu)化方案,夸克選擇了采用NVIDIA TensorRT作為模型優(yōu)化的底層框架對模型進(jìn)行優(yōu)化。TensorRT提供完整端到端模型性能優(yōu)化工具,支持TF和ONNX等相關(guān)框架模型,使用后對模型性能帶來巨大提升。

TensorRT對模型結(jié)構(gòu)進(jìn)行優(yōu)化,使用高效KERNEL實(shí)現(xiàn),并且支持FP16和INT8量化。部分模型通過使用TensorRt后,模型性能有2到3倍的提升,并且顯存降到原來的30%~50%。

有模型在使用FP16精度后,模型效果下降,夸克團(tuán)隊(duì)在NVIDIA的工作人員的指導(dǎo)下,通過對模型設(shè)置混合精度后,模型的性能較FP16稍微下降,但是整體效果也達(dá)到要求。

對于部分轉(zhuǎn)TensorRT失敗的模型,我們對模型進(jìn)行分析,把模型耗時(shí)的部分單獨(dú)抽取出來,單獨(dú)做模型優(yōu)化。

在使用TensorRT的過程中,通過Nsight Systems發(fā)現(xiàn)TensorRT OP在某些場景性能表現(xiàn)不盡人意,最后在NVIDIA工作人員指導(dǎo)下,通過調(diào)整OP的使用方式解決該問題。

使用效果及影響

通過使用NVIDIA TensorRT,夸克瀏覽器極大地提升了模型性能和降低模型本身顯存占用,提高了GPU的使用率。在對整體流程和模型進(jìn)行優(yōu)化后,全部模型能夠部署在單個(gè)GPU上,并且整體耗時(shí)在400ms內(nèi)。

夸克技術(shù)人員表示:TensorRT文檔齊全,功能使用方便,用戶能夠以低門檻使用其帶來的優(yōu)化,無需手動編寫復(fù)雜模型轉(zhuǎn)換工具,大大地減少了用戶投入成本。對比其他模型優(yōu)化框架,TensorRT具有更好的通用性、易用性和性能。

通過這次對OCR全流程的性能優(yōu)化,夸克瀏覽器也積累了一套適合內(nèi)部使用的模型性能優(yōu)化方案,在遇到其他模型性能問題時(shí)也有的放矢。目前夸克已經(jīng)把TensorRT相關(guān)優(yōu)化工具集成到其瀏覽器的內(nèi)部平臺上,同時(shí)應(yīng)用到其他業(yè)務(wù)的模型中,并取得良好的效果。

審核編輯:郭婷

 

下一篇: PLC、DCS、FCS三大控

上一篇: 三星Galaxy S22 Ultra

推薦產(chǎn)品

更多