“小應用”背後的“大改變”愛奇藝賦能流媒體播放服務

熱門視頻裡,“彈幕蓋臉”幾乎是必然事件,然而有一個地方看視頻,你會發現密密麻麻的彈幕都繞開主角飄過,這個地方就是愛奇藝。

“小應用”背後的“大改變”愛奇藝賦能流媒體播放服務

對於大家觀看視頻時喜聞樂見的彈幕,愛奇藝提供了蒙版彈幕服務,可以讓用戶實現“彈幕穿人過,愛豆心中坐”。那麼,如此用心的“小應用”背後究竟是如何實現的呢?讓我們一探究竟。

人工智能需要豐富的計算資源

隨著人工智能技術在愛奇藝業務線的廣泛應用,人工智能算法在雲端的部署對包括CPU與GPU在內的各種計算資源的需求也在飛速增長。提高人工智能算法部署效率,讓人工智能發揮真正的生產力,幫助業務團隊快速落地應用和更好的服務,是愛奇藝技術產品團隊共同努力的目標。

大量的人工智能算法訓練及推理服務需求,會使雲端GPU資源經常處於短缺狀態;使用CPU進行的推理服務往往由於性能的原因而無法滿足服務指標和業務需求。

在此背景下,愛奇藝嘗試進行基於CPU的人工智能推理服務加速和優化,通過提升推理服務在CPU上的性能,完成部分服務從GPU到CPU的遷移,可以充分利用CPU服務器資源,同時節省GPU計算資源,提升用戶體驗。

愛奇藝基於英特爾OpenVINO工具包(主要用於將計算機圖形和人工智能中的神經網絡技術整合到前沿的視覺應用中),從計算機視覺的角度與AI結合,領先應用落地流媒體,並且已在愛奇藝完成數十個應用的CPU優化,基於CPU進行人工智能服務的優化和部署,數千核CPU服務的部署,等量節省一百多個GPU資源,可提升CPU上人工智能服務性能最高可達到10倍以上,降低深度學習雲平臺超過50%成本,提高視頻行業競爭力。

優化的重要性

據愛奇藝高級總監吳傑珂介紹,愛奇藝在CPU上進行深度學習推理服務優化的方法,可以分為系統級、應用級、算法級,每一級也有對應的性能分析工具:

系統級優化主要從硬件和平臺的角度進行計算加速,方法主要包括基於擴展指令集的SIMD加速、基於OMP的數學庫並行計算加速、以及硬件廠商提供的深度學習加速SDK等方法;

應用級優化主要從特定應用和服務的角度進行流水和併發的優化。通常的深度學習服務不僅僅包含推理,還有數據的預處理、後處理,網絡的請求響應等環節,良好的併發設計可以有效的提升服務端到端的性能;

算法級優化主要針對深度學習模型本身,利用諸如超參數設置、網絡結構裁剪、量化等方法來減小模型大小和計算量,從而加速推理過程。

線上的實時業務、以及按需的及時生產,這些大量的需求只有在優化後才能得到滿足。以蒙版彈幕為例,目前這個AI服務已經有不少劇目在試運行了,但如果片源發生變化,就需要重新生產。能及時生產,就能及時更新,但這個“及時更新”意味著大量的AI模型推理需求。

蒙版彈幕是通過機器視覺分析出劇集中主要角色的輪廓,並讓彈幕繞過人物,可以讓觀者的體驗更好,其核心是圖像語義分割,用OpenVINO優化之後,推理處理能力大約能有3~4倍的提升,這樣生產能力就得到了大幅提高,更新的頻率就可以更快,能更加及時地為用戶提供有蒙版彈幕功能的劇目,愛奇藝高級總監劉俊暉說道。

不僅如此,愛奇藝的另一個用心“小應用”也是利用CPU資源來實現的,那就是AI雷達。AI雷達這個服務是從TV端開始上線的,用戶可隨時在劇集中開啟,通過智能識別可以識TA、識物、識音樂,用戶還能即時掃碼解鎖產品信息並可實現購買行為等。AI雷達剛開始時調用量就還不錯,隨著用戶使用量的增加,峰值服務調用量陸續增加到了3倍。由於AI雷達是實時請求的服務,需要讓TV用戶快速得到反饋結果,所以需要按全量部署資源。

“小應用”背後的“大改變”愛奇藝賦能流媒體播放服務

如果服務部署在GPU平臺上,協調大量的GPU資源用於滿足峰值服務調用會產生很大的浪費,因為這些GPU的利用率在非峰值期間會很低,且GPU板卡價格很高。對比的話,CPU則相對容易進行負載平衡調度,價格也比GPU低許多。

唯一的問題就是沒有優化的服務在CPU上的延時性能沒法滿足需求。在使用了英特爾的OpenVINO進行優化之後,AI雷達服務中最核心的人臉檢測模型和人臉識別模型,延時性能上可以有大約6~8倍的提升,使得AI雷達部署在CPU上成為可能。

強強聯合 愛奇藝賦能流媒體播放服務

在合作方面,愛奇藝與英特爾的合作從一開始就是比較深入的,合作過程中不斷更進一步。英特爾在人工智能領域提供了許多硬件加速方案,有CPU、FPGA、Movidius等多種,而愛奇藝與英特爾的合作目前已經覆蓋所有這些硬件加速方案。

首先,以推理最常使用的CPU方案為例,為了更好地利用最新CPU的特性,愛奇藝會以最快的速度引入英特爾最新的Cascade Lake CPU,該平臺支持的VNNI指令集,可以專門對視頻推理實現加速服務,期望會比原來有更大的性能提高,使得更多類型的模型可以跑在CPU上面。另外,愛奇藝也正在評估傲騰的存儲功能,希望大幅降低存儲類型應用的成本。

其次,異構資源合作擴展到了FPGA。愛奇藝在使用CPU加速人工智能推理服務後不久,便開始評估在英特爾的FPGA上加速人工智能推理服務,現在已經有一些模型在英特爾FPGA上跑起來了。

寫在最後,目前,愛奇藝已完成開發的多種性能自動化評估工具、以及延時與吞吐最優部署自動化評估工具,也大幅提升了對不同人工智能算法加速與優化的開發效率。同時愛奇藝技術產品團隊在服務的彈性和優化調度、部署參數的自動優化選取等方面,也完成了許多優化工作。後續會繼續深入優化,以充分發揮雲平臺的計算資源和能力,加速人工智能推理服務的在業務上的落地,從而賦能流媒體播放服務提升用戶體驗。

相關推薦

推薦中...