新智元報道
編輯:傾傾
【新智元導(dǎo)讀】幾十G的大模型,怎么可能塞進一臺手機?YouTube卻做到了:在 Shorts 相機里,AI能實時「重繪」你的臉,讓你一秒變身僵尸、卡通人物,甚至瞬間擁有水光肌,效果自然到分不清真假。
在youtube Shorts相機里,每個人都能「千變?nèi)f化」。
可以是卡通角色、萬圣節(jié)僵尸,甚至能立刻擁有粉色水光肌,效果自然又流暢。
最神奇的是,這些特效是直接在手機上實時生成的。
那么問題來了:YouTube是怎么把十幾個G的大模型,塞進手機里的?
大模型塞進手機:YouTube的「瘦身術(shù)」
生成式AI模型的效果確實經(jīng)驗,但卻有個致命問題:太大、太慢。
像StyleGAN、Imagen這類模型,只有在服務(wù)器上才能跑動。
因此必須要解決的問題,就是讓濾鏡在手機相機里即時生效。
瘦身關(guān)鍵:知識蒸餾
YouTube的思路,是把龐大的生成模型「瘦身」,變成一個專門為移動端設(shè)計的小模型。 這個過程靠的是一套叫知識蒸餾的方法。 簡單說,就是「老師–學(xué)生模式」。
大模型先當老師,生成各種示范;小模型則是學(xué)生,一點點模仿,直到學(xué)會獨立完成任務(wù)。
老師是動輒幾十G的龐然大物,學(xué)生則是輕巧的UNet+MobileNet架構(gòu),能在手機GPU上輕松跑到30幀。
不過,真正的教學(xué)過程遠比想象中復(fù)雜。
打磨細節(jié):迭代蒸餾
工程師們不是「一次教完」,而是采用迭代式蒸餾。
大模型不只是給學(xué)生出題,還會在過程中不斷測試:給人臉戴上眼鏡、加上遮擋,甚至模擬手擋臉的場景。
學(xué)生在學(xué)習(xí)時,也不是簡單照搬,而是要同時滿足多種標準:畫面數(shù)值對得上、看上去相似、自然不突兀,還得兼顧美感。
整個過程就像是反復(fù)刷題:學(xué)生交卷,老師挑毛病,再調(diào)整參數(shù)繼續(xù)練。
YouTube 的蒸餾流程:大模型先生成前后對照的圖像對,小模型在此基礎(chǔ)上不斷學(xué)習(xí),并通過超參數(shù)搜索迭代優(yōu)化,最終實現(xiàn)如「永不眨眼」這樣的實時特效。
工程師們甚至用上了神經(jīng)架構(gòu)搜索,自動幫學(xué)生找到最合適的「學(xué)習(xí)內(nèi)容」,讓它既高效又穩(wěn)定。
經(jīng)過一輪輪打磨,小模型終于真正掌握了大模型的本事。
在Pixel 8 Pro上,只需6毫秒就能完成一幀運算,iPhone 13大約10 毫秒,完全滿足實時30幀的要求。
怎么保證還是你:PTI做擔保
生成式AI在做特效時有個通?。核粫谠瓐D上疊加效果,而是會重新生成整張人臉。
結(jié)果往往是膚色變了,眼鏡沒了,甚至五官都會變形,看上去完全不像本人。
這就是「inversion problem」——當模型把人臉轉(zhuǎn)到潛在空間時,沒能忠實還原身份特征。
YouTube想到的解決方案是Pivotal Tuning Inversion (PTI)。
可以把它理解為:在加特效之前,先讓AI學(xué)會精準地「認清你是誰」。
原始圖像會先被壓縮成一個潛在向量,生成器用它畫出一張初步的臉,但往往細節(jié)不到位。
于是工程師讓生成器反復(fù)微調(diào),讓膚色、眼鏡和五官逐漸被校正回來。
等身份被牢牢固定之后,再往里面加風(fēng)格向量:比如笑容、卡通效果或者妝容。
最后生成的畫面,看上去就是「還是你,只是換了個風(fēng)格」。
圖:PTI的完整流程:從輸入人臉,到生成初始inversion,再經(jīng)過多輪微調(diào),最后在保留身份特征的前提下疊加特效,得到最終圖像。
換句話說,PTI保證了這些AI特效更像化妝,而不是換臉。
手機里的流水線工廠:MediaPipe加速管道
訓(xùn)練出輕量級的小模型只是第一步,真正的挑戰(zhàn)是如何穩(wěn)定地在手機上運行。
為此,YouTube選擇了MediaPipe——Google AI Edge的開源多模態(tài)ML框架,用它來搭建端側(cè)的完整推理管道。
整個流程可以分成四步:
首先,通過MediaPipe的Face Mesh模塊,識別出視頻流中的一個或多個人臉。
接著,由于學(xué)生模型對人臉位置很敏感,系統(tǒng)會把檢測到的臉進行穩(wěn)定裁剪和旋轉(zhuǎn)對齊,保證輸入一致。
之后,裁剪后的圖像被轉(zhuǎn)成張量輸入學(xué)生模型,特效(比如微笑、卡通風(fēng)格)在這一環(huán)節(jié)實時生成。
最后,模型輸出的人臉圖像再被無縫拼回到原始視頻幀中,讓用戶看到連貫自然的最終畫面。
圖:MediaPipe在端側(cè)的完整推理流程:先檢測人臉并穩(wěn)定對齊,再送入學(xué)生模型生成特效,最后拼回視頻幀,整個過程在毫秒級內(nèi)完成。
通過GPU加速,Pixel 8 Pro上的推理延遲被壓縮到約6毫秒/幀,iPhone 13 GPU約10.6毫秒/幀。
對用戶來說,就是打開相機就能體驗到順滑的AI特效。
不只是美顏:YouTube的實時AI秀場
這套技術(shù)已經(jīng)在YouTube Shorts上全面鋪開,創(chuàng)作者們能直接用上幾十種實時特效。
想要時刻掛著微笑?用Always Smile,哪怕你本人此刻面無表情,鏡頭里也會立刻咧嘴笑開。
想玩點驚悚?萬圣節(jié)專屬的Risen Zombie,分分鐘把你變成剛爬出來的喪尸。
這些濾鏡已經(jīng)讓Shorts里的創(chuàng)作方式發(fā)生了質(zhì)變:不是貼圖,而是AI量身繪制。
但這只是開始。
YouTube正在測試用Veo模型,可以把一張靜態(tài)圖片生成完整的視頻片段。
用戶只需要一張自拍或者一幅手繪,就能在手機上變成一段動態(tài)短片。
這意味著,未來的YouTube Shorts不只是拍視頻加濾鏡,而是隨手一張圖,就能生成一條視頻。
創(chuàng)作者的門檻會進一步降低,AI會更深地嵌入每個人的創(chuàng)作過程。
從實時濾鏡到一鍵生成短片,YouTube正把AI變成創(chuàng)作者的隨身畫筆。
參考資料:
https://research.google/blog/from-massive-models-to-mobile-magic-the-tech-behind-youtube-real-time-generative-ai-effects/