點(diǎn)擊右上角微信好友
朋友圈
請(qǐng)使用瀏覽器分享功能進(jìn)行分享
新智元報(bào)道
編輯:傾傾
【新智元導(dǎo)讀】幾十G的大模型,怎么可能塞進(jìn)一臺(tái)手機(jī)?YouTube卻做到了:在 Shorts 相機(jī)里,AI能實(shí)時(shí)「重繪」你的臉,讓你一秒變身僵尸、卡通人物,甚至瞬間擁有水光肌,效果自然到分不清真假。
在youtube Shorts相機(jī)里,每個(gè)人都能「千變?nèi)f化」。
可以是卡通角色、萬(wàn)圣節(jié)僵尸,甚至能立刻擁有粉色水光肌,效果自然又流暢。
最神奇的是,這些特效是直接在手機(jī)上實(shí)時(shí)生成的。
那么問(wèn)題來(lái)了:YouTube是怎么把十幾個(gè)G的大模型,塞進(jìn)手機(jī)里的?
大模型塞進(jìn)手機(jī):YouTube的「瘦身術(shù)」
生成式AI模型的效果確實(shí)經(jīng)驗(yàn),但卻有個(gè)致命問(wèn)題:太大、太慢。
像StyleGAN、Imagen這類(lèi)模型,只有在服務(wù)器上才能跑動(dòng)。
因此必須要解決的問(wèn)題,就是讓濾鏡在手機(jī)相機(jī)里即時(shí)生效。
瘦身關(guān)鍵:知識(shí)蒸餾
YouTube的思路,是把龐大的生成模型「瘦身」,變成一個(gè)專(zhuān)門(mén)為移動(dòng)端設(shè)計(jì)的小模型。 這個(gè)過(guò)程靠的是一套叫知識(shí)蒸餾的方法。 簡(jiǎn)單說(shuō),就是「老師–學(xué)生模式」。
大模型先當(dāng)老師,生成各種示范;小模型則是學(xué)生,一點(diǎn)點(diǎn)模仿,直到學(xué)會(huì)獨(dú)立完成任務(wù)。
老師是動(dòng)輒幾十G的龐然大物,學(xué)生則是輕巧的UNet+MobileNet架構(gòu),能在手機(jī)GPU上輕松跑到30幀。
不過(guò),真正的教學(xué)過(guò)程遠(yuǎn)比想象中復(fù)雜。
打磨細(xì)節(jié):迭代蒸餾
工程師們不是「一次教完」,而是采用迭代式蒸餾。
大模型不只是給學(xué)生出題,還會(huì)在過(guò)程中不斷測(cè)試:給人臉戴上眼鏡、加上遮擋,甚至模擬手擋臉的場(chǎng)景。
學(xué)生在學(xué)習(xí)時(shí),也不是簡(jiǎn)單照搬,而是要同時(shí)滿(mǎn)足多種標(biāo)準(zhǔn):畫(huà)面數(shù)值對(duì)得上、看上去相似、自然不突兀,還得兼顧美感。
整個(gè)過(guò)程就像是反復(fù)刷題:學(xué)生交卷,老師挑毛病,再調(diào)整參數(shù)繼續(xù)練。
YouTube 的蒸餾流程:大模型先生成前后對(duì)照的圖像對(duì),小模型在此基礎(chǔ)上不斷學(xué)習(xí),并通過(guò)超參數(shù)搜索迭代優(yōu)化,最終實(shí)現(xiàn)如「永不眨眼」這樣的實(shí)時(shí)特效。
工程師們甚至用上了神經(jīng)架構(gòu)搜索,自動(dòng)幫學(xué)生找到最合適的「學(xué)習(xí)內(nèi)容」,讓它既高效又穩(wěn)定。
經(jīng)過(guò)一輪輪打磨,小模型終于真正掌握了大模型的本事。
在Pixel 8 Pro上,只需6毫秒就能完成一幀運(yùn)算,iPhone 13大約10 毫秒,完全滿(mǎn)足實(shí)時(shí)30幀的要求。
怎么保證還是你:PTI做擔(dān)保
生成式AI在做特效時(shí)有個(gè)通病:它不會(huì)在原圖上疊加效果,而是會(huì)重新生成整張人臉。
結(jié)果往往是膚色變了,眼鏡沒(méi)了,甚至五官都會(huì)變形,看上去完全不像本人。
這就是「inversion problem」——當(dāng)模型把人臉轉(zhuǎn)到潛在空間時(shí),沒(méi)能忠實(shí)還原身份特征。
YouTube想到的解決方案是Pivotal Tuning Inversion (PTI)。
可以把它理解為:在加特效之前,先讓AI學(xué)會(huì)精準(zhǔn)地「認(rèn)清你是誰(shuí)」。
原始圖像會(huì)先被壓縮成一個(gè)潛在向量,生成器用它畫(huà)出一張初步的臉,但往往細(xì)節(jié)不到位。
于是工程師讓生成器反復(fù)微調(diào),讓膚色、眼鏡和五官逐漸被校正回來(lái)。
等身份被牢牢固定之后,再往里面加風(fēng)格向量:比如笑容、卡通效果或者妝容。
最后生成的畫(huà)面,看上去就是「還是你,只是換了個(gè)風(fēng)格」。
圖:PTI的完整流程:從輸入人臉,到生成初始inversion,再經(jīng)過(guò)多輪微調(diào),最后在保留身份特征的前提下疊加特效,得到最終圖像。
換句話(huà)說(shuō),PTI保證了這些AI特效更像化妝,而不是換臉。
手機(jī)里的流水線(xiàn)工廠(chǎng):MediaPipe加速管道
訓(xùn)練出輕量級(jí)的小模型只是第一步,真正的挑戰(zhàn)是如何穩(wěn)定地在手機(jī)上運(yùn)行。
為此,YouTube選擇了MediaPipe——Google AI Edge的開(kāi)源多模態(tài)ML框架,用它來(lái)搭建端側(cè)的完整推理管道。
整個(gè)流程可以分成四步:
首先,通過(guò)MediaPipe的Face Mesh模塊,識(shí)別出視頻流中的一個(gè)或多個(gè)人臉。
接著,由于學(xué)生模型對(duì)人臉位置很敏感,系統(tǒng)會(huì)把檢測(cè)到的臉進(jìn)行穩(wěn)定裁剪和旋轉(zhuǎn)對(duì)齊,保證輸入一致。
之后,裁剪后的圖像被轉(zhuǎn)成張量輸入學(xué)生模型,特效(比如微笑、卡通風(fēng)格)在這一環(huán)節(jié)實(shí)時(shí)生成。
最后,模型輸出的人臉圖像再被無(wú)縫拼回到原始視頻幀中,讓用戶(hù)看到連貫自然的最終畫(huà)面。
圖:MediaPipe在端側(cè)的完整推理流程:先檢測(cè)人臉并穩(wěn)定對(duì)齊,再送入學(xué)生模型生成特效,最后拼回視頻幀,整個(gè)過(guò)程在毫秒級(jí)內(nèi)完成。
通過(guò)GPU加速,Pixel 8 Pro上的推理延遲被壓縮到約6毫秒/幀,iPhone 13 GPU約10.6毫秒/幀。
對(duì)用戶(hù)來(lái)說(shuō),就是打開(kāi)相機(jī)就能體驗(yàn)到順滑的AI特效。
不只是美顏:YouTube的實(shí)時(shí)AI秀場(chǎng)
這套技術(shù)已經(jīng)在YouTube Shorts上全面鋪開(kāi),創(chuàng)作者們能直接用上幾十種實(shí)時(shí)特效。
想要時(shí)刻掛著微笑?用Always Smile,哪怕你本人此刻面無(wú)表情,鏡頭里也會(huì)立刻咧嘴笑開(kāi)。
想玩點(diǎn)驚悚?萬(wàn)圣節(jié)專(zhuān)屬的Risen Zombie,分分鐘把你變成剛爬出來(lái)的喪尸。
這些濾鏡已經(jīng)讓Shorts里的創(chuàng)作方式發(fā)生了質(zhì)變:不是貼圖,而是AI量身繪制。
但這只是開(kāi)始。
YouTube正在測(cè)試用Veo模型,可以把一張靜態(tài)圖片生成完整的視頻片段。
用戶(hù)只需要一張自拍或者一幅手繪,就能在手機(jī)上變成一段動(dòng)態(tài)短片。
這意味著,未來(lái)的YouTube Shorts不只是拍視頻加濾鏡,而是隨手一張圖,就能生成一條視頻。
創(chuàng)作者的門(mén)檻會(huì)進(jìn)一步降低,AI會(huì)更深地嵌入每個(gè)人的創(chuàng)作過(guò)程。
從實(shí)時(shí)濾鏡到一鍵生成短片,YouTube正把AI變成創(chuàng)作者的隨身畫(huà)筆。
參考資料:
https://research.google/blog/from-massive-models-to-mobile-magic-the-tech-behind-youtube-real-time-generative-ai-effects/