字節(jié)Seedream 4.0將全量開放!搶先評測來了,我們摸索出20種玩法
機(jī)器之心報(bào)道
編輯:楊文
打開多模態(tài)自由創(chuàng)作的大門。
谷歌 Nano Banana 掀起的全球創(chuàng)作狂歡尚未消退之際,字節(jié)又玩了把大的。
近日,字節(jié)跳動開始內(nèi)測最新的豆包?圖像創(chuàng)作模型 Seedream 4.0。與此前版本相比,Seedream 4.0 首次支持多模態(tài)生圖,同一模型可以實(shí)現(xiàn)文生圖、圖像編輯、組圖生成,并在核心能力上迎來了顯著提升:
主體一致性增強(qiáng):無論是文本驅(qū)動還是圖像驅(qū)動,都能穩(wěn)健保持主體特征,避免「失真」與「錯位」。
提示詞:將平視視角改為俯視視角,將近景改為中景,并把畫面比例改為 16:9。
多圖靈活創(chuàng)作:支持文本、圖像的多維組合輸入,輕松實(shí)現(xiàn)參考生成、融合生成與編輯。
提示詞:根據(jù)參考圖中兩個男生的形象,生成一組動作片分鏡,原比例。
超高清、超高速直出:最高支持 4K 分辨率輸出,且推理效率大幅優(yōu)化,2K 大分辨率圖像生成用時僅需數(shù)秒。
從更長遠(yuǎn)的技術(shù)發(fā)展視角來看,多模態(tài)自由創(chuàng)作正成為大勢所趨。無論是文本驅(qū)動、圖像驅(qū)動,還是多圖融合,用戶都期待能以更自然、更隨心的方式與 AI 協(xié)作。
Seedream 4.0 內(nèi)測一出,網(wǎng)友們就把它玩出了花。
比如基于多圖融合能力,上傳兩張角色照片,再加上火柴人自拍動作,即可實(shí)現(xiàn)同框合影。
提示詞:將圖1男子和圖2女子合進(jìn)一張畫面,參考圖3姿勢。
或者動動嘴就能給模特一鍵換時尚穿搭:
提示詞:給圖 1 模特穿上圖 2 的穿搭。
我們也在第一時間拿到了內(nèi)測資格。據(jù)機(jī)器之心了解,字節(jié) Seedream 4.0 模型將很快在豆包、即夢全量上線,并通過火山引擎開放給企業(yè)客戶
接下來還是老規(guī)矩,我們親自上手體驗(yàn)一番,看看字節(jié) Seedream 4.0 成色幾何。
一手實(shí)測:多模態(tài)無縫融合釋放創(chuàng)作自由
如今,圖像生成已經(jīng)不再是從文本到畫面的單向創(chuàng)作。用戶需要的也不僅僅是高質(zhì)量的圖像輸出,更是一個能夠在多模態(tài)輸入間靈活切換、在生成與編輯之間無縫銜接的完整創(chuàng)作工具。
無論是單圖參考、多圖組合,還是基于文本與圖像的自由融合,Seedream 4.0 都能在同一模型下完成從生成到編輯的一站式創(chuàng)作,讓用戶在效率與可控性上同時獲得新的自由度。
多圖輸入、輸出
先來試試它的多圖融合能力。
我們上傳了馬斯克、奧特曼這對勁敵的半身照,以及一張手繪自拍動作參考圖,并在提示詞中指定將兩位人物合并到同一畫面,完成一張「世紀(jì)大和解」的自拍照。
模型不僅準(zhǔn)確捕捉了參考姿勢,還能在保證兩位主體身份特征的同時,實(shí)現(xiàn)自然的構(gòu)圖與表情協(xié)調(diào)。不同來源的圖像在風(fēng)格與細(xì)節(jié)上被平滑統(tǒng)一,沒有出現(xiàn)常見的「換臉違和感」或「姿勢錯亂」問題。
提示詞:將圖 1 男子和圖 2 男子合進(jìn)一張畫面,參考圖 3 姿勢
除了多圖輸入,Seedream 4.0 還支持多圖輸出。比如上傳一張情侶正面照,讓它生成一組愛情片分鏡。
Seedream 4.0 能夠在嚴(yán)格遵循人物外觀一致性的基礎(chǔ)上,設(shè)計(jì)出超市購物、雨中撐傘等浪漫場景。這種輸出方式避免了傳統(tǒng)生成模型常見的形象漂移問題,讓用戶得到一整套故事化的圖像。
提示詞:根據(jù)參考圖男生和女生的形象,生成一組愛情片分鏡,原比例,不要改變男生和女生的相貌,不要改變他們的發(fā)型、衣服。
深度意圖理解
在深度意圖理解方面,Seedream 4.0 也展現(xiàn)出強(qiáng)大的場景重建能力。
我們上傳了一張室內(nèi)設(shè)計(jì)的線稿圖,并要求將其改造成真實(shí)場景。模型實(shí)現(xiàn)了細(xì)節(jié)上的高度還原,從沙發(fā)、桌子、臺燈等主要家具,到畫框、綠植等小型裝飾,都能做到幾乎 1:1 的精準(zhǔn)復(fù)刻。
這意味著,Seedream 4.0 并非只是填色或補(bǔ)全,而是真正理解了用戶的意圖,并在此基礎(chǔ)上進(jìn)行合理、完整的空間構(gòu)建,生成結(jié)果真實(shí),細(xì)節(jié)豐富,整體觀感接近專業(yè)設(shè)計(jì)渲染效果。
提示詞:把這個線稿改成真實(shí)的場景
Seedream 4.0 還能理解抽象符號與圖像元素之間的關(guān)系。比如在一張瘦弱小貓的圖片旁畫上外擴(kuò)箭頭,它就能推理出我們的意圖是讓小貓變胖,最終生成畫面中小貓?bào)w型明顯更加圓潤。
相比于只能依賴文字描述的模型,這種圖文結(jié)合的意圖解析使創(chuàng)作過程更加直觀高效。
提示詞:根據(jù)箭頭方向改變小貓?bào)w型。
此外,上傳一張人物攝影照片,它還能嚴(yán)格遵循文本要求進(jìn)行逆向工程,描繪其創(chuàng)作過程。
提示詞:展示布景搭建的場景,模特坐著滑手機(jī),身后有一位女性正在幫她整理頭發(fā),背景里有一名男子站在梯子上掛幕布,幕布后露出攝影棚的環(huán)境。
高度特征保持
以往,圖像編輯模型在細(xì)節(jié)還原和物體特性表現(xiàn)上,常常出現(xiàn)失真或不自然的現(xiàn)象,而此次 Seedream 4.0 提供了更高的穩(wěn)定性與精準(zhǔn)度。
比如將參考圖轉(zhuǎn)化為手辦測試中,Seedream 4.0 不僅遵循了提示詞的多重約束,還能讓角色形象與參考圖保持高度一致,盒子、電腦屏幕、底座等元素布局合理,模型生成的 PVC 透明度與光澤感也更接近實(shí)物效果。
提示詞:把參考圖片轉(zhuǎn)化為一個角色手辦,在手辦背后放置一個印有該角色形象的盒子,并在旁邊的電腦屏幕上顯示 Blender 建模過程,盒子前方放一個圓形塑料底座,角色手辦立在上面,讓 PVC 材質(zhì)看起來清晰透亮,場景盡量設(shè)置在室內(nèi)。
Seedream 4.0 這一功能在商業(yè)化場景中大有作為。
我們上傳了兩只小狗飛奔的圖片和一張白色帆布包的產(chǎn)品照,并輸入提示詞「圖 2 帆布包上印著圖 1 形象」。
模型在處理跨圖像的組合任務(wù)時,能精準(zhǔn)捕捉主體特征、圖像比例,并將其協(xié)調(diào)融入目標(biāo)物體之中,避免了貼圖感。
提示詞:圖 2 帆布包上印著圖 1 形象
我們還可以制作表情包,Seedream 4.0 忠實(shí)還原了仕女的服飾與造型特色,并充分發(fā)揮想象力,生成扮鬼臉、打哈欠、比耶、憤怒等多款生動表情,角色形象和畫風(fēng)均沒有走樣。
提示詞:參考圖片形象生成一組搞怪表情包
精準(zhǔn)指令編輯
對于增刪改替常規(guī)玩法,Seedream 4.0 也有了較大進(jìn)步。
比如讓男生戴上耳機(jī)和墨鏡,并手捧一束花,模型自然完成了三項(xiàng)元素的添加。耳機(jī)、墨鏡與花束都與人物形象高度契合,整體效果真實(shí)自然。
提示詞:讓男生戴上頭戴式耳機(jī),戴著墨鏡,手捧一束花
或者刪除背景中雜亂的路人,模型不僅把這些無關(guān)元素刪除得干凈利落,還能自然填充背景,畫面銜接流暢,完全看不出 P 圖痕跡。
提示詞:刪除背景中的路人
即使是更為復(fù)雜的任務(wù),如更換人物發(fā)型,Seedream 4.0 也能在保證面部特征和氣質(zhì)一致性的基礎(chǔ)上,流暢轉(zhuǎn)換發(fā)型,發(fā)絲細(xì)節(jié)豐富,還避免了因局部修改導(dǎo)致的整體失真。
提示詞:將參考圖中的女生發(fā)型分別改為大波浪卷、高馬尾、丸子頭
為了讓大家能玩明白,官方還總結(jié)出了一套提示詞指南。
使用清晰明確的指令通常能實(shí)現(xiàn)更好的編輯效果,常見公式為「變化動作 + 變化對象 + 變化特征」,比如將騎士的頭盔變?yōu)榻鹕?。這里,變化動作指的是需要執(zhí)行的操作,如移除、添加、替換、參考等;變化對象包括主體、背景、光影、色彩等;變化特征則是希望變化后呈現(xiàn)的效果。當(dāng)需要將多張圖片合成一張時,可以通過「一系列」、「組圖」或「幫我生成幾張圖」等提示詞觸發(fā)組圖功能,最多支持生成 9 張圖片。如果需要保持特定角色形象、產(chǎn)品信息或風(fēng)格一致性,可以上傳圖像作為參考。使用精確的風(fēng)格詞或直接輸入圖像作為風(fēng)格參考,有助于獲得更理想的效果。上傳多張參考圖時,明確指出不同圖片需參考或編輯的不同元素,可以提高生成結(jié)果的精準(zhǔn)度。例如:將圖 1 中的角色放入圖 2 的背景中,參考圖 3 的風(fēng)格進(jìn)行生成。
與 Nano Banana 同臺競技
為了更直觀地展現(xiàn)字節(jié) Seedream 4.0 和谷歌 Nano Banana 這兩款模型的差異與優(yōu)勢,我們將其進(jìn)行了多項(xiàng)對比測試。
Round1:生成 OOTD
圖 1 為原圖;圖 2 為 Seedream 4.0;圖 3 為 Nano Banana. 提示詞:請根據(jù)上傳的參考照片,生成一張俯拍平鋪的 OOTD 穿搭圖,服裝、配飾、鞋子需與上傳的參考照片 1:1 復(fù)刻。
從結(jié)果來看,Seedream 4.0 與 Nano Banana 的整體表現(xiàn)都接近預(yù)期,能夠較好地還原出參考造型的整體搭配與構(gòu)圖。
不過在材質(zhì)精準(zhǔn)性與細(xì)節(jié)控制上仍有優(yōu)化空間,Seedream 4.0 生成的毛線馬甲材質(zhì)對不上號,Nano Banana 則是紋理不對,同時在生成的包袋上額外出現(xiàn)了一條肩帶。
Round2: 一鍵換衣
我們又上傳了一張模特照和一張 OOTD 俯拍平鋪圖,并輸入提示詞:Change the outfit with the uploaded one.
圖 1、圖 2 為原圖;圖 3 為 Seedream 4.0 生成效果;圖 4 為 Nano Banana 生成效果。提示詞:Change the outfit with the uploaded one.
這兩款模型都能夠嚴(yán)格遵循提示詞要求,將參考穿搭準(zhǔn)確替換到模特身上,整體效果自然,服裝細(xì)節(jié)和輪廓基本與參考圖一致。
Round3: 漫畫分鏡
漫畫分鏡的生成是對模型理解力與畫面統(tǒng)籌能力的綜合考驗(yàn)。
我們以一張吉卜力風(fēng)格的女孩形象為參考,要求模型延展出兩組治愈系場景。
圖 1 為原圖;圖 2、圖 3 為 Seedream 4.0 生成效果;圖 4、圖 5 為 Nano Banana 生成效果。提示詞:參考這張圖的畫風(fēng)和人物形象,生成一組治愈系漫畫:1. 騎著自行車在山間小路上行駛;2. 穿著透明雨衣,雨衣表面有水珠,右手提著裝滿鮮紅番茄的柳條籃子,行走在泥濘鄉(xiāng)間小路,小路兩側(cè)是繁茂番茄田(紅番茄掛藤,綠葉帶雨),田邊點(diǎn)綴白 / 粉 / 黃 / 藍(lán)野花,細(xì)雨紛飛。
兩者在復(fù)雜分鏡生成方面都已具備成熟能力,Nano Banana 一如既往穩(wěn)定,Seedream 4.0 則在畫面色彩搭配上更加鮮明,整體清晰度也更高。
Round4: 修復(fù)老照片
我們又上傳了一張破損嚴(yán)重的舊照,并要求這倆模型進(jìn)行自動修復(fù)。
圖 1 為原圖;圖 2 為 Seedream 4.0;圖 3 為 Nano Banana。提示詞:Restore this photograph.
它們的處理結(jié)果都達(dá)到了可用水準(zhǔn),能夠有效去除照片中的裂痕與瑕疵,并在保持原有影像風(fēng)格的前提下,恢復(fù)出較為完整的畫面。
二者實(shí)力幾乎不相上下,Seedream 4.0 的成片更清晰,人物面部輪廓與背景紋理表現(xiàn)得更加銳利; Nano Banana 的顆粒感更強(qiáng),也更有老照片的味道。
Round5: 中文排版
在涉及中文文本生成與排版的任務(wù)中,Seedream 4.0 能將英文正確替換為中文,書寫感真實(shí),整體與封面設(shè)計(jì)協(xié)調(diào)一致;而 Nano Banana 在這一任務(wù)中則出現(xiàn)了明顯問題,生成的文字難以辨認(rèn),呈現(xiàn)出類似「鬼畫符」的效果。
圖 1 為原圖;圖 2 為 Seedream 4.0;圖 3 為 Nano Banana。提示詞:Change the text on the image to"時尚芭莎" in a handwritten style.
綜合這五項(xiàng)測試結(jié)果來看,Seedream 4.0 與 Nano Banana 在圖像生成與編輯的核心能力上都展現(xiàn)了較高水準(zhǔn),能夠較好地理解復(fù)雜提示詞并生成符合要求的內(nèi)容。
兩相對比,Nano Banana 在多圖融合中主體一致性更穩(wěn)定,而 Seedream 4.0 則在美感、清晰度以及中文排版等方面表現(xiàn)更為突出,尤其在多語言環(huán)境與高精度任務(wù)中展現(xiàn)出明顯優(yōu)勢。
可以預(yù)見,在多模態(tài)與生成式AI 的賽道上,競爭將持續(xù)加速,而用戶也將因此獲得更豐富、更具想象力的創(chuàng)作體驗(yàn)。