邯鄲2025-09-11 23:02:383553

字節(jié)Seedream 4.0將全量開放！搶先評測來了，我們摸索出20種玩法

機(jī)器之心報(bào)道

編輯：楊文

打開多模態(tài)自由創(chuàng)作的大門。

谷歌 Nano Banana 掀起的全球創(chuàng)作狂歡尚未消退之際，字節(jié)又玩了把大的。

近日，字節(jié)跳動開始內(nèi)測最新的豆包?圖像創(chuàng)作模型 Seedream 4.0。與此前版本相比，Seedream 4.0 首次支持多模態(tài)生圖，同一模型可以實(shí)現(xiàn)文生圖、圖像編輯、組圖生成，并在核心能力上迎來了顯著提升：

主體一致性增強(qiáng)：無論是文本驅(qū)動還是圖像驅(qū)動，都能穩(wěn)健保持主體特征，避免「失真」與「錯位」。

提示詞：將平視視角改為俯視視角，將近景改為中景，并把畫面比例改為 16：9。

多圖靈活創(chuàng)作：支持文本、圖像的多維組合輸入，輕松實(shí)現(xiàn)參考生成、融合生成與編輯。

提示詞：根據(jù)參考圖中兩個男生的形象，生成一組動作片分鏡，原比例。

超高清、超高速直出：最高支持 4K 分辨率輸出，且推理效率大幅優(yōu)化，2K 大分辨率圖像生成用時僅需數(shù)秒。

從更長遠(yuǎn)的技術(shù)發(fā)展視角來看，多模態(tài)自由創(chuàng)作正成為大勢所趨。無論是文本驅(qū)動、圖像驅(qū)動，還是多圖融合，用戶都期待能以更自然、更隨心的方式與 AI 協(xié)作。

Seedream 4.0 內(nèi)測一出，網(wǎng)友們就把它玩出了花。

比如基于多圖融合能力，上傳兩張角色照片，再加上火柴人自拍動作，即可實(shí)現(xiàn)同框合影。

提示詞：將圖1男子和圖2女子合進(jìn)一張畫面，參考圖3姿勢。

或者動動嘴就能給模特一鍵換時尚穿搭：

提示詞：給圖 1 模特穿上圖 2 的穿搭。

我們也在第一時間拿到了內(nèi)測資格。據(jù)機(jī)器之心了解，字節(jié) Seedream 4.0 模型將很快在豆包、即夢全量上線，并通過火山引擎開放給企業(yè)客戶

接下來還是老規(guī)矩，我們親自上手體驗(yàn)一番，看看字節(jié) Seedream 4.0 成色幾何。

一手實(shí)測：多模態(tài)無縫融合釋放創(chuàng)作自由

如今，圖像生成已經(jīng)不再是從文本到畫面的單向創(chuàng)作。用戶需要的也不僅僅是高質(zhì)量的圖像輸出，更是一個能夠在多模態(tài)輸入間靈活切換、在生成與編輯之間無縫銜接的完整創(chuàng)作工具。

無論是單圖參考、多圖組合，還是基于文本與圖像的自由融合，Seedream 4.0 都能在同一模型下完成從生成到編輯的一站式創(chuàng)作，讓用戶在效率與可控性上同時獲得新的自由度。

多圖輸入、輸出

先來試試它的多圖融合能力。

我們上傳了馬斯克、奧特曼這對勁敵的半身照，以及一張手繪自拍動作參考圖，并在提示詞中指定將兩位人物合并到同一畫面，完成一張「世紀(jì)大和解」的自拍照。

模型不僅準(zhǔn)確捕捉了參考姿勢，還能在保證兩位主體身份特征的同時，實(shí)現(xiàn)自然的構(gòu)圖與表情協(xié)調(diào)。不同來源的圖像在風(fēng)格與細(xì)節(jié)上被平滑統(tǒng)一，沒有出現(xiàn)常見的「換臉違和感」或「姿勢錯亂」問題。

提示詞：將圖 1 男子和圖 2 男子合進(jìn)一張畫面，參考圖 3 姿勢

除了多圖輸入，Seedream 4.0 還支持多圖輸出。比如上傳一張情侶正面照，讓它生成一組愛情片分鏡。

Seedream 4.0 能夠在嚴(yán)格遵循人物外觀一致性的基礎(chǔ)上，設(shè)計(jì)出超市購物、雨中撐傘等浪漫場景。這種輸出方式避免了傳統(tǒng)生成模型常見的形象漂移問題，讓用戶得到一整套故事化的圖像。

提示詞：根據(jù)參考圖男生和女生的形象，生成一組愛情片分鏡，原比例，不要改變男生和女生的相貌，不要改變他們的發(fā)型、衣服。

深度意圖理解

在深度意圖理解方面，Seedream 4.0 也展現(xiàn)出強(qiáng)大的場景重建能力。

我們上傳了一張室內(nèi)設(shè)計(jì)的線稿圖，并要求將其改造成真實(shí)場景。模型實(shí)現(xiàn)了細(xì)節(jié)上的高度還原，從沙發(fā)、桌子、臺燈等主要家具，到畫框、綠植等小型裝飾，都能做到幾乎 1:1 的精準(zhǔn)復(fù)刻。

這意味著，Seedream 4.0 并非只是填色或補(bǔ)全，而是真正理解了用戶的意圖，并在此基礎(chǔ)上進(jìn)行合理、完整的空間構(gòu)建，生成結(jié)果真實(shí)，細(xì)節(jié)豐富，整體觀感接近專業(yè)設(shè)計(jì)渲染效果。

提示詞：把這個線稿改成真實(shí)的場景

Seedream 4.0 還能理解抽象符號與圖像元素之間的關(guān)系。比如在一張瘦弱小貓的圖片旁畫上外擴(kuò)箭頭，它就能推理出我們的意圖是讓小貓變胖，最終生成畫面中小貓?bào)w型明顯更加圓潤。

相比于只能依賴文字描述的模型，這種圖文結(jié)合的意圖解析使創(chuàng)作過程更加直觀高效。

提示詞：根據(jù)箭頭方向改變小貓?bào)w型。

此外，上傳一張人物攝影照片，它還能嚴(yán)格遵循文本要求進(jìn)行逆向工程，描繪其創(chuàng)作過程。

提示詞：展示布景搭建的場景，模特坐著滑手機(jī)，身后有一位女性正在幫她整理頭發(fā)，背景里有一名男子站在梯子上掛幕布，幕布后露出攝影棚的環(huán)境。

高度特征保持

以往，圖像編輯模型在細(xì)節(jié)還原和物體特性表現(xiàn)上，常常出現(xiàn)失真或不自然的現(xiàn)象，而此次 Seedream 4.0 提供了更高的穩(wěn)定性與精準(zhǔn)度。

比如將參考圖轉(zhuǎn)化為手辦測試中，Seedream 4.0 不僅遵循了提示詞的多重約束，還能讓角色形象與參考圖保持高度一致，盒子、電腦屏幕、底座等元素布局合理，模型生成的 PVC 透明度與光澤感也更接近實(shí)物效果。

提示詞：把參考圖片轉(zhuǎn)化為一個角色手辦，在手辦背后放置一個印有該角色形象的盒子，并在旁邊的電腦屏幕上顯示 Blender 建模過程，盒子前方放一個圓形塑料底座，角色手辦立在上面，讓 PVC 材質(zhì)看起來清晰透亮，場景盡量設(shè)置在室內(nèi)。

Seedream 4.0 這一功能在商業(yè)化場景中大有作為。

我們上傳了兩只小狗飛奔的圖片和一張白色帆布包的產(chǎn)品照，并輸入提示詞「圖 2 帆布包上印著圖 1 形象」。

模型在處理跨圖像的組合任務(wù)時，能精準(zhǔn)捕捉主體特征、圖像比例，并將其協(xié)調(diào)融入目標(biāo)物體之中，避免了貼圖感。

提示詞：圖 2 帆布包上印著圖 1 形象

我們還可以制作表情包，Seedream 4.0 忠實(shí)還原了仕女的服飾與造型特色，并充分發(fā)揮想象力，生成扮鬼臉、打哈欠、比耶、憤怒等多款生動表情，角色形象和畫風(fēng)均沒有走樣。

提示詞：參考圖片形象生成一組搞怪表情包

精準(zhǔn)指令編輯

對于增刪改替常規(guī)玩法，Seedream 4.0 也有了較大進(jìn)步。

比如讓男生戴上耳機(jī)和墨鏡，并手捧一束花，模型自然完成了三項(xiàng)元素的添加。耳機(jī)、墨鏡與花束都與人物形象高度契合，整體效果真實(shí)自然。

提示詞：讓男生戴上頭戴式耳機(jī)，戴著墨鏡，手捧一束花

或者刪除背景中雜亂的路人，模型不僅把這些無關(guān)元素刪除得干凈利落，還能自然填充背景，畫面銜接流暢，完全看不出 P 圖痕跡。

提示詞：刪除背景中的路人

即使是更為復(fù)雜的任務(wù)，如更換人物發(fā)型，Seedream 4.0 也能在保證面部特征和氣質(zhì)一致性的基礎(chǔ)上，流暢轉(zhuǎn)換發(fā)型，發(fā)絲細(xì)節(jié)豐富，還避免了因局部修改導(dǎo)致的整體失真。

提示詞：將參考圖中的女生發(fā)型分別改為大波浪卷、高馬尾、丸子頭

為了讓大家能玩明白，官方還總結(jié)出了一套提示詞指南。

使用清晰明確的指令通常能實(shí)現(xiàn)更好的編輯效果，常見公式為「變化動作 + 變化對象 + 變化特征」，比如將騎士的頭盔變?yōu)榻鹕?。這里，變化動作指的是需要執(zhí)行的操作，如移除、添加、替換、參考等；變化對象包括主體、背景、光影、色彩等；變化特征則是希望變化后呈現(xiàn)的效果。當(dāng)需要將多張圖片合成一張時，可以通過「一系列」、「組圖」或「幫我生成幾張圖」等提示詞觸發(fā)組圖功能，最多支持生成 9 張圖片。如果需要保持特定角色形象、產(chǎn)品信息或風(fēng)格一致性，可以上傳圖像作為參考。使用精確的風(fēng)格詞或直接輸入圖像作為風(fēng)格參考，有助于獲得更理想的效果。上傳多張參考圖時，明確指出不同圖片需參考或編輯的不同元素，可以提高生成結(jié)果的精準(zhǔn)度。例如：將圖 1 中的角色放入圖 2 的背景中，參考圖 3 的風(fēng)格進(jìn)行生成。

與 Nano Banana 同臺競技

為了更直觀地展現(xiàn)字節(jié) Seedream 4.0 和谷歌 Nano Banana 這兩款模型的差異與優(yōu)勢，我們將其進(jìn)行了多項(xiàng)對比測試。

Round1：生成 OOTD

圖 1 為原圖；圖 2 為 Seedream 4.0；圖 3 為 Nano Banana. 提示詞：請根據(jù)上傳的參考照片，生成一張俯拍平鋪的 OOTD 穿搭圖，服裝、配飾、鞋子需與上傳的參考照片 1:1 復(fù)刻。

從結(jié)果來看，Seedream 4.0 與 Nano Banana 的整體表現(xiàn)都接近預(yù)期，能夠較好地還原出參考造型的整體搭配與構(gòu)圖。

不過在材質(zhì)精準(zhǔn)性與細(xì)節(jié)控制上仍有優(yōu)化空間，Seedream 4.0 生成的毛線馬甲材質(zhì)對不上號，Nano Banana 則是紋理不對，同時在生成的包袋上額外出現(xiàn)了一條肩帶。

Round2: 一鍵換衣

我們又上傳了一張模特照和一張 OOTD 俯拍平鋪圖，并輸入提示詞：Change the outfit with the uploaded one.

圖 1、圖 2 為原圖；圖 3 為 Seedream 4.0 生成效果；圖 4 為 Nano Banana 生成效果。提示詞：Change the outfit with the uploaded one.

這兩款模型都能夠嚴(yán)格遵循提示詞要求，將參考穿搭準(zhǔn)確替換到模特身上，整體效果自然，服裝細(xì)節(jié)和輪廓基本與參考圖一致。

Round3: 漫畫分鏡

漫畫分鏡的生成是對模型理解力與畫面統(tǒng)籌能力的綜合考驗(yàn)。

我們以一張吉卜力風(fēng)格的女孩形象為參考，要求模型延展出兩組治愈系場景。

圖 1 為原圖；圖 2、圖 3 為 Seedream 4.0 生成效果；圖 4、圖 5 為 Nano Banana 生成效果。提示詞：參考這張圖的畫風(fēng)和人物形象，生成一組治愈系漫畫：1. 騎著自行車在山間小路上行駛；2. 穿著透明雨衣，雨衣表面有水珠，右手提著裝滿鮮紅番茄的柳條籃子，行走在泥濘鄉(xiāng)間小路，小路兩側(cè)是繁茂番茄田（紅番茄掛藤，綠葉帶雨），田邊點(diǎn)綴白 / 粉 / 黃 / 藍(lán)野花，細(xì)雨紛飛。

兩者在復(fù)雜分鏡生成方面都已具備成熟能力，Nano Banana 一如既往穩(wěn)定，Seedream 4.0 則在畫面色彩搭配上更加鮮明，整體清晰度也更高。

Round4: 修復(fù)老照片

我們又上傳了一張破損嚴(yán)重的舊照，并要求這倆模型進(jìn)行自動修復(fù)。

圖 1 為原圖；圖 2 為 Seedream 4.0；圖 3 為 Nano Banana。提示詞：Restore this photograph.

它們的處理結(jié)果都達(dá)到了可用水準(zhǔn)，能夠有效去除照片中的裂痕與瑕疵，并在保持原有影像風(fēng)格的前提下，恢復(fù)出較為完整的畫面。

二者實(shí)力幾乎不相上下，Seedream 4.0 的成片更清晰，人物面部輪廓與背景紋理表現(xiàn)得更加銳利； Nano Banana 的顆粒感更強(qiáng)，也更有老照片的味道。

Round5: 中文排版

在涉及中文文本生成與排版的任務(wù)中，Seedream 4.0 能將英文正確替換為中文，書寫感真實(shí)，整體與封面設(shè)計(jì)協(xié)調(diào)一致；而 Nano Banana 在這一任務(wù)中則出現(xiàn)了明顯問題，生成的文字難以辨認(rèn)，呈現(xiàn)出類似「鬼畫符」的效果。

圖 1 為原圖；圖 2 為 Seedream 4.0；圖 3 為 Nano Banana。提示詞：Change the text on the image to"時尚芭莎" in a handwritten style.

綜合這五項(xiàng)測試結(jié)果來看，Seedream 4.0 與 Nano Banana 在圖像生成與編輯的核心能力上都展現(xiàn)了較高水準(zhǔn)，能夠較好地理解復(fù)雜提示詞并生成符合要求的內(nèi)容。

兩相對比，Nano Banana 在多圖融合中主體一致性更穩(wěn)定，而 Seedream 4.0 則在美感、清晰度以及中文排版等方面表現(xiàn)更為突出，尤其在多語言環(huán)境與高精度任務(wù)中展現(xiàn)出明顯優(yōu)勢。

可以預(yù)見，在多模態(tài)與生成式AI 的賽道上，競爭將持續(xù)加速，而用戶也將因此獲得更豐富、更具想象力的創(chuàng)作體驗(yàn)。

邯鄲