發(fā)布時間:2025-09-11 來源:金石之堅網作者:May_Ho6Q
給大家介紹一下,這是我家一位練習時長四年半的小狗:
我一直很喜歡這張照片,因為它充分展現(xiàn)了家里所有人對它的嬌寵。
前兩天我拿到了豆包的Seedream4.0的內測碼。
操作流程很簡單:“打開豆包App對話框→點擊【AI 生圖/生視頻】→點擊輸入框→選擇上傳參考圖→輸入文字指令”。
很多人跟我說,這是中國的Nano Banana,尤其在精準指令編輯方面,它經常表現(xiàn)得甚至更加出色。我剛好在整理舊手機的相冊,準備以除舊迎新的積極態(tài)度迎接果年春晚(不一定真買),于是干脆把這張照片扔給了Seedream4.0,并對它說:
“給它戴上好看的華麗的豐富的首飾。”
這個prompt是我瞎想的,細究起來甚至是有點語病的。我想起現(xiàn)在網上到處都是教人寫,像小作文一樣長的Nano Banana的prompt,這樣去折騰內測碼,其實是有點慚愧的。
然后Seedream4.0給我生成了一張毫無違和感的圖。
我立馬就不困了,因為這個照片還原度實在是太高了。
最絕的是,這狗雖然全身是珠寶,但珠寶都不亮,所有的反光都很克制——可以說是完美地還原了北京老破小房間里的黯淡。
可不能就這么委屈了這滿身的珠寶。于是我對Seedream4.0說,“將它置身于一個舞廳里?!?/p>
Seedream4.0不僅選了一個跟珠寶配色很搭的場景環(huán)境色,連珠寶的飽和度和亮度也明顯提高了,首飾的色澤跟隨環(huán)境的變化明顯更鮮艷了,毛發(fā)邊緣的光線散射也發(fā)生了變化,仿佛它真的穿越到了那個舞廳里。
它的還原度如此之高,以至于Seedream4.0簡直變成了一種賽博阿拉丁神燈。
養(yǎng)過狗的人大概都知道,狗狗的表情很豐富,而且有一個完整屬于自己的世界。這件事情的副作用是,鏟屎官抓拍的表情經常是懸浮于環(huán)境和場合的。但有了Seedream4.0的驚艷表現(xiàn),我決定嘗試給不同的小狗表情配上不同的場景。
操作步驟與第一張圖的流程一樣,先換一身衣服,再換背景。這樣prompt的成功率很驚人,只要想好人物與場景的關系,幾乎沒有出現(xiàn)過因為特征扭曲而導致的廢片。
背景替換不是一個今天才有的功能,但Seedream4.0讓人驚艷的有兩點:
第一,它兼具精準指令編輯能力與高度特征保持能力
你不希望它改變的地方,它都能完整保留下來。無論是照片里的水汽,還是毛發(fā)與皮膚的紋路,幾乎都沒有發(fā)生任何一眼可見的變化。
在圖片中,你看不到任何AI油光水滑的油膩感,或者自動加噪引發(fā)的真實感,每一張圖片都是自然的。
第二,在“第一”的基礎上,它呈現(xiàn)了一定的世界觀的能力
比如,在酒店當迎賓員的小狗,陽光角度近似但不同,在脖子上留下的陰影角度也隨之有了細微的變化;叼著煙的牛仔,他的面部溝壑有輕微的加深;在航天飛船里,人的手臂也跟著小狗多出了一截太空服。
這些都不是簡單的環(huán)境色渲染的結果,它們意味著模型已經有了很實打實的對現(xiàn)實理解能力,只是它很克制,但你仔細看就能發(fā)現(xiàn)它無處不在。
為了進一步探索模型對現(xiàn)實的理解和推理能力,我做了更多的嘗試。
這是我從unsplash下載的一張圖,圖里是一塊老式的俄制的老式指針式直流電流表。
我對Seedream4.0說,“將指針移動到右邊。”
說實話我當時有點驚訝,它對“右”的理解很精準。在這張圖里,“右”不是一個橫向水平的正東的朝向,而是在20刻度線偏右一點的位置上,這與人們的日常經驗是完全符合的。
我繼續(xù)試驗了一下文本推理能力,同樣是unsplash上隨機找到的一張訓練圖。
我告訴Seedream4.0,將球衣數(shù)字換成“梅西在美國大聯(lián)盟的球衣號碼”。
Seedream4.0 自己確認了準確地球衣號碼,找到了球衣數(shù)字,再替換了球衣數(shù)字,甚至連球衣上的紋理都做了還原。
我在圖庫里剛好看到一道被故意算錯了的數(shù)學題。
于是我讓seedream4.0將答案修改正確。
從以上圖片編輯的效果來看,Seedream4.0的文字編輯能力是很驚艷的。而在實測中,它甚至可以改變大段的文字。所以,你甚至可以在這個自然語言生成圖像的工具里,直接通過自然語言修改字幕了。
甚至你可以讓Seedream4.0嘗試更高階的玩法,讓它直接翻譯圖片里的中文。它在翻譯過程中,依然能保證畫面和文字的質感是穩(wěn)定不跳脫的,上下的字體也都維持了原來的樣子。
只要你曾經用過AI生圖工具,就會知道這件事情有多夸張。在此之前,只有nano banana算做到了這件事情。
測到這里,我想所有人腦子里都會自然而然地跳出,“這不就是中國的nano banana”。
所以我決定直接測一些nano banana的熱門demo。
比如,將之前的狗狗照片生成“手辦”圖。
還有許多人關注的OOTD(今日穿搭),我想在你們看到這篇測評的時候,OOTD已經被不少同行給玩透了。所以我結合這次的圖片修復功能,為OOTD功能整一些不一樣的花活。
首先,我們請出學神愛因斯坦老師。這是它一張不多見的全身照。
然后我們告訴Seedream將它修復。
我從巴黎世家的官網找到了衣服、褲子和鞋子,于是有了一個跨越時空的穿搭。
可以看到Seedream4.0對整體產品的還原度都是在線的,褲子的做舊細節(jié)和鞋子的紋路都實現(xiàn)了還原。
(不過Seedream對合規(guī)的審核很嚴格,名人穿搭不太容易過審,經常會被ban,大家可以謹慎嘗試)
在文字直接生成圖片方面,Nano Banana 官方前段時間曾開放了六個示例,涉及到了不同的能力側面。我想,谷歌方面試圖從這六個示例,以完整呈現(xiàn)其在不同場景的生圖能力。而且為了輔助用戶上手,Nano Banana 還貼心地給了prompt提示詞和對應的生圖節(jié)奏。
對于一家AI媒體來說,或許很難找到比這六個示例更能直觀展現(xiàn)Seedream4.0和Nano Banana的能力與風格對比了。
因此我將這六個示例的prompt都導入了內容,左邊是Nano Banana,右邊是Seedream4.0。Seedream 4.0有時會生成多張圖,考慮到Nano Banana提供的是官方示例,我也會選擇多張圖中自認為最好的那一張。如果生成水平差不多,我就默認選擇第一張。
示例一
A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.一幅逼真的特寫肖像,描繪了一位年長的日本陶藝家。他臉上布滿深深的、被陽光刻蝕的皺紋,露出溫暖而洞悉一切的笑容。他正仔細端詳一只剛上釉的茶碗。場景設定在他那間質樸、陽光充足的工作室里。柔和的黃金時刻光線透過窗戶灑入,照亮了陶土細膩的紋理。作品由 85 毫米人像鏡頭拍攝,背景呈現(xiàn)柔和的虛化效果(焦外成像)。整體氛圍寧靜而盡顯大師風范。肖像采用豎版構圖。(豆包翻譯)
相比于Nano Banana,Seedream4.0對“85 毫米人像鏡頭”的把控更好,鏡頭虛化效果的還原度更高,面部溝壑更自然。在前文提及的世界觀方面,Seedream4.0的陽光感更好,一看就是夕陽“黃金時刻”的陽光,在房間里光漫射效果也很到位。
總體來說,Nano Banana的AI感更強,屬于一眼AI圖;但Seedream4.0乍一眼,真的會以為是一張照片。
不過豆包似乎對“ freshly glazed ”的理解不太一樣,因此陶瓷的釉面沒有上完。因此,這個示例算平手。
示例二
A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.一張可愛風格的貼紙,上面是一只開心的小熊貓,它戴著一頂小小的竹帽,正在啃一片綠色的竹葉。設計采用鮮明清晰的輪廓、簡單的賽璐珞 shading 技法和鮮艷的色彩搭配。背景必須是白色的。(豆包翻譯)
都很可愛,個人喜歡banana的風格,但Seedream4.0似乎更符合prompt里“vibrant color palette”的設定。
示例三
Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text. The color scheme is black and white.為一家名為 “The Daily Grind” 的咖啡店設計一個現(xiàn)代簡約風格的標志。文字部分采用簡潔、粗體的無襯線字體。設計中需包含一個簡約的、風格化的咖啡豆圖標,與文字無縫融合。配色方案為黑白兩色。(豆包翻譯)
Seedream的設計很不錯,但banana更有巧思,banana勝。
示例四
A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.一張高分辨率的工作室燈光產品照,主體是一只啞光黑色的簡約陶瓷咖啡杯,放置在拋光混凝土表面上。燈光采用三點柔光箱設置,旨在營造柔和、漫射的高光,消除生硬的陰影。拍攝角度為稍高的 45 度角,以展現(xiàn)杯子流暢的線條。畫面超寫實,清晰聚焦于咖啡升起的熱氣。
這個提示詞的難度有點高,Seedream沒有理解三點柔光箱設置。所以我重新強調了,不要讓光源出現(xiàn)在圖片里。
雙方都是高度寫實場景。但seedream4.0都符合了prompt的要求,角度抬高了45°,只是光源最后也沒有處理好。這一題就先放過。
示例五
A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.一幅極簡構圖的作品,一片纖薄的紅色楓葉置于畫面右下角。背景是一片開闊空曠的米白色畫布,形成大片可供添加文字的留白。光線從左上角柔和漫射而來。圖片為正方形構圖。(豆包翻譯)
這張照片我仔細看了原圖,banana的官圖白色畫布也沒有出現(xiàn)“Soft, diffused lighting from the top left.”,在圖中,光線唯一的表現(xiàn)方式其實只有樹葉的陰影。
示例六
A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads"The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape.一幅漫畫單格,采用粗獷的黑色電影藝術風格,以高對比度的黑白墨水繪制。前景中,一名穿風衣的偵探站在一盞閃爍的街燈下,雨水浸濕了他的肩頭。背景里,一家荒涼酒吧的霓虹燈招牌倒映在水洼中。頂部的說明框寫著:“這座城市藏不住秘密?!?光線強烈,營造出戲劇化的陰郁氛圍。畫面為橫版構圖。(豆包翻譯)
雖然在谷歌官方的prompt提示詞示例里,的確是有“l(fā)anscape”和“荒涼酒吧倒影在水中”的要求,但示例卻沒有出現(xiàn)。而且Banana的光源也遠談不上漫畫中“harsh”的要求。
Banana的構圖更幽深,有藝術氣息,像電影的海報;但 Seedream對prompt的還原度更高,像電影里一段劇情開始的第一幀。
整體來看,nano banana 和 Seedream4.0的效果各有千秋。
Nano banana像一個很有自己頭腦的藝術生,它似乎會選擇性地忘記一些指令,來達成一個在它看來可能更美的構圖。但Seedream4.0則會認認真真完成prompt里的所有指令,完成度明顯更好。
而且這還是在英文語境下,豆包的語義理解有可能會吃虧的情況下完成的。更不用說,以上都是谷歌的官圖,而我只是拿內測版自己跑的圖。
在審美方面,Seedream4.0的成像效果明顯更加真實,有時甚至能達到讓人愣一下神,懷疑這究竟是不是AI生成的程度。而Nano banana的性能雖然強大,但依然有一種AI式的精致感,仿佛畫面抹上了一層AI的亮油。
結語
很多人將nano banana稱之為生圖界的ChatGPT3.5時刻。
因為過去模型只能生成一些天馬行空的東西,但由于缺乏一致性,很難凝聚成有效的生產力。用戶花費大量的token,才能撞出幾張有用的,最后生成一堆廢圖,費電費算力。
但Seedream4.0和nano banana這樣生圖模型,做到了精準指令編輯、高度特征保持和深度意圖理解,不僅大大降低了普通用戶使用的門檻,也會極大提升創(chuàng)意人士的使用效率。
你可能也看出來了:相比于生成,我在使用Seedream4.0最快樂的時候永遠是改圖。
因為讓用戶在照片上進行修改,其實永遠更符合人類對空間和視覺的直覺的。
比如,我們想象一個阿拉丁神燈、一個無所謂不能的魔法師,它可以在這個世界里變出任何怪誕驚奇的玩意兒。但我們感受到“驚奇”的前提,首先是我們腳下的世界或者我們眼前的人是穩(wěn)定的。有了一個注意力的錨點,再去添加和改變新的元素,這才會有魔術師的視覺效果。
因此,在生圖領域,Seedream4.0和nano banana絕對是劃時代的產品,肯定會引發(fā)創(chuàng)意行業(yè)的新革命。
而且人與AI的關系也不再是博弈,而是合作。人的創(chuàng)意落地門檻會更低,一個好的想法、一個轉瞬即逝記錄下來的細節(jié),都可以被AI放大成一個作品。
這里唯一的區(qū)別是,從GPT3.5出現(xiàn),到DeepSeek V3,我們花了兩年時間。但從nano banana正式發(fā)布,到Seedream4.0上線,總計只有20天。
而且如前文所述,從許多體驗和生圖效果上,Seedream4.0的體驗其實比nano banana還要完美。
比如,在交互上,Seedream4.0表現(xiàn)得更加用戶友好。
這次官方內測的平臺是豆包。有時用戶輸入一些非常簡單的prompt時,豆包會主動幫助補齊一些要求,比如“保持某某其他元素保持不變”、“保持原比例”;如果你故意輸入一些倒裝句,豆包也會在生圖時將句子改成規(guī)范的表達;如果你用模糊指向的詞語描述prompt,豆包也會在轉述時使用更加準確的表達。
所以在拿豆包與Seedream4.0交互時,會時刻感覺到有一個小助手在邊上,幫你優(yōu)化向模型傳達的指令。用戶不用有任何的“prompt羞恥癥”,擔心自己的prompt不夠好,而導致效果不好——可以說是非?!皏ibe”了。
此外,Seedream4.0在畫面生成的語言遵從能力也更強,也展現(xiàn)了驚人的世界理解與預測能力。
它不會放過一段冗長prompt中的任何一個內容,光線變化一定帶來畫面漫反射與影子的變化,有倒影就一定會出現(xiàn)倒影,提出了光線的方向就一定會呈現(xiàn)。
當 AI 真的可以See Dream了,人與夢也就更近了。
如果Dream是人人都有的,那么人人也都可以成為創(chuàng)意者。
(本文來源:日照新聞網。本網轉發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。對文章事實有疑問,請與有關方核實或與本網聯(lián)系。文章觀點非本網觀點,僅供讀者參考。)