AI 圖像生成工具能否重新想像並生成更高解析度的老舊電玩遊戲畫面?過去幾天,我利用 AI 圖像生成技術重現了我童年的一個夢魘。我與 Stable Diffusion、DALL-E 和 Midjourney 這些商業 AI 生成工具搏鬥,看看它們如何協助我重新講述一個古老的視覺故事——一款老遊戲(MSX 上的《Nemesis 2》)的開場動畫。這篇文章將描述這個過程,以及我使用這些模型/服務以更高畫質圖像重述故事的經驗。## 認識 Dr. Venom這位看起來很不錯的先生是電玩遊戲中的反派角色。Dr. Venom 出現在 1987 年電玩遊戲《Nemesis 2》的開場動畫中。這張圖片特別是在動畫中一個戲劇性的揭露時刻出現。讓我們用視覺生成式 AI 工具更新這些畫面,看看它們的比較,以及各自的成功與失敗之處。## 用 AI 圖像生成重製老舊電腦繪圖以下是原始動畫(左欄)和 AI 工具生成的最終畫面(右欄)的並排比較:這張圖沒有顯示最終的 Dr. Venom 圖像,因為我希望你能在適當的背景和音樂下,像我一樣親身體驗它。你可以在這裡觀看:### 第一幕原始圖像最終圖像是由 Stable Diffusion 使用 Dream Studio 生成的。然而,要生成這張圖像,需要生成超過 30 張圖片並不斷調整提示詞。我會使用的第一種提示詞是這樣的:> 戰鬥機在紅色星球上空飛行,黑色天空中佈滿星星這會讓 DALL-E 生成這些候選圖像:DALL-E 提示詞:戰鬥機在紅色星球上空飛行,黑色天空中佈滿星星將類似的提示詞貼到 Dream Studio 中,會生成這些候選圖像:Stable Diffusion 提示詞:戰鬥機在紅色星球上空飛行,黑色天空中佈滿星星這展示了當前批次圖像生成模型的一個現實。你的提示詞僅描述圖像的主題是不夠的。你的圖像創建提示詞/咒語需要提及精確的「神秘關鍵字」,以引導模型走向特定的風格。### 在 Lexica 上搜尋提示詞目前的解決方案是,要麼瀏覽提示詞指南並學習過去人們成功使用的風格,要麼搜尋像 Lexica 這樣的圖庫,其中包含數百萬個範例及其相應的提示詞。我選擇後者,因為學習適用於特定模型特定版本的神秘關鍵字並非長遠之計。從這裡,我找到一張我喜歡的圖片,並用我的主題編輯它,同時保留提示詞的風格部分,所以最終它看起來像這樣:> 戰鬥機在紅色星球上空飛行,身後噴射著火焰,黑色天空中佈滿星星,熔岩,蘇聯,蘇維埃,就像一艘逼真的科幻太空船!!!漂浮在太空中,廣角藝術照,復古科幻,逼真太空,數位藝術,Artstation 熱門,對稱!!!戲劇性燈光。## MidjourneyMidjourney 的結果總是特別出色。我嘗試了只包含主題的原始提示詞。結果令人驚嘆。雖然這些看起來令人難以置信,但它們捕捉原始圖像精髓的能力不如 Stable Diffusion。不過這讓我確信,接下來的故事部分可以優先嘗試 Midjourney。我大約有八張圖片要生成,而且時間有限,需要為每張圖片獲得一個不錯的結果。## 第二幕原始圖像:最終圖像:Midjourney 提示詞:一個可怕的綠皮膚禿頭男子,紅眼睛,穿著帶肩釘的紅色外套,從牢房的鐵窗後看著,黑色背景,戲劇性的綠色燈光,逼真肖像 --ar 3:2### 失敗的嘗試雖然 Midjourney 可以近似 Dr. Venom 的外觀,但很難捕捉到他的姿勢和被束縛的狀態。我嘗試的結果看起來像這樣:Midjourney 提示詞:一個可怕的綠皮膚禿頭男子,紅眼睛,穿著紅色外套,戴著手銬,被鐵鍊纏繞,黑色背景,戲劇性的綠色燈光,肖像這就是為什麼我將圖像調整為讓他出現在鐵窗後面。## 第三幕原始圖像:最終圖像:Midjourney 提示詞:一艘棱角分明、醜陋的綠色太空船在紅色星球上空軌道運行,黑色天空中,戲劇性,遠景 --ar 3:2為了指示模型生成寬幅圖像,`--ar 3:2` 命令指定了所需的長寬比。## 第四幕原始圖像:最終圖像:Midjourney 提示詞:巨大的先進太空戰鬥機示意圖藍圖,黑色背景,不同橫截面和視角,藍色條紋和紅色導彈,星際戰鬥機,vic viper gradius --ar 3:2Midjourney 確實捕捉了許多戰鬥機示意圖的酷炫元素。文字可能沒有意義,但如果你追求某種外星風格,這反而可能對你有利。在這種工作流程中,很難在未來的畫面中重現同一架飛機。最近更先進的方法,如文本反轉(textual inversion)或 photobooth,可能會有幫助,但目前它們比文字轉圖像服務更難使用。## 第五幕原始圖像:最終圖像:Midjourney 提示詞:矩形星圖 --ar 3:2這張圖片展示了當前批次 AI 圖像工具的局限性:1. 在圖像中正確重現文字仍未廣泛可用(儘管技術上可行,如 Google 的 Imagen 所示)。2. 如果你需要特定元素的位置或操作,文字轉圖像並不是最佳典範。因此,為了獲得這張最終圖像,我不得不將星星圖像導入 Photoshop,然後在那裡添加文字和線條。## 第六幕原始圖像:我未能重現這張圖片中最具標誌性的部分——三隻眼睛。無論我嘗試了哪些提示詞,模型都無法生成這種外觀。然後我嘗試在 Dream Studio 中使用局部繪圖(in-painting)。局部繪圖指示模型僅為圖像的一部分生成圖像,在這種情況下,它是我在 Dream Studio 中用畫筆刪除的部分。我無法及時獲得好的結果。儘管查看圖庫,模型確實能夠生成涉及眼睛的可怕圖像。## 第七幕原始圖像:候選生成圖像:Midjourney 提示詞:vic viper 太空戰鬥機在發射平台上,正面視圖,寬翼,黑色背景,藍色高光,紅色導彈 --ar 3:2## 第八幕原始圖像:候選生成圖像:Midjourney 提示詞:太空飛行員 Mr. James Burton 的黑色眼睛特寫,透過白色頭盔的面罩凝視,藍色燈光,玻璃上反射著星星 --ar 3:2這張圖片提供了一個很好的機會,可以嘗試 DALL-E 的擴展繪圖(outpainting)工具來擴展畫布並用內容填充周圍空間。## 使用 DALL-E 擴展繪圖擴展畫布假設我們決定使用這張圖片作為飛船的船長我們可以將其上傳到 DALL-E 的擴展繪圖編輯器,並在多次生成中繼續擴展圖像周圍的圖像(同時考慮圖像的一部分以保持連續性)。擴展繪圖的工作流程與文字轉圖像不同,因為提示詞必須更改以描述你在圖像每個部分正在創作的部分。## 我目前對商業 AI 圖像生成工具的印象自從絕大多數人開始廣泛接觸 AI 圖像生成工具以來,已經過去了幾個月。這裡的主要里程碑是 Stable Diffusion 的開源發布(儘管有些人之前已經可以使用 DALL-E,而像 OpenAI GLIDE 這樣的模型也已公開可用,但速度較慢且能力較弱)。在此期間,我使用了其中三種圖像生成服務。### Stability AI 的 Dream StudioStable Diffusion v2.1 提示詞:兩名太空人在巨大廢棄太空船黑暗、洞穴般的內部探索,數位藝術,霓虹藍光,黃色水晶文物這是我過去幾個月使用最多的工具。#### 優點* 他們開發了 Stable Diffusion 並提供其託管版本——這是一個主要的便利和工作流程改進。* 他們提供 API,因此模型可以透過程式存取。這是擴展功能和構建使用圖像生成組件的更先進系統的關鍵點。* 作為 Stable Diffusion 的開發者,預計他們將繼續率先提供即將推出版本的託管版本,這些版本預計會不斷改進。* Stable Diffusion 開源是他們的另一個重要優勢。託管模型可以用作原型設計的基礎(或某些用例的生產工具),但你知道,如果你的用例需要微調自己的模型,你可以回到開源版本。* 目前最好的使用者介面,選項最多(但不會像某些開源使用者介面那樣令人不知所措)。它擁有你需要調整的關鍵滑桿,你可以選擇生成多少個候選圖像。他們很快就為局部繪圖等高級功能添加了使用者介面組件。#### 缺點* Dream Studio 仍然沒有