無界AI | 差評？玩過無界版圖AI 的“SD 2.0模型”，誰還會沉迷澀圖？

今年8月，Stable Diffusion（以下簡稱“SD”）問世。

秉承“大開源”的精神和宗旨，

SD開放了核心 AI 演算法模型（Latent）、核心訓練資料集（LAION）、 AI 生成圖片的版權（CC0），改變了開源AI模型的本質。

不僅在短短兩個月時間內讓其背後公司實體一躍成為市值高達十幾億美金的獨角獸，更吸引了全球數百萬乃至上千萬人積極參與其生態的建設，在世界各地催生了成千上萬的其他模型和創新。

目前 SD 生態由公司實體 StabilityAI 和 RunwayML 共同領銜推進。與此同時一些第三方社群力量也舉足輕重，諸如 SD webui 專案、眾多二次元改進專案、可用於訓練 SD 新模型的 dreambooth 生態、可用於精準控制 SD 畫面輸出的交叉注意力技術方向等等。

這場如火如荼的“去中心化運動”，也引爆了海內外的創業與投資熱潮，掀起了一場文字到影象模型領域的新革命。SD因此成為了最快達到10K Github star星數的專案之一，在不到兩個月的時間裡飆升至33K星，在Github上的一眾專案中可堪封神。

但在11月底，SD再次向世界宣告：神話才剛剛開始——SD 2。0版本上線。

Stable Diffusion 2.0-功能革新

與1。0版本相比，Stable Diffusion 2。0提供了許多重大改進和功能，概括為“質量的極大進化”，包括：

1、可以生成預設解析度為512x512畫素和768x768畫素的影象；

2、生成影象的解析度提高了4倍；

3、擴充套件了1。0版本的影象到影象功能，為創意應用提供了全新的可能性；

4、可智慧快速地切換影象的各個部分。

另外，官方特別提到，這次他們過濾掉了訓練資料集裡一些不可描述的內容。

影象生成質量提升

SD 2。0版本使用了一種全

新的文字編碼器OpenCLIP訓練的魯棒文生圖模型

，該模型由 LAION 在Stability AI 公司的支援下開發，與早期的 V1版本相比，它極大地提高了生成影象的質量——本版本中的文生圖模型可以生成預設

解析度為512x512畫素和768x768畫素的影象

。

這些模型是在Stability AI下面的DeepFloyd團隊建立的LAION-5B資料集的美學子集上所訓練的。

LAION-5B是一個包含58。5億個CLIP過濾影象文字對的資料集，比LAION-400M大14倍，曾是世界上最大的可公開訪問的影象文字資料集。

Stable Diffusion 2。0以768x768影象解析度生成的影象示例，來源網路

訓練完成後，就使用LAION的NSFW過濾器進一步過濾，刪掉「成人內容」。

這對於很多網友來說，堪稱是「史詩級削弱」了……

超解析度Upscaler擴散模型

言歸正傳，Stable Diffusion 2。0還包括一個高階Diffusion模型——Upscaler Diffusion模型，可以

將影象解析度提高4倍。

左圖：128x128 低解析度影象。右圖：Upscaler 生成的 512x512 解析度影象

有了Upscaler Diffusion的加持，Stable Diffusion 2。0與以前的文字到影象模型結合使用時，

可以生成解析度為2048×2048或更高的影象。

depth2img深度影象擴散模型

與此同時，團隊採用了一種新的深度引導（depth-guided）穩定擴散模型——depth2img。它

擴充套件了 V1版本中的影象到影象特性，為創造性應用提供了全新的可能性

。

透過使用現有模型，Depth2img能夠推斷輸入影象的深度資訊，然後使用文字和深度資訊生成新影象。

左邊的輸入影象可以生成右邊幾個新影象。新模型可用於保持影象結構的影象生成影象和形狀條件影象合成（shape-conditional image synthesis）。

Depth-to-Image

Depth-to-Image

可以提供各種新的創造性應用

，提供與原始影象截然不同的轉換，但仍然保持影象的連貫性和深度資訊：

Depth-to-Image保持連貫性

更新文字引導修復擴散模型

除此之外，SD官方的這次更新，還

引入了一個新的文字引導(text-guided)修復模型

，在SD 2。0文字到影象的基礎上進行了微整，能夠很容易快速實現替換一個影象的一部分。

更新後的修復模型在 Stable Diffusion 2。0 文字到影象模型上進行了微調

體驗“差評”

在國外社交媒體上，不少網友卻對SD的本次更新給出了「差評」，理由自然是「模型生成NSFW內容和圖片的能力被削弱了」。（注：NSFW的全稱是「Not Suitable For Work」，簡單講就是一些不適合上班時間瀏覽的內容~）

就像前文說的，這次模型的關鍵元件功能被改進，使得Stable Diffusion更難生成某些引起爭議和批評的影象了，

比如廣受歡迎的裸體和色情內容、名人的逼真照片以及模仿特定藝術家作品的影象

。

有使用者表示：「他們切除並『閹割』了模特。沒有藝術，沒有人體的自然美，沒有畫家和攝影師最好的作品中描繪的生死戲劇，這比醜陋本身還要糟糕。」

但在國內，如果SD早點出過濾，某些友商或許就不用再擔心因為澀圖被舉報了……

無界版圖AI-SD2.0模型效果

在公佈SD2。0版本的部落格中，Stability AI團隊的總結非常激動人心：“Stable Diffusion第一代釋出以來，我們一直在努力最佳化模型，以執行在單一GPU上-希望讓儘可能多的人可以使用。我們已經看到，

當數以百萬計的人使用這些模型，他們共同創造了一些真正驚人的東西。這就是開源的力量

：挖掘數百萬人才的巨大潛力，這些人可能沒有資源訓練一個最先進的模型，但他們有能力用一個模型做一些不可思議的事情。

這個新版本，連同其強大的新特性，如 depth2img 和更高解析度等升級功能，將成為無數應用程式的基礎，並能夠激發新的創造潛力。”

帶著沸騰的熱血，基於SD 等模型基礎上最佳化的無界版圖AI，也在上週率先上線了SD 2。0版本的畫面型別。

經過本土化的改進，無界版圖AI的SD 2.0畫面型別，比官方模型解析度更高，風格也更加精緻。

新的時代，已經來臨。

無界版圖AI-SD 2.0模型：人像成圖

某種意義上來說，人像繪製一直是檢驗AI程式或者說模型的一個標杆，人像的完美程度代表了程式可以達到的真實度有多高。

所以這一次，我們根據無界版圖特聘講師穿行者老師的思路——以追求真實性的人像繪製，來感受無界版圖AI-SD 2。0模型的顛覆。

無界版圖AI：通用模型基礎班（解析度2048*2048，下同）

無界版圖AI：通用模型SD2。0版

圖所用的

描述詞

是一致的：portrait of a female， natural light， cinematic light， 4k， Photo realistic， volumetric lighting， global dynamic lighting， artgerm， High Detail， bokeh（detailed face and eyes：1。3），（perfect eyes：1。1），contacts， iris，fullbody，think dresses，skindentation，shampoo，conditioner，short skirts，trending on artstation。

呈像的效果也顯而易見：使用基礎通用模型生成的影象，雖然畫面中的許多細節都已經非常逼真了，但

最大的問題是表現非常不穩定，比如第三張的光影。

而使用了SD 2。0的畫面型別之後，

圖片真實度更強，面板的真實度相當逼真，光線堪比大片海報。

接下來我們將

拋開上述描述詞當中類似面板眼睛、瞳孔、頭髮等引數

，完全重新開始介紹一下如何用最簡單的關鍵詞生成完美人像：

1、描述詞： Close up studio portrait，film，detail，studio lighting

無界版圖AI：通用模型SD2。0版

可以看出，每一張的細節都相當逼真，

真實展現了面板、眼睛、毛髮的細節，沒有過度柔化的效果

。

值得一提的是，或許是因為描述詞有些抽象，基礎通用模型對於“portrait”的理解能力不足，成圖有些詭異，也側面印證了SD2。0版本強大的理解力。

2、描述詞： Close up studio portrait of an old chinesegrandpa，film，detail，studio lighting

無界版圖AI：通用模型基礎版

無界版圖AI：通用模型SD2。0版

注意老年人下垂的眼袋、凹陷的面頰、萎縮的面板……儘管面構圖依然不夠穩定，但相比於使用基礎版通用模型繪製出的效果，

無論是五官比例還是真實度，都有明顯變化。

同時，無界版圖AI-SD 2。0也繼承並優化了官方SD 2。0模型對負面提示語理解能力的強化，因此負面提示語成為了改善出圖質量的一個必須引數。

所以我們增加簡單的幾個負面提示，如“disfigured，blurry，sadness”。構成新的描述詞：Close up studio portrait of an old chinesegrandpa，film，detail，studio lighting，disfigured，blurry，sadness ：

無界版圖AI：通用模型SD2。0版

無界版圖AI-SD 2.0模型：其他型別圖片

除了在人像繪製方面顛覆性的改變，無界版圖AI-SD 2。0模型在其他各方面也有顯著的更新。接下來，我們將以其生成圖與原有的各類模型作一些不完整對比：

1、擬人動物

通用模型SD 2。0版

通用模型增強版

描述詞

：可愛的小白兔在中式古堡裡裝扮成女皇，穿華麗漢服，Jean-Baptiste Monge，柔和的電影燈光，8k，複雜的細節，肖像，皮克斯風格的角色，老式電影風格

SD 2.0版本中，兔子頭部的比例以及耳朵都非常真實

，但兩者最明顯的差異還是在於

背景

。SD 2。0版完全理解了“在中式古堡裡裝扮成女皇”，而通用模型增強版則將其理解成了“裝扮成中式古堡裡的皇帝”，忽略了“背景元素”的同時，也模糊了“性別”。

2、自然風景

通用模型SD 2。0版

二次元模型增強版

描述詞

：green sky like angel wings ，sparkling lake stars ， shiny ， real high - definition ， super wide-angle panorama ， super high-definition ，8k lifelike ， high pixel ， crack ， Marc Adamus landscape photography ， high-definition ， HD

兩個版本都將“green sky like angel wings”的重點放在了星空。但

SD 2.0版的成圖，整體使用了描述詞中“green”的色調

；而二次元模型增強版的成圖，就顯得隨意了許多。

另外，或許是因為描述詞比較複雜，二次元模型增強版的成圖中並沒有體現出“lake”，並以“燈海”來代替了“

sparkling lake stars

”，而這些在

通用模型SD 2.0版中都有所體現

。

3、人文建築

最後我們來看一下無界版圖AI通用模基礎版、增強版、SD 2。0版本的不同效果。三者在風格上有明顯的差異，也各有其強項：