MMDiT 架構(gòu)是 Stable Diffusion 3 背后的關(guān)鍵技術(shù)之一。相比傳統(tǒng)的單一模態(tài)處理方法,MMDiT 架構(gòu)能夠更好地處理文本和圖像之間的關(guān)系,從而實(shí)現(xiàn)更準(zhǔn)確、更高質(zhì)量的圖像生成。
圖|模型架構(gòu)。
這一架構(gòu)采用了獨(dú)立的權(quán)重集合來處理圖像和語言表示,這意味著對于文本和圖像兩種不同的輸入模態(tài),MMDiT 分別使用不同的權(quán)重參數(shù)來進(jìn)行編碼和處理,以此能夠更好地捕捉每種模態(tài)的特征和信息。
在 MMDiT 架構(gòu)中,文本和圖像的表示分別通過預(yù)訓(xùn)練模型進(jìn)行編碼。具體地說,MMDiT 采用了三種不同的文本嵌入器(兩個(gè) CLIP 模型和 T5 模型),以及一個(gè)改進(jìn)的自動編碼模型來編碼圖像 token。這些編碼器能夠?qū)⑽谋竞蛨D像輸入轉(zhuǎn)換為模型可以理解和處理的格式,為后續(xù)的圖像生成過程提供了基礎(chǔ)。
圖|T5 對于復(fù)雜提示非常重要,例如,涉及高度細(xì)節(jié)或較長的拼寫文本(第 2 行和第 3 行)。然而,對于大多數(shù)提示,在推理時(shí)刪除 T5 仍然可以達(dá)到具有競爭力的性能。
在模型結(jié)構(gòu)上,MMDiT 架構(gòu)建立在 Diffusion Transformer(DiT)的基礎(chǔ)上。由于文本和圖像的表示在概念上有所不同,MMDiT 使用了兩組獨(dú)立的權(quán)重參數(shù)來處理這兩種模態(tài)。這樣一來,模型能夠在文本和圖像的表示空間中分別進(jìn)行操作,同時(shí)又能夠考慮到彼此之間的關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)更好的信息傳遞和整合。
性能碾壓其他文生圖模型
liblib通過與其他文本到圖像生成模型進(jìn)行性能比較,Stable Diffusion 3 展現(xiàn)出了明顯的優(yōu)勢。在視覺美感、文本遵循和排版等方面,Stable Diffusion 3 都能夠超越包括 DALL·E 3、Midjourney v6 和 Ideogram v1 在內(nèi)的最先進(jìn)系統(tǒng)。
這一優(yōu)勢主要?dú)w功于 MMDiT 架構(gòu)對圖像和文本表示的獨(dú)立處理,使得模型能夠更好地理解和表達(dá)文本提示,并生成與之匹配的高質(zhì)量圖像。通過人類評估者提供的例子輸出進(jìn)行比較,Stable Diffusion 3 在視覺美感方面與其他模型相比表現(xiàn)出色。評估者被要求根據(jù)圖像的美觀程度選擇最佳結(jié)果。結(jié)果顯示,Stable Diffusion 3 在生成的圖像美觀度方面優(yōu)于其他模型。
圖|這是一幅異想天開、富有創(chuàng)意的圖像,描繪了一種混合了華夫餅和河馬的生物。這種富有想象力的生物有著河馬獨(dú)特的、笨重的身體,但它的外觀卻像一塊金棕色的脆皮華夫餅。該生物的皮膚上有華夫餅,還有糖漿般的光澤。這設(shè)置在一個(gè)超現(xiàn)實(shí)的環(huán)境中,有趣地結(jié)合了河馬的自然水域棲息地和早餐餐桌,包括超大的餐具或盤子作為背景。圖像喚起一種有趣的荒誕感和烹飪幻想。
評估者根據(jù)模型輸出與所給提示的一致性來評價(jià)模型的文本遵循能力。從測試結(jié)果來看,Stable Diffusion 3 在文本遵循方面表現(xiàn)優(yōu)異,能夠更準(zhǔn)確地根據(jù)提示生成相應(yīng)的圖像內(nèi)容。
排版指的是模型生成的圖像中文本的布局、格式和外觀。根據(jù)評估者的選擇,Stable Diffusion 3 在排版方面也表現(xiàn)出色,能夠更好地呈現(xiàn)出給定提示中的文本信息,使生成的圖像更具可讀性和吸引力。
另外,在不同硬件設(shè)備上的性能表現(xiàn)方面,Stable Diffusion 3 也展現(xiàn)出了出色的靈活性。
例如,在 RTX 4090 等設(shè)備上,最大模型(8B 參數(shù))在進(jìn)行圖像生成時(shí),可以在 34 秒內(nèi)生成一幅分辨率為 1024x1024 的圖像,而且還能夠在初期預(yù)覽階段提供多種參數(shù)模型選擇,從 800m 到 8B 參數(shù)的模型規(guī)模,以進(jìn)一步消除硬件方面的限制。
在消費(fèi)者級硬件上,Stable Diffusion 3 依然可以有較快的推斷速度,并且資源利用率高。
此外,該技術(shù)提供了多種模型規(guī)模選擇,以滿足不同用戶和應(yīng)用場景下的需求,增強(qiáng)了其可擴(kuò)展性和適用性。