亚洲欧美国产日韩天堂区,国产一区二区高清,免费一级A爱片久久毛片

　MMDiT 架構(gòu)是 Stable Diffusion 3 背后的關(guān)鍵技術(shù)之一。相比傳統(tǒng)的單一模態(tài)處理方法，MMDiT 架構(gòu)能夠更好地處理文本和圖像之間的關(guān)系，從而實(shí)現(xiàn)更準(zhǔn)確、更高質(zhì)量的圖像生成。
　　圖｜模型架構(gòu)。
　　這一架構(gòu)采用了獨(dú)立的權(quán)重集合來處理圖像和語言表示，這意味著對于文本和圖像兩種不同的輸入模態(tài)，MMDiT 分別使用不同的權(quán)重參數(shù)來進(jìn)行編碼和處理，以此能夠更好地捕捉每種模態(tài)的特征和信息。
　　在 MMDiT 架構(gòu)中，文本和圖像的表示分別通過預(yù)訓(xùn)練模型進(jìn)行編碼。具體地說，MMDiT 采用了三種不同的文本嵌入器（兩個(gè) CLIP 模型和 T5 模型），以及一個(gè)改進(jìn)的自動編碼模型來編碼圖像 token。這些編碼器能夠?qū)⑽谋竞蛨D像輸入轉(zhuǎn)換為模型可以理解和處理的格式，為后續(xù)的圖像生成過程提供了基礎(chǔ)。
　　圖｜T5 對于復(fù)雜提示非常重要，例如，涉及高度細(xì)節(jié)或較長的拼寫文本（第 2 行和第 3 行）。然而，對于大多數(shù)提示，在推理時(shí)刪除 T5 仍然可以達(dá)到具有競爭力的性能。
　　在模型結(jié)構(gòu)上，MMDiT 架構(gòu)建立在 Diffusion Transformer（DiT）的基礎(chǔ)上。由于文本和圖像的表示在概念上有所不同，MMDiT 使用了兩組獨(dú)立的權(quán)重參數(shù)來處理這兩種模態(tài)。這樣一來，模型能夠在文本和圖像的表示空間中分別進(jìn)行操作，同時(shí)又能夠考慮到彼此之間的關(guān)聯(lián)關(guān)系，從而實(shí)現(xiàn)更好的信息傳遞和整合。
　　性能碾壓其他文生圖模型
　　liblib通過與其他文本到圖像生成模型進(jìn)行性能比較，Stable Diffusion 3 展現(xiàn)出了明顯的優(yōu)勢。在視覺美感、文本遵循和排版等方面，Stable Diffusion 3 都能夠超越包括 DALL·E 3、Midjourney v6 和 Ideogram v1 在內(nèi)的最先進(jìn)系統(tǒng)。
　　這一優(yōu)勢主要?dú)w功于 MMDiT 架構(gòu)對圖像和文本表示的獨(dú)立處理，使得模型能夠更好地理解和表達(dá)文本提示，并生成與之匹配的高質(zhì)量圖像。通過人類評估者提供的例子輸出進(jìn)行比較，Stable Diffusion 3 在視覺美感方面與其他模型相比表現(xiàn)出色。評估者被要求根據(jù)圖像的美觀程度選擇最佳結(jié)果。結(jié)果顯示，Stable Diffusion 3 在生成的圖像美觀度方面優(yōu)于其他模型。
　　圖｜這是一幅異想天開、富有創(chuàng)意的圖像，描繪了一種混合了華夫餅和河馬的生物。這種富有想象力的生物有著河馬獨(dú)特的、笨重的身體，但它的外觀卻像一塊金棕色的脆皮華夫餅。該生物的皮膚上有華夫餅，還有糖漿般的光澤。這設(shè)置在一個(gè)超現(xiàn)實(shí)的環(huán)境中，有趣地結(jié)合了河馬的自然水域棲息地和早餐餐桌，包括超大的餐具或盤子作為背景。圖像喚起一種有趣的荒誕感和烹飪幻想。
　　評估者根據(jù)模型輸出與所給提示的一致性來評價(jià)模型的文本遵循能力。從測試結(jié)果來看，Stable Diffusion 3 在文本遵循方面表現(xiàn)優(yōu)異，能夠更準(zhǔn)確地根據(jù)提示生成相應(yīng)的圖像內(nèi)容。
　　排版指的是模型生成的圖像中文本的布局、格式和外觀。根據(jù)評估者的選擇，Stable Diffusion 3 在排版方面也表現(xiàn)出色，能夠更好地呈現(xiàn)出給定提示中的文本信息，使生成的圖像更具可讀性和吸引力。
　　另外，在不同硬件設(shè)備上的性能表現(xiàn)方面，Stable Diffusion 3 也展現(xiàn)出了出色的靈活性。
　　例如，在 RTX 4090 等設(shè)備上，最大模型（8B 參數(shù)）在進(jìn)行圖像生成時(shí)，可以在 34 秒內(nèi)生成一幅分辨率為 1024x1024 的圖像，而且還能夠在初期預(yù)覽階段提供多種參數(shù)模型選擇，從 800m 到 8B 參數(shù)的模型規(guī)模，以進(jìn)一步消除硬件方面的限制。
　　在消費(fèi)者級硬件上，Stable Diffusion 3 依然可以有較快的推斷速度，并且資源利用率高。
　　此外，該技術(shù)提供了多種模型規(guī)模選擇，以滿足不同用戶和應(yīng)用場景下的需求，增強(qiáng)了其可擴(kuò)展性和適用性。

MMDiT架構(gòu)：Stable Diffusion 3背后的關(guān)鍵技術(shù)

關(guān)于我們

新聞中心

服務(wù)項(xiàng)目

工程案例

7*24小時(shí)服務(wù)熱線