久久思re热9一区二区三区,白丝美女被操黄色视频国产免费,久久精品天然东京热欧美自拍嘿咻内射在线观看人人超碰97CAOPOREN国产,人妻少妇被猛烈进入中文字幕,久久中文字幕永久第一页女人被添荫蒂舒服极了视频小说,人妻AⅤ日韩精品一,无码爆乳护士让我爽,亚洲天堂2019女人天堂

合肥重質(zhì)環(huán)境技術(shù)服務(wù)有限責(zé)任公司歡迎您!
合肥重環(huán)境技術(shù)服務(wù)有限責(zé)任公司
7*24小時(shí)服務(wù)熱線:
15345695816
社區(qū)分類
主題搜索

MMDiT架構(gòu):Stable Diffusion 3背后的關(guān)鍵技術(shù)

heshaoyu555  2024-08-23 09:42  32  0

 MMDiT 架構(gòu)是 Stable Diffusion 3 背后的關(guān)鍵技術(shù)之一。相比傳統(tǒng)的單一模態(tài)處理方法,MMDiT 架構(gòu)能夠更好地處理文本和圖像之間的關(guān)系,從而實(shí)現(xiàn)更準(zhǔn)確、更高質(zhì)量的圖像生成。
  圖|模型架構(gòu)。
  這一架構(gòu)采用了獨(dú)立的權(quán)重集合來處理圖像和語言表示,這意味著對于文本和圖像兩種不同的輸入模態(tài),MMDiT 分別使用不同的權(quán)重參數(shù)來進(jìn)行編碼和處理,以此能夠更好地捕捉每種模態(tài)的特征和信息。
  在 MMDiT 架構(gòu)中,文本和圖像的表示分別通過預(yù)訓(xùn)練模型進(jìn)行編碼。具體地說,MMDiT 采用了三種不同的文本嵌入器(兩個(gè) CLIP 模型和 T5 模型),以及一個(gè)改進(jìn)的自動編碼模型來編碼圖像 token。這些編碼器能夠?qū)⑽谋竞蛨D像輸入轉(zhuǎn)換為模型可以理解和處理的格式,為后續(xù)的圖像生成過程提供了基礎(chǔ)。
  圖|T5 對于復(fù)雜提示非常重要,例如,涉及高度細(xì)節(jié)或較長的拼寫文本(第 2 行和第 3 行)。然而,對于大多數(shù)提示,在推理時(shí)刪除 T5 仍然可以達(dá)到具有競爭力的性能。
  在模型結(jié)構(gòu)上,MMDiT 架構(gòu)建立在 Diffusion Transformer(DiT)的基礎(chǔ)上。由于文本和圖像的表示在概念上有所不同,MMDiT 使用了兩組獨(dú)立的權(quán)重參數(shù)來處理這兩種模態(tài)。這樣一來,模型能夠在文本和圖像的表示空間中分別進(jìn)行操作,同時(shí)又能夠考慮到彼此之間的關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)更好的信息傳遞和整合。
  性能碾壓其他文生圖模型
  liblib通過與其他文本到圖像生成模型進(jìn)行性能比較,Stable Diffusion 3 展現(xiàn)出了明顯的優(yōu)勢。在視覺美感、文本遵循和排版等方面,Stable Diffusion 3 都能夠超越包括 DALL·E 3、Midjourney v6 和 Ideogram v1 在內(nèi)的最先進(jìn)系統(tǒng)。
  這一優(yōu)勢主要?dú)w功于 MMDiT 架構(gòu)對圖像和文本表示的獨(dú)立處理,使得模型能夠更好地理解和表達(dá)文本提示,并生成與之匹配的高質(zhì)量圖像。通過人類評估者提供的例子輸出進(jìn)行比較,Stable Diffusion 3 在視覺美感方面與其他模型相比表現(xiàn)出色。評估者被要求根據(jù)圖像的美觀程度選擇最佳結(jié)果。結(jié)果顯示,Stable Diffusion 3 在生成的圖像美觀度方面優(yōu)于其他模型。
  圖|這是一幅異想天開、富有創(chuàng)意的圖像,描繪了一種混合了華夫餅和河馬的生物。這種富有想象力的生物有著河馬獨(dú)特的、笨重的身體,但它的外觀卻像一塊金棕色的脆皮華夫餅。該生物的皮膚上有華夫餅,還有糖漿般的光澤。這設(shè)置在一個(gè)超現(xiàn)實(shí)的環(huán)境中,有趣地結(jié)合了河馬的自然水域棲息地和早餐餐桌,包括超大的餐具或盤子作為背景。圖像喚起一種有趣的荒誕感和烹飪幻想。
  評估者根據(jù)模型輸出與所給提示的一致性來評價(jià)模型的文本遵循能力。從測試結(jié)果來看,Stable Diffusion 3 在文本遵循方面表現(xiàn)優(yōu)異,能夠更準(zhǔn)確地根據(jù)提示生成相應(yīng)的圖像內(nèi)容。
  排版指的是模型生成的圖像中文本的布局、格式和外觀。根據(jù)評估者的選擇,Stable Diffusion 3 在排版方面也表現(xiàn)出色,能夠更好地呈現(xiàn)出給定提示中的文本信息,使生成的圖像更具可讀性和吸引力。
  另外,在不同硬件設(shè)備上的性能表現(xiàn)方面,Stable Diffusion 3 也展現(xiàn)出了出色的靈活性。
  例如,在 RTX 4090 等設(shè)備上,最大模型(8B 參數(shù))在進(jìn)行圖像生成時(shí),可以在 34 秒內(nèi)生成一幅分辨率為 1024x1024 的圖像,而且還能夠在初期預(yù)覽階段提供多種參數(shù)模型選擇,從 800m 到 8B 參數(shù)的模型規(guī)模,以進(jìn)一步消除硬件方面的限制。
  在消費(fèi)者級硬件上,Stable Diffusion 3 依然可以有較快的推斷速度,并且資源利用率高。
  此外,該技術(shù)提供了多種模型規(guī)模選擇,以滿足不同用戶和應(yīng)用場景下的需求,增強(qiáng)了其可擴(kuò)展性和適用性。

最新回復(fù)
A级国产乱理伦片在线播放| 久久久久精品国产AV免费| AV无码专区亚洲AVL在线观看| 亚洲欧洲一区二区三区在线观看| 国产欧美精品Va在线观看| 国产成人无码AV一区二区| 2021777久久人妻少妇嫩草AV| 九九99久久精品在免费线bt国内精品伊人久久久久| 精品无人区卡卡二卡三乱码| 超级97碰碰碰碰久久久久最新| 久久人与动人物A级毛片| 久久大香伊蕉在人线免费AV| 亚洲AV蜜桃永久无码精品| 久久久久久精品免费免费99久久国产综合| 无码精品人妻一区二| 大地资源二在线观看免费高清| 欧洲无码亚洲精品无码| 中文字幕在线播放,久久99国产一区二区三区| 99re热视频这里只精品| 亚洲无码综合一区二区| 曰本女人牲交免费视频| 国产亚洲精品国产| 国产97视频人人做人人爱免费| 国产午夜亚洲精品午夜鲁丝片| 精品无码一区二区三区蜜桃密桃| 国产精品久久国产三级国不卡顿| 97久久超碰成人精品网页| 日韩精品无码一区二区a片| 91精品国久久久久久无码免费| 女人被黑人躁得好爽视频| 国产年轻大学生情侣在线| 久久免费视频美女视频| 蜜臀av无码人妻精品| 久久精品成人无码AV片观看| 成 人免费va视频朝鲜美女黑毛bbw| 精品无码一区二区三区 | 亚洲精品乱码久久久久久久久久久久| 一区二区三区激情视频久久久| 久久人人玩人妻潮喷内射| 国内精品免费视频精选在线观看| 麻豆映画传媒新剧免费观看|