假設(shè)有一張圖像,通過(guò)編碼器提取了多種特征,比如特征1字體顏色、特征2字體粗細(xì)、特征3字體形狀。傳統(tǒng)的自編碼器對(duì)輸入圖像的潛在特征表示為具體的數(shù)值,比如顏色=0.5,粗細(xì)=0.8,形狀=0.6。這些數(shù)值通過(guò)解碼器恢復(fù)出于原圖像相似的圖像。
那這樣的模型解決什么問(wèn)題呢?
ai繪畫(huà)軟件主要應(yīng)用在降維/可視化和去噪的場(chǎng)景中。
我們生活存在大量的文本、圖像、語(yǔ)音數(shù)據(jù),這些數(shù)據(jù)存在大量的冗余信息,理論上是可以用極少的向量來(lái)表示,所以可以用來(lái)圖像壓縮處理,這跟傳統(tǒng)的圖像壓縮技術(shù)完全不一樣。后面講到的stable diffusion 模型就用到AE的潛空間來(lái)進(jìn)行低維度的降噪和生成真實(shí)圖像。
在應(yīng)用場(chǎng)景中也能發(fā)現(xiàn),他僅適合用于重建圖像,不適用于生成新的圖像,所以有了VAE的誕生。
VAE與AE的區(qū)別在,VAE在編碼器輸出的分布曲線值,而非離散值,這樣的話輸入的圖像就跟壓縮向量就不是直接對(duì)應(yīng)關(guān)系,這樣就可以生成新的圖像。
如上圖,我們將每個(gè)特征通過(guò)概率分布進(jìn)行表示。比如顏色的取值范圍為[-11],粗細(xì)的取值范圍為[-33],形狀的取值范圍為[-55]。我們可以在范圍內(nèi)對(duì)每個(gè)特征進(jìn)行取值,然后通過(guò)解碼器生成新圖像。例如給一張人臉可以生成不同表情的人臉。
VAE不僅除了應(yīng)用在壓縮、去噪和生成新的圖像也可以應(yīng)用在圖像分割上,例如自動(dòng)駕駛的道路檢測(cè)。
但VAE生成圖像存在局限性,生成圖像的質(zhì)量不高,存在模糊和不真實(shí)。