心肺復(fù)蘇模型

新聞分類(lèi)

Stable Diffusion還能壓縮圖:比JPEG更小更清楚,但千萬(wàn)別試人臉

Stable Diffusion還能壓縮圖:比JPEG更小更清楚,但千萬(wàn)別試人臉

發(fā)布日期:2022-10-28 作者:康為 點(diǎn)擊:

Alex 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

免費(fèi)開(kāi)源的Stable Diffusion又被玩兒出了新名堂:

此次是被用來(lái)壓縮


1.jpg

。

Stable Diffusion不單能把同一張?jiān)瓐D縮到更小,況且體現(xiàn)還肉眼因此地優(yōu)于JPEG和WebP。


2.jpg


針對(duì)同一張?jiān)瓐D,Stable Diffusion壓縮出去的圖片不單有更多細(xì)節(jié),況且壓縮偽影也變少了。

但用Stable Diffusion來(lái)壓縮圖的軟件工程師Matthias Bühlmann(我們就稱(chēng)他MB哥吧)也指出,這類(lèi)方法也有顯著的限于性。

由于這不太善于解決人臉和文字等,偶爾乃至?xí)诮獯a擴(kuò)展回去后,幻化出原圖中不存在的特點(diǎn)。

例如像如此(成效能夠讓人嚇一跳):


3.jpg


△左為原圖,右為Stable Diffusion壓縮再擴(kuò)展的形成圖

但是,話(huà)說(shuō)回來(lái)——Stable Diffusion是怎樣壓縮


4.jpg

的?

要講清晰Stable Diffusion如何壓縮


5.jpg

,不妨從Stable Diffusion的許多首要工作原理講起。

Stable Diffusion是一類(lèi)特殊的擴(kuò)散模型,叫作潛在擴(kuò)散 (Latent Diffusion)。

和規(guī)范擴(kuò)散(Standard Diffusion )不同,潛在擴(kuò)散在維度過(guò)低的隱空間(Latent Space)上進(jìn)行擴(kuò)散流程,而不應(yīng)用實(shí)際的像素空間。

也就是說(shuō),隱空間的表示結(jié)果是許多辨別率過(guò)低的壓縮圖,但是這類(lèi)圖有很高的準(zhǔn)確度。

這里說(shuō)一下,圖片的辨別率和精度是兩回事兒。辨別率是表示一張圖信息量多少的屬性,而精度是反映結(jié)果與真值靠近水平的量。

就拿這個(gè)駱駝的大頭照來(lái)舉例:原圖大小768KB,辨別率為512×512,精度為3×8位。

用Stable Diffusion壓縮到4.98KB后,辨別率減小為64×64,而精度反而提高到4×32位了。

因此看起來(lái),Stable Diffusion的壓縮圖和原圖相比,差異不大。




假設(shè)再進(jìn)一步詳細(xì)而言的話(huà),Stable Diffusion這類(lèi)潛在擴(kuò)散模型有3個(gè)首要構(gòu)成部份:

VAE (Variational Auto Encoder,變分自編碼器),U-Net,和文本編碼器 (Text-encoder)。

但是在這項(xiàng)壓縮圖片的測(cè)試中,文本編碼器沒(méi)什么用。

闡揚(yáng)首要功效的還是VAE,它由兩部份構(gòu)成:1個(gè)編碼器和1個(gè)解碼器。

因此,VAE能夠?qū)⒁粡垐D從圖片空間中,編碼再解碼獲得許多潛在空間表示(Latent space representation)。

MB哥發(fā)掘,VAE的解碼性能針對(duì)量化潛在表示來(lái)說(shuō),體現(xiàn)十分安穩(wěn)。

通過(guò)縮放、拖拽和從新映照,將潛在表示從浮點(diǎn)量化為8位無(wú)符號(hào)整數(shù),就能夠獲得不如何失真的壓縮圖了:

首先將latents量化為8位無(wú)符號(hào)整數(shù),這時(shí)圖片大小為64×64×4×8Bit=16 kB(原圖大小512×512×3×8Bit=768 kB)。

接著再應(yīng)用調(diào)色板(Palette)和顫動(dòng)(Dither),進(jìn)一步使信息放大到5kB,同時(shí)還提升了圖片的復(fù)原度。




成為一位謹(jǐn)嚴(yán)的程序員,MB哥除了通過(guò)肉眼觀測(cè),還對(duì)圖片品質(zhì)進(jìn)行了信息解析。

但是,從圖片品質(zhì)評(píng)價(jià)的兩項(xiàng)首要指標(biāo)PSNR(峰值信噪比)和SSIM(構(gòu)造類(lèi)似性)來(lái)看,Stable Diffusion的壓縮結(jié)果并沒(méi)有比JPG和WebP好到哪兒去。

此外,當(dāng)把潛在表示從新解碼擴(kuò)展到原圖辨別率時(shí),固然圖片的首要特點(diǎn)仍舊因此,但VAE也會(huì)將高辨別率的特點(diǎn)給予這類(lèi)像素值。

用大文言講,就是重建的圖片通常和原圖不同樣,里面攙雜了許多新形成的“鬼畜”特點(diǎn)。

讓咱們?cè)賮?lái)回首一下這張圖:




固然用Stable Diffusion來(lái)壓縮圖的確還存在許多問(wèn)題,但用MB哥的話(huà)來(lái)說(shuō),其成效還是很冷艷的,十分有成長(zhǎng)出路。

如今MB哥已然把有關(guān)代碼放到了Google Colab上,感興致的同伙能夠認(rèn)真看看~

傳送門(mén)https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing考慮鏈接:[1]https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/[2]https://matthias-buehlmann.medium.com/stable-diffusion-based-image-compresssion-6f1f0a399202[3]https://huggingface.co/blog/stable_diffusion

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)心咱們,第一時(shí)間獲知前端科技動(dòng)態(tài)



本文網(wǎng)址:http://gmeo.cn/news/1803.html

相關(guān)標(biāo)簽:擴(kuò)散模型

最近瀏覽:

在線(xiàn)客服
分享