当前位置：首页 -> 财经

StableDiffusion还能压缩图：比JPEG更小，肉眼看更清晰，

时间：2022-09-30 15:19 来源：IT之家作者：宋元明清阅读量：7074

免费开源稳定扩散玩出了新花样:

稳定扩散不仅可以将同一幅原始图像缩小到更小的尺寸，而且性能优于JPEG和WebP。

对于同一幅原始图像，稳定扩散压缩后的图像不仅细节更多，而且压缩伪影更少。

但使用稳定扩散压缩图形的软件工程师马蒂亚斯·布尔曼也指出，这种方法有明显的局限性。

因为它不太擅长处理人脸和文字，有时甚至会在解码和扩展回来后，幻化出原图中不存在的特征。

像这样:

左边是原始图像，右边是稳定扩散压缩和扩展的生成图像。

但是话说回来—

稳定扩散是一种特殊的扩散模型，称为势扩散。

与标准扩散不同，潜在扩散在低维的潜在空间中进行，而不使用实际的像素空间。

也就是说，隐藏空间的表现结果是一些低分辨率的压缩图像，但这些图像具有很高的准确性。

在这里，图像的分辨率和精度是两回事

以这只骆驼的头像为例:原图大小为768KB，分辨率为512×512，精度为3×8位。

经过稳定扩散压缩到4.98KB后，分辨率降低到64×64，但精度提高到4×32位。

所以看起来稳定扩散的压缩图像和原图差别不大。

更具体地说，稳定扩散的势扩散模型有三个主要部分:

VAE，优信网和文本编码器。

可是，在这个压缩图像的测试中，文本编码器是没有用的。

VAE起主要作用，它由两部分组成:编码器和解码器。

MB发现，VAE的解码函数对于量化潜在表征是非常稳定的。

通过缩放，拖动和重新映射，将潜在表示从浮点量化为8位无符号整数，可以得到失真很小的压缩图像:

首先将latents量化为8位无符号整数，图像大小为64×64×4×8Bit=16 kB。

然后利用调色板和抖动进一步将数据压缩到5kB，同时提高图像还原度。

作为一个严谨的程序员，MB哥不仅用肉眼观察，还分析了画质的数据。

但从PSNR和SSIM这两个重要的图像质量评价指标来看，稳定扩散的压缩结果并不比JPG和WebP好。

此外，当潜在表示被重新解码并扩展到原始图像分辨率时，尽管图像的主要特征仍然可见，但VAE也会将高分辨率特征分配给这些像素值。

用白话文来说，重建的图像往往与原始图像不同，其中包含了许多新生成的鬼畜特征。

我们再来回顾一下这张图:

虽然用稳定扩散来压缩图还有很多问题，但是用MB的话来说，它的效果还是很惊人的，前景很光明。

现在MB哥已经把相关代码放在Google Colab上了，感兴趣的朋友可以仔细看看~

入口

参考链接:

。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。