Лучше, чем JPEG? Исследователь обнаружил, что Stable Diffusion...

635

Лучше, чем JPEG? Исследователь обнаружил, что Stable Diffusion может сжимать изображения

Швейцарский инженер-программист Матиас Бюльман обнаружил, что популярная модель синтеза изображений Stable Diffusion может сжимать существующие растровые изображения с меньшим количеством визуальных артефактов, чем JPEG или WebP при высоких коэффициентах сжатия, хотя здесь есть существенные оговорки.

Когда Stable Diffusion анализирует и "сжимает" изображения в "форму весов", они остаются в том, что исследователи называют "латентным пространством", то есть они существуют как некий нечеткий потенциал, который может быть реализован в изображениях после их декодирования. В Stable Diffusion 1.4 файл весов составляет примерно 4 ГБ, но он представляет собой знания о сотнях миллионов изображений.

Хотя большинство людей используют Stable Diffusion с текстовыми подсказками, Бюльман отказался от текстового кодировщика и вместо этого пропустил свои изображения через процесс кодирования изображений Stable Diffusion, который берет низкоточное изображение 512×512 и превращает его в более точное представление латентного пространства 64×64. На этом этапе изображение имеет гораздо меньший размер данных, чем оригинал, но оно все еще может быть расширено (декодировано) обратно в изображение 512×512 с достаточно хорошими результатами.

Проводя тесты, Бюльман обнаружил, что новое изображение, сжатое с помощью Stable Diffusion, выглядит субъективно лучше при более высоких коэффициентах сжатия (меньший размер файла), чем JPEG или WebP. В одном из примеров он показывает фотографию ламы (первоначальный размер 768 КБ), которая была сжата до 5,68 КБ с помощью JPEG, 5,71 КБ с помощью WebP и 4,98 КБ с помощью Stable Diffusion. Изображение Stable Diffusion имеет более четкие детали и меньше явных артефактов сжатия, чем изображения, сжатые в других форматах.

Однако метод Бюльмана в настоящее время имеет существенные ограничения: он плохо работает с лицами или текстом, а в некоторых случаях он может вызвать галлюцинации в декодированном изображении, которые не присутствовали в исходном изображении. (Вероятно, вы не хотите, чтобы компрессор изображений придумывал несуществующие детали). Кроме того, для декодирования требуется весовой файл Stable Diffusion размером 4 ГБ и дополнительное время декодирования.

Код Бюльмана можно найти на Google Colab, а более подробную техническую информацию о его эксперименте вы найдете в его посте на Towards AI.

@MikeBlazerX