ByteDance и другие выпустили первую 1,58-битную модель квантования FLUX с уменьшением параметров на 99,51 TP3T, что сравнимо с прецизионной FLUX!

Новости ИИОбновлено 1 год назад Круг обмена ИИ

25K 00

Анализ выделений

1,58-бит FLUXПервым будет FLUX визуально Трансформатор параметров (всего 11,9 млрд) уменьшается на 99,5% до 1,58-битной модели квантования, что устраняет необходимость полагаться на данные изображения и значительно снижает требования к хранению.
Разработано эффективное линейное ядро, оптимизированное для 1,58-битных вычислений, что позволило добиться значительного сокращения памяти и ускорения вывода.
доказать 1,58-бит FLUX В сложном бенчмарке T2I производительность была сопоставима с полной точностью модели FLUX.

字节跳动等发布首个1.58-bit FLUX量化模型，参数减少99.5%，媲美全精度FLUX！

Краткое содержание

Проблемы решены

Существующие модели преобразования текста в изображение (T2I), такие как DALLE 3 и Stable Diffusion 3, имеют огромное количество параметров и требуют много памяти для вывода, что затрудняет их развертывание на устройствах с ограниченными ресурсами (например, мобильных устройствах).
В данной работе рассматривается возможность использования квантования с очень малым количеством бит (1,58 бит) в моделях T2I для снижения требований к хранению и памяти при одновременном повышении эффективности выводов.

Предлагаемая программа

В качестве объекта квантования была выбрана модель FLUX.1-dev, и ее веса были сжаты до 1,58 бита (со значениями, ограниченными {-1, 0, +1}) методом квантования после обучения без доступа к данным изображения.
Разработка специализированных ядер для оптимизации операций с младшими битами для дальнейшего повышения эффективности вычислений.

Применяемые технологии

Количественное определение веса 1,58 бит: Чрезвычайно низкая битизация достигается за счет сжатия весов линейного слоя модели до 1,58 бита с помощью метода, аналогичного BitNet b1.58, и хранения весов в виде 2-битных знаковых целых чисел.
Неконтролируемые количественные методы: опирается исключительно на механизм самоконтроля самой модели FLUX.1-dev и не нуждается в использовании схем смешанной точности или дополнительных обучающих данных.
Индивидуальное ядро: Ядро выводов, оптимизированное для выполнения малоразрядных операций, что позволяет сократить потребление памяти и задержку выводов.

перфоратор

Эффективность хранения: Требования к хранению модели уменьшены на 7,7×, сжатие с 16 бит до 2 бит.
Эффективность рассуждений: Использование памяти во время вычислений сократилось на 5,1×, а задержка вычислений значительно улучшилась.
Создание качества: На бенчмарках GenEval и T2I Compbench качество генерации практически не уступает качеству генерации FLUX с полной точностью, что подтверждает эффективность и полезность схемы.

Результаты

устанавливать

количественная оценка: Количественная оценка проводилась с использованием калиброванного набора данных, состоящего из подсказок из набора данных Parti-1k и обучающего набора T2I CompBench, в общей сложности 7 232 подсказки. Весь процесс полностью независим от данных изображения, и никаких дополнительных наборов данных не требуется. Количественная оценка сжимает все веса линейных слоев FluxTransformerBlock и FluxSingleTransformerBlock в FLUX до 1,58 бита, что составляет 99,5% от общего числа параметров модели.

оценка: Оценка FLUX и 1,58-битного FLUX на наборе данных GenEval и наборе данных для проверки T2I CompBench после официального процесса генерации изображений.

Набор данных GenEval: Содержит 553 подсказки, каждая из которых генерирует 4 изображения.
T2I CompBench Validation SetОценка проводилась по 8 категориям с 300 подсказками в каждой категории, каждая подсказка генерировала 10 изображений, что в общей сложности составило 24 000 изображений для оценки.
Все изображения получены с разрешением 1024 × 1024 для FLUX и 1,58-битного FLUX.

в конце концов

спектакли: Производительность 1,58-битного FLUX сравнима с производительностью FLUX с полной точностью в бенчмарках T2I Compbench и GenEval, как показано в таблицах 1 и 2. Изменения производительности минимальны до и после применения пользовательского линейного ядра, что еще раз подтверждает точность реализации.

эффективностьКак показано на рисунке 2 ниже, 1,58-битный FLUX обеспечивает значительные улучшения в хранении моделей и памяти для выводов. С точки зрения задержки вычислений, как показано в Таблице 3, улучшение особенно значительно на низкопроизводительных, но легко развертываемых GPU, таких как L20 и A10.

Заключение и обсуждение

В данной работе представлены 1,58-бит FLUXВ случае 99.5% параметр Transformer был квантован до 1,58 бита, а следующие улучшения были достигнуты за счет настройки вычислительного ядра:

Снижение требований к хранению: Сокращение потребностей в хранении моделей в 7,7 раза.
Снижение памяти на умозаключения: Сокращение использования памяти для выводов более чем в 5,1 раза.

Несмотря на эти эффекты сжатия, 1,58-битный FLUX показал сопоставимую с полноточечной моделью производительность в бенчмарках T2I, сохранив при этом высокое визуальное качество. Есть надежда, что 1,58-бит FLUX Уметь мотивировать сообщества на разработку моделей, более подходящих для мобильных устройств.

Текущие ограничения

Ограничения на повышение скорости

Хотя 1,58-битный FLUX уменьшает размер модели и потребление памяти, его улучшение задержки ограничено из-за отсутствия квантования значений активации и более продвинутых оптимизаций ядра.
Учитывая достигнутые на данный момент результаты, можно надеяться, что сообщество будет мотивировано на разработку собственных реализаций ядра для 1,58-битной модели.

Об ограничениях визуального качества

Как показано на рисунках 1, 3 и 4 ниже, 1,58-битный FLUX создает яркие и реалистичные изображения, полностью соответствующие текстовым подсказкам, но все же отстает от оригинальной модели FLUX при воспроизведении деталей сверхвысокого разрешения.
В будущих исследованиях планируется устранить этот пробел.

: Визуальное сравнение FLUX с 1,58-битным FLUX. 1,58-битный FLUX демонстрирует качество генерации, сравнимое с FLUX с 1,58-битным квантованием, где 99,5% параметров визуального трансформатора 11,9B ограничены значением +1, -1 или 0. Для согласованности все изображения в каждом сравнении генерировались с использованием одного и того же входа скрытого шума. 1,58-битный FLUX использует пользовательское 1,58-битное ядро. Для согласованности все изображения в каждом сравнении были сгенерированы с использованием одного и того же потенциально шумного входа. 1.58-битный FLUX использует пользовательское 1,58-битное ядро.

Коды выводов и весовые коэффициенты выпускаются: https://github.com/Chenglin-Yang/1.58bit.flux