Что такое Dalle-mini и как он работает?

Cto Takoe Dalle Mini I Kak On Rabotaet



Dalle-mini — это модель глубокого обучения, которая может генерировать изображения высокого качества из вводимого пользователем текста. Он основан на модели DALL-E, выпущенной OpenAI в январе 2021 года. DALL-E означает « Распутанный язык и скрытое выражение — нейронная сеть на основе преобразователя, которая может кодировать текст и изображения в общее скрытое пространство, а затем декодировать их обратно в любую модальность.

В этой статье будет объяснено следующее содержание:







Что такое Далле-мини?

Дай ей-мини — это уменьшенная и более быстрая версия DALL-E, созданная EleutherAI, исследовательским коллективом с открытым исходным кодом. Dalle-mini использует только 6 миллиардов параметров по сравнению с 12 миллиардами DALL-E и может работать на одном графическом процессоре. Dalle-mini также использует другой токенизатор и словарь для ввода текста, что делает его более совместимым с разными языками и доменами:




Примечание : Пользователи могут создавать бесплатные изображения с помощью Dalle-mini, следуя связь .



В чем заключается работа Dalle-mini?

Основная идея Dalle-mini — сила трансформаторов, то есть нейронных сетей. Они могут изучать долгосрочные зависимости и сложные шаблоны в последовательных данных, таких как текст или изображения.





Трансформаторы состоят из двух основных частей: кодера и декодера. Первая часть принимает входные данные (текстовое описание) и преобразует их в скрытые векторы. После этого декодер берет его и генерирует вывод (изображение), соответствующий входу.

В чем разница между Dalle-mini и DALL-E?

Dalle-mini и DALL-E используют общую архитектуру кодер-декодер как для текста, так и для изображений. Они могут кодировать и декодировать обе модальности, используя одну и ту же сеть. Это позволяет им изучить общее скрытое пространство, которое фиксирует семантические отношения между текстом и изображениями. После этого позволяет им выполнять кросс-модальную генерацию, например, создавать изображения из текста или наоборот.



Как работает Далле-мини?

Чтобы сгенерировать изображение из текстового описания, Dalle-mini сначала токенизирует текст, используя алгоритм кодирования пар байтов (BPE), который разбивает текст на подслова в зависимости от их частоты и совпадения:


Перейдем к подробному описанию внутренней работы Dalle-mini:

Внутренняя работа Dalle-mini

Допустим, слово « играть 'можно разделить на ' пла ' и ' инь ». Затем токены сопоставляются с числовыми идентификаторами, используя словарь из 8192 токенов. Идентификаторы передаются в кодировщик, создавая скрытое представление размером 256 x 64:


Затем декодер берет скрытое представление и генерирует изображение размером 256 x 256 пикселей. Декодер использует авторегрессионный процесс, что означает, что он генерирует каждый пиксель один за другим в зависимости от предыдущих пикселей и скрытого представления.

Как сгенерировать изображение из текстового описания с помощью Dalle-mini?

Чтобы сгенерировать текстовое описание из изображения с помощью Dalle-mini, введите текст в окно подсказки. Например, введите « Картина случайных цветов » в подсказке и нажмите « Бегать ' кнопка:


Вывод показывает, что Dalle-mini сгенерировал соответствующие изображения в соответствии с введенным текстом.

Заключение

Dalle-mini — замечательная модель, демонстрирующая потенциал трансформеров для кроссмодальной генерации. Они могут создавать реалистичные и разнообразные изображения из описаний на естественном языке, а также связные и релевантные тексты из изображений. Они также могут обрабатывать сложные композиции, например, объединять несколько объектов или атрибутов в одно изображение или текст. В этой статье подробно объясняется Dalle-mini и его работа.