Что такое Dalle-mini и как он работает?

Dalle-mini — это модель глубокого обучения, которая может генерировать изображения высокого качества из вводимого пользователем текста. Он основан на модели DALL-E, выпущенной OpenAI в январе 2021 года. DALL-E означает « Распутанный язык и скрытое выражение — нейронная сеть на основе преобразователя, которая может кодировать текст и изображения в общее скрытое пространство, а затем декодировать их обратно в любую модальность.

В этой статье будет объяснено следующее содержание:

Что такое Далле-мини?

Дай ей-мини — это уменьшенная и более быстрая версия DALL-E, созданная EleutherAI, исследовательским коллективом с открытым исходным кодом. Dalle-mini использует только 6 миллиардов параметров по сравнению с 12 миллиардами DALL-E и может работать на одном графическом процессоре. Dalle-mini также использует другой токенизатор и словарь для ввода текста, что делает его более совместимым с разными языками и доменами:

Примечание : Пользователи могут создавать бесплатные изображения с помощью Dalle-mini, следуя связь .

В чем заключается работа Dalle-mini?

Основная идея Dalle-mini — сила трансформаторов, то есть нейронных сетей. Они могут изучать долгосрочные зависимости и сложные шаблоны в последовательных данных, таких как текст или изображения.

Трансформаторы состоят из двух основных частей: кодера и декодера. Первая часть принимает входные данные (текстовое описание) и преобразует их в скрытые векторы. После этого декодер берет его и генерирует вывод (изображение), соответствующий входу.

В чем разница между Dalle-mini и DALL-E?

Dalle-mini и DALL-E используют общую архитектуру кодер-декодер как для текста, так и для изображений. Они могут кодировать и декодировать обе модальности, используя одну и ту же сеть. Это позволяет им изучить общее скрытое пространство, которое фиксирует семантические отношения между текстом и изображениями. После этого позволяет им выполнять кросс-модальную генерацию, например, создавать изображения из текста или наоборот.

Как работает Далле-мини?

Чтобы сгенерировать изображение из текстового описания, Dalle-mini сначала токенизирует текст, используя алгоритм кодирования пар байтов (BPE), который разбивает текст на подслова в зависимости от их частоты и совпадения:

Перейдем к подробному описанию внутренней работы Dalle-mini:

Внутренняя работа Dalle-mini

Допустим, слово « играть 'можно разделить на ' пла ' и ' инь ». Затем токены сопоставляются с числовыми идентификаторами, используя словарь из 8192 токенов. Идентификаторы передаются в кодировщик, создавая скрытое представление размером 256 x 64:

Затем декодер берет скрытое представление и генерирует изображение размером 256 x 256 пикселей. Декодер использует авторегрессионный процесс, что означает, что он генерирует каждый пиксель один за другим в зависимости от предыдущих пикселей и скрытого представления.

Как сгенерировать изображение из текстового описания с помощью Dalle-mini?

Чтобы сгенерировать текстовое описание из изображения с помощью Dalle-mini, введите текст в окно подсказки. Например, введите « Картина случайных цветов » в подсказке и нажмите « Бегать ' кнопка:

Вывод показывает, что Dalle-mini сгенерировал соответствующие изображения в соответствии с введенным текстом.

Заключение

Dalle-mini — замечательная модель, демонстрирующая потенциал трансформеров для кроссмодальной генерации. Они могут создавать реалистичные и разнообразные изображения из описаний на естественном языке, а также связные и релевантные тексты из изображений. Они также могут обрабатывать сложные композиции, например, объединять несколько объектов или атрибутов в одно изображение или текст. В этой статье подробно объясняется Dalle-mini и его работа.

Что такое Dalle-mini и как он работает?

Что такое Далле-мини?

В чем заключается работа Dalle-mini?

В чем разница между Dalle-mini и DALL-E?

Как работает Далле-мини?

Как сгенерировать изображение из текстового описания с помощью Dalle-mini?

Заключение

Категория

Популярные посты

Как сделать винтовую лестницу в Minecraft

Как установить и настроить графический интерфейс Haguichi для сети Hamachi в Linux

В чем разница между потенциометром Arduino и поворотным энкодером

Как очистить кэш Kubernetes

Что такое проверка параметров с помощью PowerShell ValidateScript [Пошаговое руководство]?

Как найти портал в Край в Крепости в Майнкрафте

Что такое все значки Nitro в Discord

Как найти файл в Linux

Как добавить общий ресурс Windows SMB/CIFS в качестве хранилища на Proxmox VE

Как фильтровать изображения Docker по шаблону с подстановочными знаками

Как управлять и систематизировать файлы и папки Android

Исправьте ошибку команды «Обновить && Обновление» в Kali Linux на Android

Где Linux хранит мой системный журнал

Как отключить ссылку, используя только CSS

Строка документации NumPy

Анализ трехстороннего рукопожатия TCP в Wireshark

Примеры циклического буфера на C++

Как обновить все пакеты в Pop!_OS

Что такое AWS Docker?

Как вернуть несколько значений в C++