DALL·E — нейросеть умеющая создавать изображения по текстовому описанию

Некоммерческая компания OpenAI, которая занимается исследованиями в сфере искусственного интеллекта, представила нейросеть DALL-E — она умеет создавать изображения по текстовому описанию. На это обратило внимание издание The Next Web.

Что это такое

В июле 2020 года компания OpenAI, выпустила алгоритм GPT-3, который может может выполнять различные задачи по написанию текста на основе заданных параметров. При этом, результат максимально похож на материалы, созданные человеком.

DALL · E — это расширение GPT-3, которое анализирует англоязычные текстовые подсказки и затем отвечает не словами, а изображениями. При их создании, нейросеть учитывает 12 млрд параметров, включая цвет, высоту, расположение и названия предметов. Как результат, DALL · E способна создавать реалистичные фото, несуществующие объекты, достраивать любую прямоугольную область существующего изображения.



Кроме этого, DALL·E способна понимать сложные абстрактные комбинации и отображать произвольный текст на уличных знаках:


Чтобы проверить способность DALL · E к визуальному мышлению, авторы провели IQ тест Рейвена. Нейросети требовалось определить закономерности и правильно заполнить матрицу недостающими элементами. С этим заданием DALL · E справилась на отлично.

Как пояснили в компании, DALL·E — это языковая модель-трансформер (как и GPT-3). Она принимает на вход текст и изображение, как последовательность размером в 1280 токенов (256 содержат текст, в 1024 — части изображения) и авторегрессивно их моделирует. Таким образом, генерируются новые изображения.

Источник: ain.ua



Самые актуальные новости - в Telegram-канале

Читайте также

Вверх