Сбер создал с нуля с нуля полный пайплайн для генерации изображений по описаниям на русском языке и назвал это самым большим вычислительным проектом в России.
Создан специальный сайт, на котором можно ввести текстовый запрос и получить в ответ визуальное изображение.
Мы попросили нейросеть сгенерить изображение радостной зебры.
Сервис попросил подождать 42 минуты.
После чего нейросеть выдала вот это:
В начале года нейросеть DALL-E, генерирующую любые изображения размером 256×256 пикселей по текстовому описанию, выпустила компания OpenAI. Сделать такое же в России решился Сбер, в проекте участвовали команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud.
Они обучили две версии модели разного размера и дали им имена великих российских абстракционистов — Василия Кандинского и Казимира Малевича.
«Долгосрочная цель нового направления — создание «мультимодальных» нейронных сетей, которые изучают концепции в нескольких модальностях, в первую очередь в текстовой и визуальной областях, чтобы лучше понимать мир», – пишут разработчики.
Генерация изображений дает возможность точно описать желаемое и получить персонализированное изображение, которое раньше не существовало. Применять это ноу-хау, по мнению разработчиков, можно для создания фото-иллюстраций для статей, копирайтинга, рекламы.
Судя по изображению радостной зебры, которую мы получили, не для всех статей такие иллюстрацию будут одинаково полезны. А портал N+1 вообще получил рисунок синиц на просьбу нарисовать сиськи.
«Все дело в том, что в английском у слова tits есть два значения: «синицы» и «сиськи». И поскольку нейросеть обучалась связывать между собой текстовое и визуальное представление понятий, даже непонятно, можно ли результат назвать ошибкой. Остается лишь вопрос о том, как русское слово превратилось в английское», – комментирует портал свой эксперимент с новой российской нейросетью.