Сбер представил самую большую модель генерации изображений по текстовому описанию на русском языке — Kandinsky

15.06.2022 09:10
Скопировать ссылку
Сбер представил самую большую модель генерации изображений по текстовому описанию на русском языке — Kandinsky

Cбер представил самую большую на данный момент модель генерации изображений по текстовому описанию на русском языке — Kandinsky. Это улучшенная версия мультимодальной нейросети ruDALL-E, которая генерирует картинки по описанию на русском языке. Использовать её можно для создания любых видов изображений — иллюстраций, материалов для рекламы, архитектурного и промышленного дизайна и даже дизайна в области цифрового искусства.

В ноябре была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Её параметры и код были выложены в открытый доступ, и был разработан сервис генерации изображений. За полгода этим сервисом воспользовались 2 млн уникальных пользователей, которые суммарно сгенерировали 125 млн изображений. Также в ноябре была анонсирована, а в декабе опубликована в маркетплейсе AI Services платформы SberCloud ML Space эксклюзивная модель ruDALL-E XXL c 12 миллиардами параметров.

В этом году команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo. Дообученная модель Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN). Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.

Создание изображений при помощи модели Kandinsky происходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky), используя текстовое описание, генерирует заданное число изображений. Затем вторая (ruCLIP Large) выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки, а потом третья увеличивает их в размере (доступны как диффузионная модель, так и генеративно-состязательная модель Real-ESRGAN). Итогом работы модели является набор сгенерированных изображений высокого качества. Отличительным преимуществом модели Kandinsky по сравнению с предыдущими версиями является более высокая степень детализации создаваемых изображений.

Модель доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника».

Мы продолжаем развивать нейронные сети, которые следуют принципам трёх М — мультимодальности, мультизадачности и мультиязычности. Kandinsky — это мощный прорыв в этой сфере. Она способна точнее сравнивать и анализировать различные изображения, чтобы создавать настоящие живописные картины. Автоматическая генерация изображений открывает новые возможности для бизнеса, который и станет одним из главных бенефициаров новой технологии

Источник:
ПАО «Сбербанк России» (лицензия ЦБ РФ № 1481)
Просмотров: 694
Читайте нас в
Все новости

Рейтинг банков "Активность пресс-службы банков"

  • ВТБ
    1
  • СберБанк
    2
  • Банк Уралсиб
    3
  • Альфа-Банк
    4
  • Банк Синара
    5
  • Азиатско-Тихоокеанский Банк
    6
  • Т-Банк
    7
  • Абсолют Банк
    8
  • Челиндбанк
    9 (+1)
  • СДМ-Банк
    10 (-1)
на 20.07.2025 Общий рейтинг
Bankinform.ru использует cookie-файлы и обрабатывает персональные данные с использованием Яндекс Метрики, Google Analytics. Это улучшает работу сайта и взаимодействие с ним. Подтвердите ваше согласие, нажав кнопу Ок. Если вы не хотите, чтобы ваши данные обрабатывались, пожалуйста, ограничьте использование файлов cookie в своём браузере. Подробнее в Политике конфиденциальности.