Что же это за зверюга такой: Stabble Difussion?

Что же это за зверюга такой: Stabble Difussion?

Ваш личный цифровой художник: Что такое Stable Diffusion и как он превращает слова в картинки

Привет! Если ты, как и я, видишь в ленте волшебные картинки, сгенерированные по тексту, и думаешь: «Эх, мне бы так уметь», то эта статья для тебя. Сегодня мы на пальцах разберем, что такое Stable Diffusion — главный маг и чародей в мире AI-графики.

Что это за зверь такой?

Представьте себе супер-художника, который никогда в жизни не выходил из своей комнаты. Но у него есть волшебная библиотека, в которой лежат миллиарды фотографий, картин, набросков и даже каракулей. Этот художник пересмотрел ВСЁ: от «Моны Лизы» до фото твоего котенка, который застрял в банке.

Stable Diffusion — это и есть тот самый художник. А если по-умному, это модель искусственного интеллекта, которую научили рисовать, показывая кучу картинок с подписями.

Как же он рисует? История про шум и магию

А теперь — главный секрет. Stable Diffusion не рисует как мы с вами. Он не начинает с контура носа или уха. Его метод проще и гениальнее.

Он начинает с… ШУМА!

Да-да, с вот такой белиберды, с телевизора, который «не показывает»:

Шаг 1: Заявка принята. Вы даете ему запрос, например, «пушистый кот в шапке Деда Мороза». А ИИ в ответ: «Заявка принята». Берет чистый лист, который на самом деле — вот этот самый шум.

Шаг 2: Пристальный взгляд. А теперь наш художник начинает всматриваться в этот шум. Он ищет в этих помехах знакомые очертания. «Так-так, — думает он, — где-то тут я видел что-то пушистое… А здесь — что-то красное и колючее… Ага, вот тут проступают кошачьи усы!»

И он начинает понемногу убирать шум в тех местах, где должен быть кот, и добавлять его там, где его быть не должно.

Шаг 3: Чистый лист. Шаг за шагом, из хаоса начинает проступать порядок. Из шума рождается картинка. Это как если бы вы взяли мутную воду в стакане, дали ей отстояться, и на дне проявился прекрасный рисунок.

Вот так из шума рождается, например, вот этот красавец:

Запрос: пушистый кот в шапке Деда Мороза, фотография, новогоднее настроение

Волшебно, правда?

Подводные камни, или Почему он рисует кривые руки и кошмары

А теперь о грустном. Наш художник, хоть и гениальный, но немного… странный. У него есть свои тараканы в голове, и это нормально.

Проклятие рук и пальцев. Это притча во языцех. Stable Diffusion видел миллиарды рук на фото, но он не понимает, что у человека должно быть ровно 5 пальцев, расположенных определенным образом. Он просто знает, что «в этом месте часто бывает штука, похожая на щупальце из пальцев». И иногда эта штука получается с шестью пальцами, или пальцы растут из запястья. Он не со зла, он просто так видит.

Давайте проверим на реальной ситуации.
Вот промт: “студент в библиотеке держит в руках несколько книг, улыбается

Что может пойти не так: ИИ прекрасно нарисует лицо, книги, полку. А вот с руками, держащими стопку книг, может начаться чертовщина. Лишний палец, проваливающаяся в небытие ладонь, или неестественный хват. Всё это цена его «творческого» подхода.

Он понимает все буквально (и не знает контекста). Попросите нарисовать «повара, готовящего стейк», и он, скорее всего, справится.

Но если попросить «повара, готовящего стейк, который моет пол», вы можете получить человека, жарящего мясо на сковороде, стоящей прямо на мокром полу.

У ИИ нет жизненного опыта, он не знает, что так не делают.

Он отражает наши стереотипы. Скажешь «врач» — получишь чаще мужчину в возрасте.

Скажешь «Бортпроводник» — молодую женщину.

Потому что он учился на наших же данных из интернета, а там, увы, не всегда равенство. Нужно быть конкретнее: молодая женщина-врач в очкахмужчина-бортпроводник.

Самое сочное — он БЕСПЛАТНЫЙ!

Да, вы не ослышались! В отличие от многих других модных AI-художников, у Stable Diffusion есть полностью бесплатные и открытые версии. Вы можете установить его себе на компьютер (и он будет работать даже на старой доброй видеокарте вроде GTX 1060, проверено лично!) и рисовать сколько влезет, не платя ни копейки!

Есть и куча онлайн-сервисов (например, Playground AI, Leonardo.Ai), где можно попробовать его силы бесплатно. Так что творить может каждый — от вас требуется только фантазия.

Давайте пошумим! Реалистичные примеры, которые работают

Вот что можно наколдовать с помощью правильных, детальных промтов. Эти примеры я проверил лично на своих моделях.

Запрос (для фотореализма):
Фотография пожилого мужчины-ремесленника, держит глиняную кружку, сидит в своей мастерской, морщины, прожилки на руках, мягкий свет из окна, фотографический, высокая детализация

Запрос (для художественного стиля):
Красный спортивный автомобиль Ferrari parked на ночной улице большого города, неоновая вывеска, отражения в лужах на асфальте, стиль цифровая живопись, кинематографичное освещение

Запрос-вызов (проверим логику):
Девушка сидит в уютном кафе, одной рукой держит книгу, другой - чашку с кофе, на столе лежит ее smartphone

Итог

Stable Diffusion — это как волшебная палочка для картинок. Ты говоришь ей слова, а она делает из «цифрового шума» новую картинку, вспоминая всё, что видела раньше. Иногда палочка ошибается и рисует лишние пальцы, но это потому, что магия — наука неточная.

Так что не бойтесь! Экспериментируйте, описывайте свои мечты в деталях и наблюдайте, как из хаоса рождается что-то совершенно новое и уникальное. Это по-настоящему крутое чувство, доступное каждому.

А я пошел генерировать портрет друга в образе гоблина, раздающего мудрые советы. Удачи.