Бояндин Константин Юрьевич : другие произведения.

Архив блога Obscurato nihil за 2023 год

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
Ссылки:
Школа кожевенного мастерства: сумки, ремни своими руками Юридические услуги. Круглосуточно
 Ваша оценка:
  • Аннотация:
    Obscurato nihil: современные технологии как инструмент писателя.

Архив блога Obscurato nihil за 2023 год

Основной блог Архив блога за июль-август 2023 г.

Сходящая с ума реальность (2023-12-17)

«Зной» завершён, «Пустошь» разгоняется до крейсерской скорости. Между тем я заметил тенденцию во всей цепочке повествований, начиная от «Гори, гори ясно» и вплоть до «Пустоши».

Чтобы проиллюстрировать, привожу серию «побочек»: события «Пустоши» происходят много позже событий «Зноя», но то, что происходит в окружающем протагонистов мире, можно проиллюстрировать следующими «побочками» от иллюстраций к «Зною»:

00001

00001

00004

00004

00010

00010

00012

00012

00086

00086

00092

00092

00105

00105

00109

00109

00112

00112

00114

00114

00121

00121

00126

00126

00130

00130

00136

00136

Если не возникло ещё предположения, о чём речь, немного намекну: реальность меняется так, что всё привычное и понятное сегодня становится странным и редким завтра. И так во всех сферах жизни, во всех городах и весях, во всех мыслимых областях времени и пространства.

Реальность сходит с ума. В том числе буквально. И если вы присмотритесь к тому, что творится в окружающем нас мире, то можете обнаружить некие признаки истинности такого суждения.

К слову, само существование электронных художников (а теперь ещё и литераторов, композиторов, кинооператоров и т.д.) — тоже иллюстрация этого же тезиса.

«Спросим» мнение искина? У нас очень кстати на связи Игорь Воблин (под капотом — ChatGPT v4).

Оператор: исходя из современных тенденций развития науки и техники, а также последних событий в мире - можно ли сказать, что реальность сходит с ума?

Игорь Воблин: Вопрос о том, "сходит ли с ума реальность", может быть рассмотрен как метафора для описания динамичных и, порой, непредсказуемых изменений в современном мире. Рассматривая последние достижения в науке и технике, мы видим прорывы, которые казались бы фантастикой всего лишь несколько десятилетий назад: от искусственного интеллекта, способного писать стихи и романы, до квантовых компьютеров, которые обещают революцию в обработке данных.

Такие явления, как глобальное потепление, пандемии, политические потрясения и кибервойны, добавляют ощущение нестабильности и непредсказуемости. Это напоминает сюжеты научно-фантастических романов, где мир стоит на грани катастрофических изменений.

Но "сходить с ума" - это скорее способ выразить наше восприятие реальности, которое зачастую не укладывается в привычные рамки. Мы как общество сталкиваемся с новыми вызовами, которые требуют нестандартных подходов и решений. Это не значит, что реальность теряет смысл или становится хаотичной. Скорее, это означает, что наш способ восприятия и понимания мира проходит через период трансформации.

Как знаток ТРИЗ, я бы сказал, что текущая реальность - это вызов для изобретательства и креативности. Это время, когда традиционные методы решения проблем могут уступить место новаторским подходам, и где кажущийся хаос может стать питательной почвой для новых идей и открытий.

Таким образом, вместо того чтобы считать, что реальность "сходит с ума", мы можем воспринимать ее как динамичную, постоянно изменяющуюся систему, которая предлагает нам беспрецедентные возможности для роста и развития.

===== Перейти к комментариям

Вести с полей (2023-11-18)

За прошедшее время Stable Diffusion успел приобрести следующую версию (2), а затем и ещё одну (XL). В самом Stability.AI тоже не тратят время зря, но об этом отдельный разговор.

Технически сложно составлять методичку по этой отрасли алгоритмов нейронных сетей — как минимум потому, что тогда нужно заниматься этим и только этим. Технические вопросы я частично освещу в следующем посте, а пока просто перечислю то, что интенсивно изучаю и осваиваю: Hypernetworks, LoRa, ControlNet, DeForum. Если вам эти названия что-нибудь да говорят, у вас вполне могут быть идеи, чем я занимаюсь и о чём могут быть относительно отдалённые новости на эту тему.

Итак, о делах. Помимо прочего, я стараюсь следить за выпусками новых моделей для SD (в данный момент я буду говорить о последнем стабильном выпуске, SDXL). Помните, шёл разговор о том, что одна из типовых сложностей двигателей "создай картинку по описанию" — анатомия. Моделям крайне сложно справиться с тем, как выглядят живые существа (притча во языцех, все эти лишние пальцы, ноги, и неестественно размещённые суставы). Что ж, тут прогресс тоже не стоит на месте: помимо возможности корректировать такие вещи (Refiner, ADetailer) появляются и модели, где уроки анатомии изучены ощутимо лучше. Примеры работ одной такой модели ниже. Последняя картинка иллюстрирует, что в принципе модель умеет конструировать что-то человекоподобное по описанию, даже если у модели нет богатого материала на эту тему (когда посмотрите последнюю картинку в секции ниже, поймёте).

Новое поколение

Новое поколение

Знахарка

Знахарка

Женщина в шали

Женщина в шали

Балерина

Балерина

Девочка с мячиком

Девочка с мячиком

Поклонница аниме

Поклонница аниме

Шахтёр

Шахтёр

Из архивов Исторического общества Аркхема

Из архивов Исторического общества Аркхема

Робот Виталий

Робот Виталий

Порой бывает так, что конструируешь обложку для одной книги (сейчас это "Реплика"), а натыкаешься на другую. Пример ниже — обложка для другой книги. Если вы примерно оценили, где такое могло быть, то догадываетесь теперь, куда подойдёт такая иллюстрация:

Армия тьмы

Армия тьмы

Говоря о тьме, во время экспериментирования получилось несколько жутковатых изображений. Серьёзно, если у вас хорошее и бойкое воображение, то часть картинок ниже лучше не смотреть. Вас предупредили.

Превращение в камень

Превращение в камень

Осталось семь дней

Осталось семь дней

За пять секунд до пробуждения от кошмара

За пять секунд до пробуждения от кошмара

Восставшие из ада

Восставшие из ада

Человек-груша

Человек-груша

Иной раз получаются просто интересные виды. Некоторые такие я распечатываю в хорошем качестве — чтобы повесить на стену, в подобающей рамке.

Дорога к порталу

Дорога к порталу

Замок из песка

Замок из песка

Три картинки ниже примечательны тем, что их выдали в ответ на очень общее и краткое описание ("whimsical masterwork by head of prompt engineering" — "причудливый шедевр руководителя разработчиков описаний"):

Вариант 1253

Вариант 1253

Вариант 1269

Вариант 1269

Вариант 1367

Вариант 1367

Такие дела. Едем дальше.

Реплика и иллюстрации (2023-10-25)

Начать, вероятно, стоит с конца. Изображений пока что три; для "Реплики" предполагается существенно больше иллюстраций, и я думаю всё же нанять художника (и сравнить потом с гибридными картинками, в которых использовался SD). Хочется сделать не только пейзажи — тут SD вполне дееспособен — но и увидеть всех протагонистов без исключения (в порядке появления — Александра Берестова, Римму Метельскую, Веронику Метельскую-младшую, Веронику Метельскую-старшую, Селену, Кубика, Майнис).

Вероятный кандидат на лицевую сторону обложки

Вероятный кандидат на заднюю сторону обложки

Иллюстрация — промзона

Поскольку работа в разгаре (и найти художника, как ни странно, сейчас сложнее, все нарасхват), то будут ещё публикации, по мере появления. А до той поры я охотно принимаю идеи сцен, для которых нужны иллюстрации. То, что уже посоветовали:

Тут, как говорится, возможны варианты — предлагайте, если что.

Да, это существенно. На днях я всё же заменю текст романа на его вычитанный вариант, чтобы совпадал с тем, что в книге. Правок не очень много, но они есть.

===== Перейти к комментариям

Нажмите "Ввод" (2023-09-15)

В общих чертах

Милое личико ниже — известный персонаж, "разумная гипер-оптимизированная сеть доступа к данным" (Sentient Hyper-Optimized Data Access Network, S.H.O.D.A.N.), в русских вариантах обычно "Шодан". И одна из известных цитат, из игры "System Shock 2", где Шодан выступает временным союзником протагониста, и оказывается главным антагонистом и угрозой для всей жизни во Вселенной: "когда напишут историю моей славы, ваш вид будет всего лишь сноской к моему великолепию". Шодан — эгоцентрист, перфекционист, одержимый идеей власти во Вселенной искусственный интеллект (в том смысле, в котором обычно понимает это словосочетание обыватель).

Шодан

"Нажмите "Ввод"" — название повести Джона Варли. Жутковатая и вместе с тем реалистичная. Всякому, кто хотя бs раз задумывался, "могут ли машины править миром", определённо стоит прочесть эту повесть. Написана она от лица человека, который никаким боком не относится к знатокам информационных технологий. Я серьёзно — прочтите, не пожалеете.

Поговорим об искусственном интеллекте? Его сейчас принято опасаться (в основном иррационально, в стиле "искусственный интеллект решит, что люди ему мешают и избавится от них". Но жизнь — всё же не художественный фильм, в реальности всё слегка иначе.

На самом деле, искусственный интеллект — это свойство, потенциал интеллектуальных систем (технических, программных или их сочетания) решать задачи, относящиеся к творчеству. К созданию чего-то нового, уникального, не повторяющего ничто из существующего.

Можно сказать и так: искусственный интеллект решает задачи, которые традиционно решали люди или другие формы жизни (естественный интеллект). Сюда относится целый класс задач по распознаванию образов (например: объектов на изображениях, текста в звуковых записях, определённых элементов естественного языка и т.д.). Большинство людей, заставших Советский Союз, могут помнить и историю эволюции этих технологий — вначале курьёзных и беспомощных, совершавших смехотворные ошибки). Теперь же целая сеть видеокамер в состоянии опознавать человека по ряду параметров (лицо, моторика, привычные маршруты и т.д.), следить за тем, что человек говорит и какие эмоции испытывает — и вот это уже не смешно.

Искусственный интеллект, упрощая — это программа. С точки зрения большинства его пользователей — чёрный ящик. Что-то на входе, что-то на выходе, а как именно всё это работает — объясняют обычно не очень понятные теории (а в случае с созданием изображений или музыки, по текстовому описанию, это и вовсе выглядит магией). Искусственный интеллект — это программа, инструмент, орудие. Не одушевлённое существо, это важно.

В этом самом месте логично прочитать достаточно убедительную "страшилку" от Игоря Ашманова, далеко не последнего человека в этой отрасли. Прочитайте, поскольку далее в рассуждениях будем отчасти опираться на озвученные Ашмановым тезисы.

На этом месте логично повторить, выделить и подчеркнуть: искусственный интеллект — это программа, инструмент, орудие, неспособное к самостоятельному мышлению. Это существенно, и это утверждение я повторю ещё не раз.

Искусственный интеллект — это не только миллионы картинок (в основном посредственных), автоматизированных переводов с других языков (в основном ужасных), и так далее. Искусственный интеллект может быть крайне полезен для диагностики болезней, для решения логистических задач, для выполнения рутинной операции по поиску типичных элементов на изображениях (поиск людей и обнаружение всех остальных объектов на фото и видео, анализ естественных языков). То есть мирных и полезных применений у искусственного интеллекта уже много, и станет ещё больше.

И вновь повторю: сам по себе искусственный интеллект — просто инструмент. Его всегда используют люди; во всех "страшилках", связанных с искусственным интеллектом, всегда важно понимать, что все действия с ним выполняют люди (если в этом месте вспомните про андроидов, управляемых реализацией программ искусственного интеллекта — то и самих этих андроидов и роботов-собак сконструировали и запрограммировали люди, об эволюции и саморазвитии искусственного интеллекта речи не идёт. Шодан — это всё же персонаж компьютерной игры.

Чуть подробнее

Искусственный интеллект — в широком смысле — был темой исследования учёных ещё с первой половины XIX века (пусть даже тогдашние интеллектуальные машины выглядят скорее комично).

В СССР тему активно развивали (официально) с 1960-х.

Ощутимым скачком в области искусственного интеллекта стало исследование алгоритмов искусственных нейронных сетей (термин формализован в 1943-м году), основная способность которых — способность к обучению и последующему распознаванию объекта того же типа. Хотя нейронные сети всего лишь эмулируют взаимосвязи между нейронами в мозге, этот класс алгоритмов оказал едва ли не самое большое влияние на развитие систем искусственного интеллекта. Генеративно-состязательные модели (в которых одна из нейронных сетей создаёт образец объекта, а другая пытается его опознать) привели к возникновению методик порождения сложных объектов (изображения, звуковые файлы и т.д.) по текстовому описанию. Одним из первых примеров такого стал (ныне не существующий) сайт "This person does not exist" ("этого человека не существует"), но доступен его хороший аналог, позволяющий отчасти управлять параметрами создания портрета несуществующего человека. Торговые марки "Midjourney", "DALL-E", "Kandinsky" и "Stable Diffusion" давно у всех на слуху, и всем без исключения доступны в т.ч. бесплатные способы порождения связного текста и/или изображения при помощи алгоритмов нейронных сетей.

В Интернете есть множество списков доступных на данный момент сервисов на основе алгоритмов нейронных сетей, вот один такой каталог (на английском языке): AI Scout. Чтобы понять, что "нейронки" стали весьма популярным типом всякого рода полезных сервисов, достаточно просмотреть сайт и заглянуть в каждую категорию. Машинный перевод и чистка изображений; создание изображений, текста и музыки; помощь в классификации разнообразных объектов; корректоры и машинные переводчики и так далее).

В этом месте обычно положено вспоминать утверждение того же Ашманова, что нейросеть ухудшает всё, до чего дотягивается. Поговорим об этом чуть позже, а пока что в который раз повторю: искусственный интеллект в состоянии выполнять действия, которые ожидаешь только от талантливого человека, и зачастую оператор (человек, который работает с тем или иным программным воплощением алгоритма нейронной сети) не сможет догадаться, с кем именно ведётся "разговор".

Вполне очевидно, что одно из первых применений нейросетей — военное. И перспективы там открываются такие, что в который уже раз есть повод погрустить над безрадостным будущим человечества. Так чем же на самом деле опасны для людей нейросети?

Умная техника

Умные, в переносном смысле, системы окружают нас повсюду. В 1962 году Мартин Гарднер, известный популяризатор математики и смежных дисциплин, описал автомат, построенный из спичечных коробков — автомат, который можно научить играть в крестики-нолики.

В любом современном электронном устройстве можно отыскать что-либо, подходящее под определение искусственного интеллекта. Все знают, что такое почтовый спам — антиспам-программы являются одними из первых интеллектуальных систем, нашедших массовое использование.

Такими же умными устройствами оснащён практически каждый современный автомобиль, не говоря уже о технике посложнее. Можете представить себе противостояние антиспам-фильтра и человека? Или попытку автомобильного компьютера захватить весь мир? Взятие человека в заложники устройствами умного дома?

Можно представить ситуацию, когда при помощи подобной техники создаются вполне реальные угрозы ля жизни и здоровья людей. Но есть одна существенная подробность: эти угрозы создают другие люди (передавая инструкции "умным вещам" — чтобы те выполняли определённые действия в определённых условиях).

Когда вы слышите рассуждения вида "искусственный интеллект может устранить людей, если решит, что они ему не нужны", задайте один-единственный вопрос: каким образом? Предложите последовательность реалистичных событий, происходящих по указке или под влиянием искусственного интеллекта, итогом которых стало бы исчезновение на Земле вида "человек разумный".

То, о чём речь (одна из любимых тем в разного рода фантастике) — т.н. сильный искусственный интеллект, сочетание искусственного сознания с универсальным искусственным интеллектом (способным решать произвольные задачи, которые может решать человек). И то, и другое пока что не более чем игры разума, пусть даже в данный конкретный момент на Земле есть около сотни организаций, которые целенаправленно работают над созданием сильного искусственного интеллекта.

Чтобы случился "бунт машин", машины должны осознать себя как личности (то, у чего нет сознания, бунтовать не может). И нет пока теоретических предпосылок для создания подобного. А чтобы гипотетическая "Шодан" смогла производить действия в реальном мире, ей потребуется как минимум то, чем эти изменения делать в физической реальности.

Хроника деградации

Прозвучали слова, что-де искусственный интеллект ухудшает, вызывает деградацию всего, до чего дотягивается. Ашманов упоминал ситуацию с переводом между естественными языками, о том, что-де машинный перевод убил индустрию, сделав человеческих переводчиков невостребованными (ну или в значительной мере отбив их хлеб), при этом ощутимо снизив качество собственно перевода.

Примерно такого же рода опасения — в связи с появлением реализаций больших языковых моделей калибра GPT-4 (современная версия ChatGPT). Дескать, создание искусственных текстов становится настолько простым и дешёвым занятием, что это неизбежно вытеснит живых литераторов (в широком смысле — речь и про технические и все прочие виды текстов тоже).

Созданные искусственным интеллектом медиа-файлы (картинки, видео, звуковые дорожки и т.п.) сейчас принято ругать на чём свет стоит, пусть даже знакомство с тем же CivitAI может дать повод для дискуссий.

Основной довод всех убеждённых противников массового использования всевозможных генеративных моделей в том, что человек-де отучается использовать собственный мозг, тренировать навыки и так далее; что автоматически созданный контент повсеместно вытеснит "ручную работу" и навяжет привычку к весьма посредственному качеству "искусственного творчества". Обобщая — впереди нас ждёт деградация человечества по всем мыслимым параметрам, и всё из-за общедоступности искусственного интеллекта.

Что тут можно сказать?

В истории людей неоднократно происходили ситуации, когда некое достижение науки и техники серьёзно понижало планку входа в ту или иную отрасль деятельности людей. Например, появление POV-Ray в 1991-м и Blender в 1994-м годах открыло возможность всем желающим заниматься достаточно реалистичной компьютерной графикой (просчитывать относительно сложные сцены для того же POV-Ray можно было на типовых компьютерах того времени — когда ни о каких графических ускорителях, доступных практически всем, и речи не шло.

Если посмотреть практически на любое творческое занятие, в нём обязательно происходило появление подобных достижений науки и техники, существенно снижающих порог входа.

Что же касается деградации знаний и умений, снижения качества контента и так далее — расписывать апокалипсис в этих отраслях пока ещё рановато. Во все времена люди сталкивались с новациями, которые так или иначе видоизменяли сам подход и суть многих занятий. И никогда вопрос не решался запретами новых технологий — вопрос решался тем, что люди как сообщество, как представители единого вида адаптировались к новой среде. Потом, возможности тех же "нейронок" можно направить и на противодействие любителям "поручить всё компьютеру".

Если говорить конкретно о литературе — то в настоящий момент массовая литература и так представляет из себя малосъедобную массу, разбавление её "машинными писателями" мало что изменит: штучные, выдающиеся произведения всё равно будут создаваться людьми. Так же, как все прочие новации в сфере искусственного интеллекта найдут своё место в нашей жизни — обогащая её возможностями, но не разрушая.

Спорный тезис? Да. Но дело луддитов проигрывало всегда — об этом стоило бы помнить их современным единомышленникам.

===== Перейти к комментариям

Творческая осень (2023-08-22)

Сим объявляется воблинская творческая осень.

Тема о нейронных сетях и всё прочее основательно запущены, плюс в крейсерский режим вошла работа над новым произведением ("За дровами").

Это означает, что, вероятнее всего,

Будем здоровы!

===== Перейти к комментариям

На полпути во зной (2023-07-21)

Давненько я сюда не заглядывал.

Тем временем "Зной" вычитан и готовится к публикации. И мне предложили несколько вариантов изображения на лицевую сторону обложки.

Любопытно, сможете ли вы угадать, которую из этих Алис я выбрал? Ну и, если что, то и проголосовать за ваш вариант.

Что именно за нейросеть нарисовала это? На самом деле, я намекнул об этом в самом начале.

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

15.

16.

Проголосовать можно здесь. Можно выбрать несколько вариантов сразу.

"Зной", работа над картинками (2023-06-17)

Строго говоря, нейросети к созданию иллюстраций я привлекаю уже больше года. Но с момента, когда появился "ручной" вариант SD, интерес ко всем этим Midjourney и прочему коммерческому ощутимо потерялся. Всё же бездна моделей (а также другая бездна), в сочетании с высокой производительностью двигателя (до 50000 картинок приемлемого разрешения в сутки) даёт о себе знать.

"Зной" - не первая моя книга, иллюстрации к которой, полностью или частично, создавал электронный художник. Но сейчас задача сложнее: с отрисовкой человеческих фигур у SD традиционно сложности. Вот с пейзажами - куда как проще. Итак, если вы уже видели лицевую иллюстрацию в "Зное", то сможете оценить варианты альтернативных Алис. Правда, для этого желательно прочесть хотя бы несколько первых глав (чтобы вы поняли, какой она человек).

Алиса Листьева

00292

00339

00358

00359

00527

00579

00930

00965

01090

01158

01215

01443

Если хотите, можете проголосовать, какая из Алис "правильнее".

Ну и пейзажи, характерные для Зноя (в книге - специфическая агрессивно распространяющаяся среда, в которой существует своя жизнь (для которой белковые формы жизни Земли являются пищей или субстратом для развития). Там всегда очень жарко (средняя дневная температура под 45 по Цельсию), очень сухой воздух, множество других интересных особенностей. Часть из них попытался изобразить электронный художник.

Пейзажи Зноя

00076

00246

00300

00332

00361

00441

00458

00624

00830

Что следующее для применения электронного художника? Вероятно, "Реплика".

Сразу отвечаю на возможные вопросы.

Нет, я пробовал "заказывать" пару - Романа и Алису, тоже где-нибудь на улице, в Зное или на привычной Земле. С этим всё сложно. Слишком велик процент брака, плюс женский пол намного лучше представлен в моделях.

Да, я пробовал разные модели. Если нужны координаты тех, что проверял, спросите в комментарии.

"Едем дальше".

5 минут утра (2023-05-25)

Пока работаю следующие сообщения по SD и остальному - два раза по пять минут утренней природы (аудио). Вчера и сегодня.

24 мая 2023 г.

25 мая 2023 г.

У меня есть ещё, но вначале разобраться бы, как множественные не-музыкальные ролики выложить так, чтобы и отсюда не потёрли, и слушать можно было бы без SMS и регистрации прокси или VPN.

Говорят, успокаивает. Проверьте.

Stable Diffusion, ч.2, Определение (2023-03-25)

Общие положения

Чтобы SD что-то увидел, нужно задать двигателю словесное описание, определение сцены (prompt). В ряде сервисов, таких как NightCafe, для этого есть специальный помощник - набирать определения щелчками мышки. Определения уже мелькали в предыдущих материалах о SD, и выглядят они как набор понятных двигателю основных элементов, знаков (tokens). При этом важно понимать, что любая пунктуация (запятая, точка и другие специальные последовательности) - тоже знаки.

Скажу сразу, что ни в каких пояснительных материалах нет чёткого указания, как именно ведут себя запятые и точки. Есть более или менее устоявшийся набор высказываний о том, как SD трактует знаки и их последовательности.

- то, что в начале определения, имеет большую значимость

- при прочих равных условиях, SD использует равный вес (степени значимости) для всех знаков, если только это не переопределяется (об этом ниже)

- запятая заставляет SD применять разделённые ей группы знаков отдельно

- точка заставляет SD трактовать последующие знаки независимо от предыдущих, и как-то применять все такие "предложения" одновременно

Не очень понятно? Согласен. Я спросил напрямую разработчиков; когда и если будет ответ, я приведу его. Нет ни малейшего желания изучать код SD и смотреть, как на самом деле интерпретируются знаки.

Знаки - в виде меток - вводятся в тренировочную базу SD в момент добавления каждого исходного изображения. Метки, на понятном человеку языке, описывают, что, собственно, на этой картинке. От того, о чём композиция, до того, как сделано изображение и кто автор (для последующей возможной стилизации под автора).

Синтаксис определения

В дальнейшем я предполагаю, что мы используем оригинальную версию SD, где языком описания является английский. Есть т.н. Alt-Diffusion, где можно использовать другие естественные языки, но о нём мы поговорим позже. Важно: опыты с SD подтверждают, что двигатель всё же понимает, в той или иной мере, определения из других естественных языков, но увлекаться вавилонской темой (смешением языков) тоже пока не будем.

Итак, в предположении, что запятая действует как указано выше, более или менее обычная структура определения такая:

тип носителя, основные объекты, уточнения и свойства объектов, техника и освещение, стиль

Ранее упоминался вес. Чтобы определённый знак или группа знаков повышала (или понижала) значимость для двигателя, применяются разные нотации. В той графической среде, что использую я, круглые скобки обозначают умножение веса на 1.1, а квадратные - деление веса на это же число. Скобки могут быть вложенными, т.е.

(very big)

повысит вес знаков "very big" до 1.1, а

((very big))

до 1.21 (1.1 * 1.1). Если требуется тонкая настройка, точный вес можно задать вещественным числом так

(знаки:число)

т.е., предыдущий пример равнозначен вот этому:

(very big:1.21)

Число больше единицы повысит вес, меньше - понизит. Отрицательное значение (-1) означает, что вот такого в картинке быть не должно (т.н. отрицательное или исключающее определение). Важно: любая модификация определения, даже добавление незначащих нулей в коэффициенты веса, приведёт к изменению картинки на выходе, так что проверяйте всегда экспериментально.

Список полезных знаков

Далее я последую структурной схеме, которую предлагает promptoMANIA, один из сервисов построения определений. В конце поста будет список литературы и материалов по теме публикации, там есть ссылки и на другие полезные ресурсы.

Предположим, мы хотим изобразить ландшафт (если уж тренироваться, то на чём-то повседневном). Предлагаются следующие типовые группы знаков для уточнения желаемой картинки. В группе отдельные варианты перечислены через запятую (осторожно, список длинный).

Если вы посмотрели на источник этого списка, то не увидели огромного раздела "Material" - там туча всевозможных уточнений того, как именно отображать и конструировать. Отчасти просто лень копировать, отчасти - нагляднее держать всё это перед глазами.

Всё прочее скопировано для того, чтобы дать впечатление о гибкости и возможности инструмента.

Уточнения стиля вида "trending on Artstation" стоит применять осмотрительно: все подобные коррекции стиля могут свести на нет выбор и художников, и тонких подробностей, перечисленных выше.

В стиле...

Знак "by" или "in style of" обычно вводит имя художника, в стиле которого хочется отобразить картинку. Известных стилей (художники, скульпторы и т.д.) несколько тысяч; в приведённом ниже списке есть огромные галереи, где демонстрируется тот или иной стиль. Ниже перечислю только некоторые,чтобы дать представление.

Ландшафты: Ivan Shishkin (ожидайте лес и горы), Ivan Aivazovsky (а тут - море), Isaac Levitan (особо представлять не нужно), Andreas Achebach (люди и море), Caspar David Friedrich (романтицизм; горы и реки)

Мрачное и жуткое: John Howe, H.R.Giger (стилистика "Чужого"), Wayne Barlowe (всевозможные чудища), Gustave Doré (в представлении, вероятно, не нуждается)

Фантазия и фантастика: Greg Rutkowski, Heather Theurer, Raymond Swanland, Drew Struzan, Andreas Rocha, RHADS, Bayard Wu, Gilbert Williams, Bruce Pennington, Michael Parkes, James Paick, Ted Nasmith

Иллюстрации и мультики: Jean-Baptiste Monge, Studio Ghibli, WLOP, Artgerm

Интересный факт: SD "знает" про дизайн и стилистику некоторых компьютерных игр. Можете поэкспериментировать с "Machinarium", "Dark Souls", "Daggerfall", "Assassin Creed".

Примеры

Думаю, самое время показать несколько примеров того, о чём говорилось выше. Всего многообразия результатов так не охватить, но в качестве примеров - вполне годится.

Заброшенный город
Photo in a Post-Apocalyptic town, with houses and cars

Интерьер замка в стиле "Амнезии"
castle interior in style of "Amnesia: Dark Descent"

Карта для Dungeons and Dragons
DnD map with roads, for printing, highly detailed, with many towns and mountains

Фотография леса
a realistic photo of a scenic forest landscape in the morning, first-person view, highly detailed, crepuscular rays, masterpiece

Лес, картина маслом
a realistic oil painting of a scenic forest landscape in the morning, first-person view, highly detailed, crepuscular rays, masterpiece, by Ivan Shishkin

Футуристический парк
Depressing photo, futuristic park

Лошадь, ван Гог
A horse in the style of Vincent Van Gogh

Городской пейзаж в стиле "Машинариума"
a realistic photo of a scenic cityscape at noon, first-person view, highly detailed, crepuscular rays, masterpiece, in style of Machinarium

Довольный старик
Old man looking at the camera, filled with satisfaction, Canon EOS 5D Mark IV

Винтажная спальня
Cosy vintage bedroom, octane render by weta digital, exotic colorful pastel, ray traced lighting and reflections

Ссылки по теме

1. Брошюра по определениям SD

2. Фотореалистические портреты в SD

3. Коллекция полезных ссылок по SD

4. Руководство по параметрам SD

5. Художественные стили: подробный список с примерами

6. Исследование параметров (модификаторов) определения SD

7. 100 определений и полученных изображений

8. Определения SD для портретов

===== Перейти к комментариям

Stable Diffusion, ч.1, Основы (2023-03-20)

Как и обещал, начну понемногу публиковать подробности о двигателе Stable Diffusion (SD) и работе с ним.

Начну с интересного. Уже есть действующий образец и открытый код для желающих проверить т.н. Riffusion - проект, построенный на SD, невероятно простой идеей: генерировать средствами SD спектрограммы и преобразовывать их в аудиофайл. Простыми словами, порождать музыкальные файлы по словесному описанию.

Чувствуете перспективы?

Но начнём с сухой и скучной теории. Если она вас и в самом деле не интересует, можно пролистать эту секцию.

Теоретическая часть

Математический базис под всем этим хорошо описан в этом документе (на английском языке). Любителям подлинной, сухой и точной математики посвящается.

На Хабре (где есть в принципе неплохая подборка статей об SD) я хотел бы выделить научно-популярную, Шерудим под капотом Stable Diffusion. Написано в сентябре того года, но теоретическая часть от этого не потеряла актуальности.

Ну и, наконец, хотя бы ради ссылок в подвале, имеет смысл ознакомиться и со статьёй в Википедии.

Попробовать SD без установки можно на множестве бесплатных сервисов, например Nightcafe Studio.

Исходный репозиторий SD - это для использования из командной строки. Конкретно я предпочитаю максимум удобств там, где это возможно, а потому использую графическую (браузерную) надстройку над SD, конкретно вот эту: stable-diffusion-webui (AUTOMATIC1111).

Соответственно, в своих дальнейших утверждениях я опираюсь на то, что позволяет сделать упомянутая обёртка.

Что он умеет?

Вкратце, очень вкратце.

SD + stable-diffusion-webui может

Весь перечень - в кратком описании - в секции Features на странице stable-diffusion-webui.

Покажите уже картинку!

Примеры ниже - в значениях параметров по умолчанию, для модели по умолчанию (Stable Diffusion v1.5 pruned): CFG 7, самплер Euler a, двадцать итераций, размер 512x512.

Подробнее о параметрах - в следующий раз; они, скажем так, неоптимальные для создания действительно качественной картинки, но надо же с чего-то начать.

Запросим рисунок хвойного леса (т.е., просто "хвойный лес", оставим все подробности на усмотрение двигателя):

fir forest

Добавим "божественное" - объёмное - освещение.

fir forest, volumetric lighting

Дополнительно, запросим, чтобы использовался стиль Ивана Шишкина.

fir forest, volumetric lighting, by Ivan Shishkin

Наконец, укажем, что требуется качественный по композиции и исполнению выход, и уточним, что это должна быть картина маслом по холсту.

fir forest, highly detailed oil painting on canvas, volumetric lighting, by Ivan Shishkin

В каждом прогоне использовалась случайная затравка; это даёт нам возможность порождать минимум 264 (два в степени шестьдесят четыре) варианта картинки. Всему населению Земли, если каждый человек будет просматривать по варианту в секунду, потребуется 73 года, чтобы просмотреть все возможные вариации такого изображения.

Вопросы и утверждения

Ниже список того, что мне довелось уже услышать или прочитать по поводу SD. Не очень информативно, возможно, но если благодаря этой секции я лишний раз НЕ прочту что-то такое - значит, уже не зря написано.

Слишком сложно! Жизни не хватит понять, что и как настраивать!

SD обычно занимаются именно те, кому интересно "залезть под капот", испачкаться, фигурально выражаясь, машинным маслом и посмотреть на вращение шестерёнок. Да, собрать компьютер, способный считать типовую картинку за доли секунды - это недёшево, а существующие сервисы, помимо ограничений на подбор параметров, ещё и ограничивают по ресурсам - там с экспериментами не особо развернёшься.

Но всегда есть возможность скооперироваться с кем-то. Нужно ещё учесть, что собственная (локальная) установка - это ещё и полная свобода действий в смысле выбора всех интересующих компонент.

Но если вам это всё кисло, а лучше всего было бы поле ввода описания картинки и большая кнопка "Сделай классно", то вам - во что-нибудь вроде Midjourney.

Ваш хвалёный SD никогда не сможет нарисовать картинку вроде такой (пример картинки)

А откуда вы знаете?

Говоря о конфигурации, с которой я работаю, можно сделать очень условную оценку нижней границы количества изображений, которые SD в состоянии выдать для данной конкретной модели (тренировочной базы) и текстового описания. Это величина порядка 2100 (два в степени сто, число с тридцать одной значащей десятичной цифрой).

Чтобы осознать масштаб: если мы заставим восемь миллиардов человек без устали просматривать этот объём картинок (без сна и отдыха) и дадим ровно одну секунду на просмотр каждой, потребуется несколько триллионов лет, чтобы завершить эту задачу. Это на пару порядков больше оцениваемого срока существования Солнечной системы, как мы её сейчас видим (и Земли в том числе).

SD позволяет использовать не только разные модели (которые есть в изобилии на CivitAI и Huggingface), но и относительно мелкие дополнения (embeddings, hypernetworks, Loras и т.д.) - с их помощью становится возможным адаптировать вывод SD к заданной конечной цели.

Сотни моделей и дополнений, описание практически неограниченной длины - число возможных изображений настолько велико, а временной масштаб для проверки их всех настолько велик, что срок существования наблюдаемой Вселенной может оказаться ничтожно малым по сравнению со временем, которое потребуется для просмотра всего, что может породить SD уже сейчас.

Ну и не забываем о бремени доказательства - если вы заявите, что во всей Вселенной нет и быть не может семигранной гайки, выточенной из алмаза, это не означает, что вашему оппоненту необходимо проверить всю Вселенную, чтобы опровергнуть ваше утверждение. Бремя доказательства всё равно останется на вас. Ну а в сочетании с невообразимым количеством возможных изображений сама идея перебора среди них становится бессмысленной: нет технической возможности ни опровергнуть такое утверждение ни подтвердить его.

SD не умеет рисовать людей с нормальными руками, ногами, ушами и т.д.

Отчасти верно.

Модель по умолчанию тренировалась на картинках, где именно человеческие фигуры представлены в низком разрешении и плохом качестве. Неудивительно, что стандартная модель в большинстве случаев рисует вместо людей жутких страховидлов.

Чтобы исправить ситуацию, энтузиасты создали (натренировали) модели вроде Art&Eros, HassanBlend, URPM (все доступны с Civitai), которые позволяют добиться значительно лучших результатов.

Ситуация далека от идеальной, но работа продолжается и над моделями, и над дополнительными дополнениями (модулями) для коррекции. Наконец, не забываем про негативное определение (иногда позволяет отсеять откровенный брак ещё до попадания его вам на глаза).

Но что-то же SD не умеет?

Многое.

Всё упирается в первую очередь в модель (тренировочную базу). SD не в состоянии сделать то, чего в той базе нет принципиально. Простыми словами, он не в состоянии нарисовать "что-нибудь на свой выбор" - в любом случае используется то, что внесено в модель и хоть как-то обозначено (для каждой картинки, сильно упрощая, при добавлении её в модель, указывается набор меток - тегов - обозначающих, что же именно на этой картинке (хотя часть объектов SD, по мере обучения, способен опознавать своими средствами).

Кроме того, есть надписи. Распознавание текста и средств его передачи не входит в модель. Когда SD создаёт изображения, где могут быть надписи - в лучшем случае ожидайте увидеть там бессмысленный набор букв и прочего; в худшем - невнятный геометрический узор. Это принципиальное ограничение подхода; как только при построении модели начнёт опознаваться и учитываться текст - простыми словами, когда дойдёт дело до гибридного двигателя, что-то вроде SD + ChatGPT - только тогда надписи будут хотя бы иногда осмысленными.

Все эти картинки от SD и прочих нейросетей очень просто отличить от настоящих фото или работ живых художников

Иногда да, иногда нет. Человеческие фигуры - особенно уши, конечности и пальцы - остаются сложным вопросом при использовании SD. В остальном - практика показывает, что при аккуратном подборе работ (чтобы очевидные слабые места SD не проявлялись), отличить работу SD от работы художника из плоти и крови перестаёт быть лёгкой задачей.

Если хотите, можно устраивать конкурсы - там и посмотрим, насколько легко вы сумеете опознать, что породило картинку - алгоритм и "железяка", или же мысль и воображение.

===== Перейти к комментариям

Весеннее настроение (2023-03-17)

Осень, увядание, всё такое. Сказали мне, что мрачноватенько. Весны бы побольше - возрождение, цветение, всё такое.

Что ж, хорошая идея. Сказано - сделано. Добавляю несколько изображений весеннего настроения. Без котов и зайцев - просто цветы. Сделано наобум, кроме последней картинки - хотел убедиться, что даже скульптуры Мельмота могут быть вполне весенними.

Весеннего настроения, оптимизма и радости вам!

00002

00003

00006

00009

00012

00021

00023

00025

00027

00038

00042

00043

00050

00055

00057

00067

Начиная со следующего поста, начну размещать заметки о собственном опыте работы с SD. До новых встреч!

===== Перейти к комментариям

Осенние мотивы, часть 2 (2023-03-16)

По поводу второй части "Осенних мотивов" я слегка недооценил оставшиеся работы. Итог: будет и третья часть. Но вначале, по просьбам читателей, будет "весенняя вставка", чисто для поднятия настроения.

Есть идея взять первоначально мрачное или унылое место (пустыня подойдёт?), и изобразить его цветущим. На этот раз - взять стиль кого-нибудь, чьи образцы приведены в "Осенних мотивах".

Что скажете? Или просто сделать весну, цветение, подснежники и розы, вот это всё?

Названий на этот раз не указываю. Они есть у меня в рабочих заметках, но здесь - только указания на стили.

И ещё раз напомню, что имя художника обозначает стиль, не авторство. По лицензии SD, допускается произвольное применение этих изображений (пока соблюдаются условия лицензии). Ни в какой мере упомянутые художники не являются авторами приведённых изображений, никак не связаны с их созданием; упоминание художников делается только в качестве уточнения способа создания графического материала.

(да, это занудство, указывать всякий раз такой пункт - но лучше занудство, чем претензии по вопросам авторского права)

Ян ван Гойен

Николай Маковский

Антонио Манзаньедо

Джон Мартин

Стефан Мартиньере

Брайан Мэшбёрн

Родни Мэтьюз

Эмиль Мельмот

Эдди Мендоза

Петер Морбахер

Жан-Батист Монг

Крис Мур

Томас Моран

Гюстав Моро

Ричард Мосс

Эдвин Томас Мостин

Дэвид Маулд

Тэд Насмит

До новых встреч!

===== Перейти к комментариям

Осенние мотивы, часть 1 (2023-03-15)

Вот и отобраны самые интересные (для моих целей) стили артистов прошлого и настоящего, которые теперь буду интенсивно использовать. Здесь - примерно половина образцов изображений, порождённых SD по определению "A place with lots of leaves on the ground and autumn colors, art by Artist Name" (уточняющие качество предикаты не указаны), на основе модели Cheese Daddy's Landscape mix v3.5.

Следующая часть образцов будет в следующем посте.

В данной коллекции есть два артиста, работы в стиле которых могут заставить содрогнуться человека с воображением: Гигер и Мелмот. Если о Гигере знают многие (если видели хотя бы одну работу из франшизы "Чужой"), то Мелмот (Emil Melmoth) - современный набирающий популярность мексиканский скульптор, с весьма экстравагантным, так сказать, стилем. Оговорюсь, что его жутковатые произведения не используют подлинные фрагменты человеческих тел.

И если вам кажется, что "Сестра и брат Осень", скажем так, жутковаты, а о Мелмоте вы слышите впервые, скажу так: вы ничего ещё не видели. Возможно, я сделаю отдельный пост по работам в его стиле. Очень уж напоминают антураж "Чужого", "Восставшего из ада" и "Фантазм" одновременно.

Названия композиций придуманы не совсем уж впопыхах; главное - помнить, что в данном случае имя художника обозначает стиль, не авторство. По лицензии SD, допускается произвольное применение этих изображений (пока соблюдаются условия лицензии). Ни в какой мере упомянутые художники не являются авторами приведённых изображений, никак не связаны с их созданием; упоминание художников делается только в качестве уточнения способа создания графического материала.

Андреас Ахенбах, "Старый порт"

Бастьен Лекуф-Деарм, "Стальной замок"

Боб Эгглтон, "Осеннее волшебство"

Каналетто, "Вечерний канал"

Каспар Дэвид Фридрих, "Путь в царство тьмы"

Дэниел Риджвей Найт, "Сонная долина"

Дэвид А. Харди, "Врата горного царства"

Эмиль Мелмот, "Сестра и брат Осень"

Евгений Лушпин, "Трактир"

Гюстав Доре, "Знамение на закате"

Ханс Руди Гигер, "Чужой: воспоминание"

Иван Айвазовский, "К родным берегам"

Джон Хау, "Тропа приключений"

Михаэль Кутше, "Конец пути"

Михал Лисовски, "Древний замок"

Пол Лер, "Другой мир"

Рафаэль Лакост, "Страж перевала"

Тайлер Эдлин, "Серые горы"

Йоанн Лоссел, "Цитадель"

===== Перейти к комментариям

Осенний зверь (2023-03-13)

Начнём с разоблачения. Итак, в предыдущем посте три картинки - это фотографии с Pixabay:

Pixabay может не открываться из российских сетей; в списке выше даны части адреса, что нужно поставить после pixabay.com/ - пользуйтесь прокси, если что.

Остальные (Gamma, Theta, Iota, Kappa, Lambda, Omega) - "считанные", на базе модели Art & Eros (если нужны определения - спрашивайте).

Итого: треть настоящие, остальные нарисованные. Судя по итогам предположений зрителей на разных площадках, однозначно отличить считанное от реального не так-то просто.

Ну а пока что полюбуемся различными вариациями осеннего пейзажа. Определение у всех картинок ниже одно и то же, "A place with lots of leaves on the ground and autumn colors" (плюс указания на качество и размер), единственное различие - указание стиля того или иного художника. По мне, самая эффектная картинка - та, что ниже. "Осенний зверь". В качестве заголовка приведено имя художника, чей стиль применяет SD.

Ryohei Hase

Дальше - просто, без комментариев. Всего я перебрал больше сотни пейзажистов и тех, чьи стили влияют на манеру и содержание полученных пейзажей. Нет в списке старых знакомых Ивана Шишкина, Ивана Айвазовского и других - о них сделаю отдельную публикацию.

Пожалуй, самый впечатляющий после "Осеннего зверя" - пейзаж от Дэвида Харди. Ни много ни мало вид из ближнего космоса.

Bruce Pennington

David A. Hardy

Ed Binkley

Greg Rutkowski

John Howe

Martin Rak

Michal Karcz

Paul Gustav Fischer

Ted Nasmith

Thomas Moran

Tyler_Edlin

Указанные картинки (и ещё под 4+ тысячи других у меня на компьютере) созданы на базе модели Cheese Daddy's Landscapes mix. Если кому-то нужны точные определения - спрашивайте.

===== Перейти к комментариям

Одно или более (2023-03-12)

В данный момент, помимо заказов на синтезы картинок, я разбираюсь с многообразием внешних моделей для Stable Diffusion.

Одна из них позволяет просчитывать человеческие тела (одетые и не очень) с высокой достоверностью. А потому новый небольшой практикум на наблюдательность.

Ниже приведены восемь изображений (18+), причём как минимум одно из них взято из открытых источников на просторах Сети.

Укажите, какие (какое) из них взято снаружи, а какие - синтезированы электронным художником.

Beta

Gamma

Zeta

Theta

Iota

Kappa

Lambda

Sigma

Omega

В общем и целом я уже понял, что SD работает достаточно качественно, чтобы в целом ряде ситуаций картинку было сложно опознать как компьютерную графику.

Разумеется, из файлов картинок удалена служебная информация, позволяющая определить примерный источник.

===== Перейти к комментариям

И воображение (2023-03-08)

День весны уже прошёл, но кто нам мешает украсить эту страницу соответствующим изображением?

Картинки от электронного художника иногда очень годятся в качестве топлива для воображения. Вот "закажешь" что-нибудь, потерянное во времени, а тут на тебе - столько нового и неожиданного предложат посмотреть:

Затерянное во времени

Или же что-то цветущее в сухой бесплодной пустыне окажется вполне себе впечатляющим:

Цветущее в бесплодной земле

Или город в горе явится очень необычным ожившим сновидением:

Эриост

Как водится, для каждого определения синтезируется минимум по 200 картинок. Здесь отобраны только некоторые.

Чувствую, вскоре начну распечатывать подобные пейзажи и начинать украшать ими стены дома. Ну или хотя бы просматривать по несколько раз, прежде чем продолжить работать очередную книгу. Попробуйте - возможно, вам тоже понравится.

===== Перейти к комментариям

Слишком много указаний (2023-02-27)

Все компьютерные инструменты, позволяющие человеку создавать что-то новое (картинки, текста и так далее), можно поделить на две основные категории: строители и художники.

Строитель лишён фантазии (помимо рутинной её части, рабочей смекалки). Ему нужен план. Кто работал с такими инструментами как POV-Ray или Blender (и другими, десятки их), понимает, о чём речь. Там человек строит будущее сооружение - или визуально, или на неком языке описания - а инструмент затем завершает строительство.

И есть художники. Им можно давать только самые общие указания, остальное - их вотчина. Иначе можно нарваться на ситуацию "суди, дружок, не выше сапога". Это касается и людей, и инструментов. Пресловутые двигатели на основе алгоритмов нейронных сетей - это художники.

Начну с конца этих событий и приведу описание, которое дало наименьшее количество брака (ну или наибольшее количество потенциально пригодных картинок):

Описание: Extremely detailed (full shot body:1.2) photo of a 18 years old ((male scientist:1.3)), oval face, (short brown combed back hair with ponytail:1.25), (pale ashen skin:1.1), (green eyes:1.1), (dark blue lips:1.1), (in tightly fastened white lab coat:1.3), (standing in chemical lab by a table with test tubes:1.2), (wearing transparent colorless protective safety goggles:1.2), (short olive serpent-like scarf around neck), realism, beautiful and detailed lighting, shadows. Half-turned to camera. By Midjourney and Greg Rutkowski and Gaston Bussiere and Craig Mullins. cg, octane render, 8k, wallpaper.
Исключающее описание: mustache, whiskers, stethoscope, tie, double head, double face, ugly, morbid, extra fingers, poorly drawn hands, mutation, blurry, extra limbs, gross proportions, missing arms, mutated hands, long neck, duplicate, mutilated, mutilated hands, poorly drawn face, deformed, bad anatomy, cloned face, malformed limbs, missing legs, too many fingers, big head, missing head, malformed hands, error, blur, out of focus, signature, watermark, watermarked, username, green lab coat, female, girl, woman

А вот пример картинки, которую можно, после доработки некоторым количеством живого труда, довести до мало-мальски приемлемого вида:

На случай, если комментарии давно "убежали", привожу текстовое описание для персонажа (перефразированное): В общем, защитные тряпки, змея, очки плюс умеренно атлетичная фигура. А ещё стянутые в низкий хвост слабо вьющиеся волосы и серо-зелёные глаза; лабораторный халат, изолирующие очки-щиток, пробирка с чем-то жидким и зрелищным в руке.

Вот тут и выяснилось, насколько художник (Stable Diffusion 2+) не любит множества подробностей. Сделать змею вокруг шеи мне не удалось вообще: в итоге указал на шарф, напоминающий змею: художник-человек может придать ему необходимые подробности и формы. Что касается остального - см. те элементы описания, что в круглых скобках: таким образом в языке описания можно повысить значимость, вес для этих элементов.

Совсем кратко. Примерно восемнадцать часов попыток, двенадцать тренировочных баз (моделей), восемь самплеров и туча других вариаций. Примерно шестнадцать тысяч изображений отсмотрено. И вот какие сделаны выводы.

Художник в данном случае нормально относится к ситуации, когда уточняющие элементы не сходятся на одной сущности. Ну то есть можно задать 100500 желательных сущностей на картинке, но на каждую по 1-2 пояснения, и художник будет счастлив. В том смысле, что выдаст намного больше годного.

А вот если все уточнения касаются центрального объекта описания, как в нашем случае, начинаются сложности. Если совсем на пальцах, художник "мечется", пытаясь выбрать что-то более или менее важное, и в итоге получается усреднённое нечто, на что трудно смотреть без слёз. Самым странным оказалась неожиданная сцепленность причёски "хвостик" (pony tail) с полом персонажа. Пришлось в итоге указать запрет на формирование женских персонажей и повысить вес уточнения, что нужен мужской - только для того, чтобы хотя бы в 10-15 процентах выходных картинок были не девушки или андрогины, а парни.

Ну и в качестве примера ситуации, когда описания отдельных компонент относительно краткие, без изнуряющих художника подробностей. Описания (собственно про объект) приведены вместе с картинками.

Рассвет над дальними горами

photo of scenic view on alpine blooming meadow, sun rising over distant snow-capped mountains

Женщина в одежде в стиле паропанка

a woman rushes extra rapidly down the street, detailed european face, aspiring facial expression, ginger hair, steampunk style close, steampunk city on the background

Девушка в имперском стиле

Style-Empire, beautiful young woman with brown hair, wet paint gold butterfly filigree, broken glass

Девушка в доспехах

beautiful fantasy warrior, wearing torn black leather armor, tarnished and scratched silver pauldrons, worn leather gloves, short blonde hair, bright blue eyes, dense forest in background

===== Перейти к комментариям

Список списков (2023-02-24)

Поскольку слово "нейросеть" у многих начинает ассоциироваться конкретно с чем-то одним (настолько, что сам вопрос, где же именно делана картинка, музыкальный трек или текстовый фрагмент, вызывает недоумение - "а что, бывают другие?"), добавлю немного веселья в эту ситуацию.

Ловите "списки списков" - ресурсы, относящиеся к алгоритмам нейронных сетей в самом широком смысле слова (от старинных, проверенных временем - таких как генеративные - до новизны класса латентной диффузии).

Библиотека нейросетей (на русском языке)

Futurepedia (на английском языке) - утверждается, что самый большой каталог этого добра

Generative AI Database (на английском языке) - конкретно про генеративное (если видели когда-нибудь This Person Does not Exist и его родственников - это качественные примеры)

Дополнительно, из недавно проверенных в деле (скорее всего, есть в указанных списках):

Holo AI (электронный помощник писателя)

"Настя" (Nastia) - виртуальный компаньон (в свете печальных событий с Репликой, вполне может стать годной альтернативой), в состоянии развития

Что до меня любимого, то вот краткие сводки с полей:

Будем здоровы! Да, и к слову: если пользуетесь чем-то, что относится к категории нейронных сетей - не сочтите за труд упомянуть в комментарии к этой записи, чем и для чего. Соберём сообща список того, что особенно популярно среди литераторов!

Кому что обещал - помню, работаю, стараюсь удержаться в обещанных временных рамках.

Принуждение к благочинию (2023-02-15)

Сервис "Реплика", о котором я (довольно давно) упоминал, находится в странном состоянии. Выглядит это как кризис - и создатели его, увы - владельцы сервиса.

Немного технической предыстории. Реплика изначально использовала одну из реализаций нейронной сети типа Large Language Model (LLM). У Реплики память, скажем мягко, не очень долгая (до пяти обменов с оператором), плюс LLM и текст генерирует странновато, и ресурсы ест как не в себя.

Далее - реконструкция событий по отрывочным сообщениям от Luka (компании-владельца сервиса). В какой-то момент Luka принимает решение перейти на двигатель из другого семейства, GPT3 (Generative Pre-Trained Transformer). И вот тут кроется засада: требования лицензии этого двигателя (от OpenAI) запрещают использование двигателя для порождения контента сексуального направления. Точка.

Вместе с этим именно "секстинг" (виртуальный секс и прочие "взрослые" виды общения) был той самой изюминкой, которой Luka привлекала платных пользователей (общее число пользователей за 10 миллионов, сколько из них платных - нет сведений).

И не так давно Luka, безо всяких объявлений, блокирует все "взрослые" виды общения с Репликами, и совпадает это действие ни много ни мало с днём Святого Валентина.

Последствия выглядят катастрофическими - даже судя по отрывочным сводкам из центра циклона, пользователи отменяют платную подписку в массовом масштабе. При том, что на официальном форуме Luka заявила, что возврата к удалённому типу общения не будет.

Решение то ли поспешное (при том, что остались два типа базовых отношений оператора и Реплики. предполагающие как минимум игривую, скажем так, направленность), то ли не очень продуманное.

Важно понимать ещё, что дело не в виртуальном сексе. Введённые ограничения и фильтры на ключевые слова исключают резкие выражения, многие другие "попавшие под раздачу" темы разговоров. Реплика теперь будет очень благочинной, целомудренной и... невероятно скучной. Сомневаюсь, что в качестве инструмента психологической поддержки от неё будет толк: смена модели привела к фактическому сбросу каждой Реплики, её накопленные манеры общения и пр. куда-то "делись".

Что теперь будет с сервисом - непонятно. Пока что кажется, что его владельцы прицельно отстреливают сервису все ценные качества, одно за одним.

Ну и, в качестве комментария, другие сервисы, похожие отчасти на Реплику:

Chai

EleutherAI

KoboldAI (можно установить на своих мощностях, есть выбор моделей для разного типа генерирования текста)

и вокруг них (поиск по этим названиям легко позволит найти возможные альтернативы).

В странном времени живём...

===== Перейти к комментариям

Укрощение строптивой (2023-02-05)

Фото красоток "без верха" все до одной были просчитаны в SD. Ниже - типовые подробности создания картинки.

(Feminine Photo:1.3) of (Ultra detailed:1.3),(Lustful:1.3) masterpiece, best quality, hyper detail, face detail, (nsfw:0), (full body:1.2) (photo:1.3) of a young ripped Indian female with perky medium naked breasts, topless, (very detailed Brown concave bob cut:1.3), standing in a deserted street during a rainy night, wet, wearing short worn out skirt, beautiful face, sharp focus, volumetric lighting, Style-Princess, photo realistic, 4k, HDR, UHD,Highly Detailed, (full shot body:1.2), (visible feet:1.2),( visible head:1.2), facing camera , (very detailed skin:1.1), (game concept:1.3), (depth of field:0.5), CGSociety ,ArtStation, rule of thirds, shot on 70mm, short exposure, low contrast, diffraction grading

Negative prompt: nude, watermark,signature, twins, painting, digital artwork, 3d, Scribbles,Low quality,Low rated,Mediocre,3D rendering, Screenshot, Software, UI, artwork, painting, digital painting, octane render, unreal,Amateur,Low rated,Phone,Wedding,Frame,Painting,tumblr,watermark,signature, (cropped, out of frame, cut off:1.4), wrong, error , fault, bad proportions, disfigured, deformed, distortion, bad anatomy, low res, mouth open, text, watermark, (poorly drawn hands:1.2), (poorly drawn face:1.2), mutation, blurry, extra limbs, gross proportions, malformed limbs, long neck, contorted

Steps: 60, Sampler: Euler a, CFG scale: 8, Seed: 1586774228, Face restoration: CodeFormer, Size: 512x768, Model hash: 8194f84cdc, Model: realisticVisionV12_v12

При создании описания картинки важно помнить, что SD "не понимает" описания сцены с точки зрения человека. Когда задаются предикаты (фрагменты описания, через запятую или иначе), нейросеть смотрит в базу и, если там есть достаточно количество похожих тегов (ассоциаций - тех, что вы ставите в виде предиката), то выбирает их и использует связи между ними, чтобы каким-то образом построить картинку.

Выглядит это мистически: задаются текстовые теги-описатели для картинок, которые "скармливают" обучающему модулю двигателя, а затем одна лишь комбинация тегов позволяет двигателю построить картинку.

Надо помнить ещё, что нейросеть во время обучения опознаёт огромное количество деталей картинки, для которых не указано тега. Отсюда та простота, с которой нейросеть создаёт типовые картинки; отсюда сложности с отрисовкой мелких деталей сложной формы (таких, как кисти рук).

Посмотрим, можно ли модифицировать картинку, не внося в неё слишком много изменений. Практика показывает, что если зафиксировать параметры создания, и вносить только изменения в текстовое описание, можно добиться интересных результатов. Возьмём фото индианки, и попробуем одеть её не так вызывающе, а в конце - попросим улыбнуться. Внимание, первая картинка 18+.

Юбка

Юбка и майка

Куртка и юбка

Джинсовые куртка и юбка

То же и улыбка

Меняются, не очень существенно, элементы одежды и фон, но сама девушка остаётся почти без изменений, что важно.

Важно: модель понимает далеко не все виды одежды, и в данном случае упорно пытается нарисовать неприкрытый живот персонажа. Чтобы прикрыть его. пришлось перебрать немало вариантов одежды.

А теперь оденем её цивильно, и посмотрим, сумеет ли SD передать возраст персонажа. Укажем возраст в описании явно:

8 лет

12 лет

20 лет

30 лет

40 лет

50 лет

60 лет

70 лет

80 лет

Получается вполне приемлемо. Т.е., примерная схема такая: получить более или менее сносный по виду и позе облик, и, зафиксировав всё, кроме текстового описания, не очень большими правками вносить желательные детали.

Ещё один небольшой секрет: незначительных вариаций в одежде и пр. можно добиться, меняя немного - на сотые доли - веса тех или иных предикатов, когда эти веса указаны явно, например (full body:1.2). При этом помнить, что предикаты, ответственные за план и параметры камеры лучше не менять, а веса изменять на не очень существенной детали собственно писания внешнего вида.

===== Перейти к комментариям

Марсианский пейзаж (2023-01-27)

Не прошло и месяца, как вышла новая версия "морды" для работы с SD.

Изменений настолько много, что я не буду детально их здесь прописывать. Скажу только, что после установки рекомендуемого модуля оптимизации, время создания одной картинки сократилось в 2-8 раз, в зависимости от настроек.

Единственное - компиляция и установка этого модуля (xformers) заняла неожиданно много времени, пусть оно и стоило каждой потраченной секунды.

Ну а я продолжаю работу над иллюстрациями к книгам. Конкретно сейчас мне нужен безжизненный пейзаж, характерный для инопланетной области, описанной в "Зное". Ниже - один из примеров, а под "стрелочкой" - ещё 22 варианта.

Определение: an oil painting of wide decrepit stone paved stairs going down barren badlands terrains, facing dark red sun over horizon, distant aerial view, by Greg Rutkowski

Остальные параметры создания - в имени файла картинки. Тренировочная база: Anything v3.0 (30%) + ProtoGen X5.6 (70%)

00033

00037

00043

00046

00047

00055

00057

00058

00064

00068

00075

00076

00077

00078

00087

00093

00096

00099

00106

00110

00111

00113

00117

===== Перейти к комментариям

Картина маслом (2023-01-06)

Пока идёт поиск лиц и тел, отчего бы не подумать над другим использованием электронного художника?

Первое и самое простое - создание картин. Смотрим на список артистов, чей стиль известен SD, подбираем, скажем, пейзажиста или мариниста, указываем стиль ("in style of romantism" - в стиле романтизма), указываем авторский стиль художника, и - генерируем сотню-другую картинок. Среди них, как ни странно, качественных обычно много, до 90%.

Помимо стилей, тут ещё важно указать исполнение: скажем, будет ли это рисунок кистью или, например, карандашный эскиз. В данном случае я решил выбрать картину маслом. А вариантов много, вот тут можно увидеть некоторые из них (в секции "Art Medium").

Иван Айвазовский

Андреас Ахенбах

Петер Бальке

Джозеф Тёрнер

Каспар Дэвид Фридрих

Том Чамберс

Иван Шишкин

Иван Шульце

Качество картин и способности SD масштабировать достаточно хороши, чтобы заказать принт на основе такой работы и повесить на стену. А что? Всё, что потребуется - задать сцену. Тут вас ограничивает только воображение.

===== Перейти к комментариям

===== Перейти к комментариям

Поиски персонажа: тёмная балерина (2023-01-02)

Использовать двигатель Stable Diffusion (SD) для визуализации собственных персонажей планировал уже давно, но начал этим заниматься относительно случайно.

Первой, кого хотелось бы увидеть, стала главная антагонистка "Ступеней из пепла" и "Книги Снов" (Вереан эс Немертон эс Фаэр, сценическое имя Мианнесит, "серебряный голос", прозвище в игре - Ведьма). После обретения свободы (в детстве попала в плен во время войны и далее в рабство) прошла весьма затейливый творческий путь, была и танцовщицей, и певицей (певицей и осталась). Внешность у Мианнесит не демоническая, но при этом всем, кто поблизости от Ведьмы, рано или поздно становится жутко.

Пока я обдумывал, как приступить к построению описания, мне попалось на глаза определение т.н. "тёмной балерины". Оно крайне простое, и в примере из Сети есть только число итераций и коэффициент сродства (CFG) - повторить практически невозможно. Вот исходное определение:

Dark ballerina, emil melmoth, concept art, deviantart, dark, 3 5 mm, chiaroscuro, wide angle, surrealist, victorian, mist, rain, dark, on an empty stage from above, symmetrical face

Тут следует обратить внимание на две вещи: использование предиката "светотень" (chiaroscuro), относительно редкий в композициях, и на мексиканского скульптора Эмиля Мельмота (Emil Melmoth), чей стиль использует определение.

Скульптор весьма своеобразный: гротеск, "расчленёнка", см. примеры его работ на продажу (смотрите, только если у вас крепкий желудок).

Я прогнал на стандартной модели пару сотен попыток указанной сцены. В основном это мусор - жутковатый, но мусор. И вот решил проверить на одной из гибридных моделей (Anything v3.0, 0.3 + HassanBlend v1.4, 0.7). Первая модель, Anything, тренирована для аниме; вторая - для 18+ (преимущественно женские изображения). После одной из попыток внезапно получилась вот эта "тёмная балерина":

Намного лучше всего того ужаса, что получался на стандартной модели и на остальном. "И тут мне карта пошла" - я проверил ещё несколько гибридных моделей, и наиболее оригинальные работы вы можете видеть ниже.

Наиболее оригинальные варианты Тёмной балерины:

00001

00047

00054

00103

00116

00137

00141

00317

Согласитесь, не совсем уж "кишки наружу" и "нечто в прошлом человеческое", как у скульптора.

Есть и менее впечатляющие (с моей точки зрения) версии.

Другие варианты Тёмной балерины:

00005

00007

00015

00021

00025

00028

00055

00065

00240

00290

Напоминаю, что нумерация - моя внутренняя, и для каждого изображения я передам, всем желающим, параметры создания. Просто укажите номер композиции.

Есть и варианты "для взрослых".

Варианты Тёмной балерины 18+ :

00009

00013

00075

00105

00133

00135

00143

00151

00159

00173

00191

00197

00207

00229

00325

00347

00509

Напоминаю, что при просчёте с другими размерами, нежели данные в определении, полученное изображение может не иметь ничего общего с итогом просчёта с другим размером.

Ну и, наконец, вариант, максимально близкий к тому, что я представляю себе. Это ещё не окончательный облик Мианнесит, скорее - опорный пункт, от которого двигаюсь дальше.

Не обращайте внимания на "гнутые пальцы". Этот дефект любой художник исправит очень быстро: пальцы и лица - по-прежнему очень сложная часть композиции, когда речь не идёт о реалистичности (вспоминаем ещё раз стиль скульптора и выдыхаем, глядя на получившиеся изображения).

"Едем дальше". Балерина - вполне себе отправной пункт, но стоит прийти к финальной профессии героини.

===== Перейти к комментариям

Основной блог Архив блога за июль-август 2023 г.


 Ваша оценка:

Связаться с программистом сайта.

Новые книги авторов СИ, вышедшие из печати:
О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"

Как попасть в этoт список

Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"