Митасов Андрей Павлович :
другие произведения.
Металоция неведомого. Модуль М. Мульти-модели
Самиздат:
[
Регистрация
] [
Найти
] [
Рейтинги
] [
Обсуждения
] [
Новинки
] [
Обзоры
] [
Помощь
|
Техвопросы
]
Ссылки:
Школа кожевенного мастерства: сумки, ремни своими руками
Комментарии: 1, последний от 28/03/2023.
© Copyright
Митасов Андрей Павлович
(
apm@tut.by
)
Размещен: 28/03/2023, изменен: 24/11/2024. 814k.
Статистика.
Эссе
:
Философия
,
Естествознание
,
Изобретательство
Металоция неведомого
Иллюстрации/приложения: 15 шт.
Ваша оценка:
не читать
очень плохо
плохо
посредственно
терпимо
не читал
нормально
хорошая книга
отличная книга
великолепно
шедевр
Аннотация:
Выжимка информации из Инета по мультимодальным моделям.
Предварительный анализ.
Крайнее обновление 24.11.2024.
Я думаю, учёные наврали,
Прокол у них в теории, парез...
Развитие идёт не по спирали,
А вкривь и вкось, вразнос, наперерез.
Владимир Высоцкий - У профессиональных игроков
Оглавление:
Предисловие.
Как все начиналось.
Анализ гуманитария 2.
Анализ гуманитария 1.
Анализ неспециалиста.
Резюме "анализов".
Введение в мультимодальные системы.
Предчувствие мультимодальной революции.
Анонс платформы ruDALL-E.
Краткое пояснение к используемым материалам.
Статья о "Модели Kandinsky".
Статья о "Модели Kandinsky 2.0".
Резюме о "Модели Kandinsky 2.0".
Статья о "Модели Kandinsky 2.1".
Резюме о "Модели Kandinsky 2.1".
Вместо заключения.
Часть 2. Вариации на тему мультимоделей.
Размышления о одной отсутствующей конструкции.
А вот и первые шаги к простеньким "би-системам".
А это идея новой "би-системы".
Еще пару идеек в общую копилку ММэшек.
Анонс "Модели Kandinsky 2.2".
Еще одна "безумная идея" о мультимоделях.
Неожиданный поворот в развитии "Модели Kandinsky 2.x".
Использование своего собственного языка обучения мультимоделей.
Возможный стандарт универсального интерфейса между ИИ-системами.
Когда мультимоделей становится слишком много.
Информация к размышлению:
Попытка "диффузионного" анализа анонса "Модели Kandinsky 3.0".
А чем занимаются партнеры разработчиков из Сбера?
Введение в метод диффузии для "чайников".
Еще о реализации диффузии для "чайников".
Метод "потока Пуассона" для "чайников".
Еще одно описание метода "диффузии" для "чайников".
Новое направление в работе с мультимодальными эмбеддингами.
"Дистилляция диффузионки" для "чайников".
Симулятор реальности Sora.
Диффузионные текстовые модели.
Анонс "Модели Kandinsky 3.1".
Сеанс поэтапной "дистилляции".
Больше латентов "хороших и разных".
Обучение матрицами вращения.
"Небольшая" деталь к пониманию работы "диффузионок".
Попытка понять суть метода "обратной дистилляции".
Сочетание диффузии и предсказания токена.
Иллюстрации:
Композиция "Маршрут Кандинского" от "Модели Kandinsky 2.0".
Галеон "Мультимодальность" от "Модели Kandinsky 2.1".
Композиция "Синтетическое программирование" от Bing.
Галеон "Мультимодальность" от "Модели Kandinsky 3.0".
Галеон "Мультимодальность" от "Модели Kandinsky 3.01".
Галеон "Мультимодальность" от "Модели Kandinsky 3.1".
=========
27.03.2023 6:54
Предисловие.
В оглавление.
Этот модуль мне хотелось бы ориентировать на вопросы,
группирующиеся вокруг того, что известно и, вроде, понятно,
и как именно можно представить себе работу таких ИИ-систем,
как "Модель Kandinsky 2.0" более осмысленно и системно,
чем это дается в материалах разработчиков.
Т.е. попытаться ответить на вопросы "что" и "почему",
а не только "как именно".
Отдельный момент - это как называть эти ИИ-системы обобщенно.
Сначала был вариант называть их "диффузионками",
чтобы отразить наиболее "продвинутый" на сегодня способ их обучения,
основанный на "диффузионном подходе"
(пояснения по этому подходу будут ниже).
Но после размышлений пришел к выводу, что это не правильно,
так как главная их особенность не способ обучения,
а именно попытка увязать две различные "модели" -
"модель языка/текста" и "модель образа/изображения".
Такие модели называются по-ученому "мультимодальные"
и, в перспективе, такой подход будет применяться все больше и больше,
но с разным акцентом на то, какая "модель" является "ведущей",
а какая - "ведомой".
Поэтому такие ИИ-системы в данном модуле,
ВРЕМЕННО будут называться "ммэшками",
пока не будет найдено какое-то иное более "приемлемое"
или более правильное название.
А то, что это придется сделать, тоже, практически, сомнений нет,
так как предполагаемый для интерпретации ммэшек "голографический принцип",
наверняка потребует какой-то иной терминологии/классификации.
В общем? планов и надежд на этот модуль у меня достаточно много,
но посмотрим, что получится в итоге.
Но сначала стоит немного познакомится с той очень скудной информацией,
что об "ммэшках" можно узнать из открытых источников.
Причем делать это приходится, продираясь через чудовищный "ИТ-сленг"
и увлечения англицизмами "Касты Посвященных" в тайны ИИ-систем.
=======
12.03.2023 8:37
Как все начиналось.
В оглавление.
Итак что мы имеем по информации о платформе ruDALL-E
и ее инкарнации "Модель Kandinsky 2.0".
Ну, начнем с того, что я эту информацию практически "проспал"
в свое время, так как совершенно не представлял,
что это может на что-то сгодиться в наших "железяках".
И даже практически три подряд материала на Афтершоке,
с периодом в пару-тройку дней, не возбудили интереса,
тем более, что я, в который раз, поверил, вроде как,
обоснованному и авторитетному мнению авторов этих статей,
о "сыроватости" этой технологии/направления,
да и представленные/подобранные авторами иллюстрации
вроде как это наглядно иллюстрировали.
Хотя если бы смотрел оригинальные статьи,
а не выжимки/"интертрепации", то может что-то и увидел.
В общем очередной мне урок,
что все новое - проверять самому,
и не доверять в таких вопросах
как перспективность и область применения,
практически никому,
особенно если это мнение "отрижительное" или "полоцательное",
не говоря уже про "отвергательное"
- все можно использовать в дело,
нужно только уметь это увидеть.
Но когда мне захотелось приклеить к "Металоции",
какой-то визуальный образ, то то, что нашел по быстрому в Инете,
либо было не того формата (требовался jpeg или png),
либо они были защищены авторскими правами,
а еще точнее что я просто не знал, где и как искать.
Никогда в жизни этого не требовалось.
И я решил "совместить приятное с полезным".
Т.е. проверить концепцию тренировки образного мышления
с помощью "генеративного художника" "Модель Kandinsky 2.0",
как наиболее доступной для меня.
Делать запросы на "иноземной мове" мне было откровенно "в лом".
И первый же запрос-ответ
"Модель Kandinsky 2.0 нарисовала:
Металоция неведомого
в стиле Айвазовский
8b649812ee7d4e868ced9252f1ce51e5_00000"
меня ОШАРАШИЛ,
да качество проработки деталей не важное,
но ОБРАЗ...
Я такого себе не мог и предположить.
И после этого я "Модель Kandinsky 2.0" ЗАУВАЖАЛ.
И стал ее исследовать. Но осторожно и постепенно.
Пытаясь найти с ней "общий язык".
Но это отдельная история.
(Приведена в "Модуле Е").
Ну и начал искать источники информации,
чтобы лучше понимать, с чем же я столкнулся.
И начал с тех пропущенных "мимо межушного пространства" ссылок на Афтершоке.
Но уже прорабатывать их очень внимательно.
Вот протокол этой, с позволения сказать, "аналитической разработки".
Шел от первой найденной ссылки.
=========
25.02.2023 16:12
Анализ гуманитария 2.
В оглавление.
https://aftershock.news/?q=node/1214975
Анализ гуманитария - чайник тестирует Миджорни
8.8K 13:07 - 22/Фев/23 Karver
В комментах к https://aftershock.news/?q=node/1214738
подсказали более продвинутую нейросеть Миджорни,
////// Это тоже "генеративный художник", т.е. нейросетка,
////// примерно на том же "движке" и наверняка с похожей если не той же
////// базой для обучения, но естественно со своими наворотами,
////// как в части обработки запросов, так и интерфейса/функционала.
////// Но там есть ограничения на условия использования, язык запросов,
////// и наверно что-то еще - мне это ни к чему.
////// Главное отличие в том, что интерфейс/функционал, позволяет
////// "ломать через колено" систему пытаясь за ставить ее выдать то,
////// что хочет видеть "заказчик",
////// а не то, как это "представляет себе" ИИ=Система.
////// Кому-то это больше нравится.
ей были заданы те же вопросы.
Ну, оно, конечно, гораздо продвинутее.
.......
Резюме.
По сравнению с ruDALL-E,
конечно, небо и земля,
отличия колоссальные.
Имеется масса нареканий,
но все они пока что объясняются банальной молодостью и неопытностью системы.
Напротив, сравнив Миджорни с ruDALL-E,
хочется надеяться,
что ИИ дорастёт и до нормального творчества.
Как педагог я в это не верю,
я поддерживаю мнение некоторых комментаторов,
что ИИ это просто компиляция кубиков,
которые накидали в базу данных.
С другой стороны,
у нас уже есть хороший подмастерье,
который уже делает на неплохом уровне сложную работу.
Напоследок закинул очередную провокацию.
Мальчиш Кибальчиш
.....
А вот это уже интересно.
Хотя тут и девочки, и старик вместо мальчиков,
но есть красные галстуки.
ИИ понял главное - коммуняка.
И вот это я бы назвал самой лучшей похвалой системе.
////// Вспоминая тот момент, то думаю это наблюдение
////// о вариантах "Мальчиш Кибальчиш", и присутствующем
////// во всех вариантах "красного галстука",
////// и породило сначала какое-то интуитивное ощущение,
////// что в этом "что-то есть", а затем, после нескольких итераций,
////// пришло к пониманию, что термин "токен" для такого рода систем,
////// уже НЕ СООТВЕТСТВУЕТ реальности, это уже какие-то
////// "символы", связанные какими-то "невидимыми нитями",
////// с какими-то устойчивыми "элементами изображения",
////// точнее "символами изображений", т.к. происходит не простое
////// "резать-клеить", а какая-то очень непростая, не всегда совершенная,
////// но трансформация этого зрительного образа под общую композицию.
////// Собственно из этого неясного ощущения и возникла ассоциативная
////// связь с "голографическим принципом". Где "один бит" или "токен"
////// на самом деле может выступать в качестве "ведущего символа",
////// "маяка", к которому стремится композиция, причем не непосредственно,