Митасов Андрей Павлович :
другие произведения.
Металоция неведомого. Модуль Э. Эмбеддинги
Самиздат:
[
Регистрация
] [
Найти
] [
Рейтинги
] [
Обсуждения
] [
Новинки
] [
Обзоры
] [
Помощь
|
Техвопросы
]
Ссылки:
Школа кожевенного мастерства: сумки, ремни своими руками
Комментарии: 1, последний от 03/03/2024.
© Copyright
Митасов Андрей Павлович
(
apm@tut.by
)
Размещен: 03/03/2024, изменен: 24/11/2024. 331k.
Статистика.
Эссе
:
Философия
,
Естествознание
,
Изобретательство
Металоция неведомого
Иллюстрации/приложения: 23 шт.
Ваша оценка:
не читать
очень плохо
плохо
посредственно
терпимо
не читал
нормально
хорошая книга
отличная книга
великолепно
шедевр
Аннотация:
Проработка гипотезы о фрактальной структуре эмбеддингов.
Крайнее изменение 24.11.2024
"Есть многое на свете, друг Горацио,
что непонятно нашим мудрецам."
Вильям Шекспир - "Гамлет".
Оглавление:
Вместо предисловия.
"Простенький" мысленный эксперимент.
Продолжение мысленного эксперимента.
Еще немного мысленного экспериментирования.
Предистория и послесловие к мысленному эксперименту.
Маленькая иллюстрация к эксперименту с просторов Инета.
От "ландшафта задачи" к "рельефу решения".
Обсуждение "ландшафта" и "рельефа" с Copilot.
Фрактальность пространства смешанных состояний.
Немножко о математических трюках в пространствах нейронок.
"Black box AI is bad AI".
Эксперименты с комплексной фазой в структуре эмбеддинга.
Задача о "многоуровневом" RGB-пространстве эмбеддингов.
F
А что будет, если немного повращать эмбеддинги?
Разреженные эмбеддинги и сгруппированные ансамбли нейронов.
А теперь еще и "контекстные" эмбеддинги.
К вопросу о сравнении эмбеддингов разными "расстояниями".
Интересный подход к расшифровке эмбеддингов.
Иллюстрации:
Тральщик "Наставник" от "Модели Kandinsky 2.1".
Тральщики "Наставник" от "Модели Kandinsky 3.0".
"Структура эмбеддингов" от Copilot.
"Фракталы в нейросетях" от Copilot.
Визуализация обучения нейронок от kraidiky.
"Ландшафт vs рельеф в нейросетях" от Copilot.
Тральщик "Наставник" от "Модели Kandinsky 3.01".
"Пространства смешанных состояний" от Adam Shai.
Тральщик "Наставник" от "Модели Kandinsky 3.1".
==========
25.02.2024 14:10
Вместо предисловия.
В оглавление.
Как-то в диалогах с Copilot
- теперь он по воле "Великой и Ужасной" Microsoft "заступил на пост" Bing -
прозвучало сравнение нынешней "ИИ-революции"
с изобретением "телескопа Галилея", открывшему человечеству новые миры.
И действительно, то возбуждение в обсуждениях "грядущих перспектив и изменений"
и шквал сообщений о разработках все новых и новых систем с использованием
"машинного обучения" превосходят, наверно, на пару порядков
даже "золотые лихорадки" полуторавековой давности.
Но мало кто помнит, что помимо телескопов Галилей конструировал
еще и микроскопы и тоже добился в этом не малых успехов.
Но настоящий прорыв, оказавший куда большее влияние
на развитие практических приложений науки и технологий,
случился после изобретения "микроскопа Левенгука",
открывший для человечества "новые миры" буквально "под ногами".
> Copilot 20:26
> Антони ван Левенгук улучшил микроскоп
> до возможности увидеть одноклеточные организмы.
> Микроскоп Левенгука был крайне прост и представлял собой пластинку,
> в центре которой была установлена линза.
> Наблюдателю нужно было смотреть через линзу на образец,
> закреплённый с другой стороны,
> через который проходил яркий свет от окна или свечи.
> Несмотря на простоту конструкции, микроскоп позволял получить увеличение,
> в несколько раз превышающее микроскопы того времени,
> что позволило впервые увидеть эритроциты, бактерии, дрожжи,
> простейших, сперматозоиды, строение глаз насекомых и мышечных волокон,
> инфузории и многие их формы.
Вот после года изучения тематики ИИ-систем у меня и возникло ощущение,
что в сегодняшнем "машинном обучении" упускается возможность/потребность
исследовать то, что просто "лежит под ногами",
а именно микроструктуру так широко применяемых эмбеддингов.
Напоминаю, тем кто "не знал, не знал, да забыл",
что это эмбеддинги это просто название/термин числового представления
как входных данных нейросетей, так и их внутреннего представления,
как для данных так их контекста.
И которыми в "машинном обучении" как-то приспособились пользоваться.
Большего о них "науке неизвестно", см.:
"Эмбеддинги простыми словами."
"Еще раз об эмбеддингах еще более простыми словами."
Существующие в "data science" представления о эмбеддингах
по факту используют только две различные и не совсем согласованные парадигмы.
Согласно одной, эмбеддинги это "точка в многомерном пространстве",
и с ним релевантны такие операции как вычисление расстояния,
включая "золотой стандарт" "машинного обучения" - "косинусное расстояние".
Согласно другой, эмбеддинги это распределение вероятностей,
и с ними эффективно применять другой "золотой стандарт" - операцию softmax.
И собственно на этом все.
Все это было найдено/нащупано больше методом "научного тыка".
и хотя работает это не всегда очень точно,
в особенности косинусное расстояние,
но для целей добиться точности/производительности моделей порядка 95%
это худо-бедно применимо.
А вот для большей точности - вопрос,
так как очень много непоняток всплывает в использовании эмбеддингов,
на которые упомянутые парадигмы ответов не дают.
И как я полагаю, дать не могут, из-за отсутствия
реального понимания, что именно и КАК именно
действительно представляется информация в эмбеддингах.
Причем, обычно эмбеддинги рассматриваются как многоэлементные вектора,
и вопрос о том "что происходит/представляется" ВНУТРИ отдельного элемента,
вообще за этот год мне ни разу не встречался.
По умолчанию предполагается, что это просто число,
и близкие значения этого числа соответствуют
близким ПРЕДСТАВЛЕНИЯМ этого числа.
Эта так называемая "аксиома близости",
предполагающая определенную "монотонность" и "неразрывность".
И несмотря на то, что практика свидетельствует, что это "не совсем так",
этот интересный вопрос остается вне поля рассмотрения "настоящей науки".
Хотя оправдание этому все же есть.
Так как обычно с одноэлементными эмбеддингами никто не работает,
а используются как раз очень многоэлементные эмбеддинги,
проявление "немонотонной" и даже "разрывной" сущности
КАЖДОГО элемента эмбеддинга в "пространстве эмбеддингов"
существенно "замаскировано".
И проявляется "когда этого совсем не ждешь".
Именно на этом основана относительная работоспособность
упомянутых выше основных парадигм работы с эмбеддингами.
Но если все-таки внимательно приглядеться к внутренней структуре
отдельного элемента эмбеддинга,
"то можно увидеть две, три, а лучше пять звездочек..."
Я не знаю точно какую именно структуру можно увидеть в этом
простейшем элементе гигантских нейросетевых моделей,
но по ряду соображений - о них будет далее более подробно -
предполагаю, что эта структура очень близка к фрактальной.
Во всяком случае ничего более близкого пока найти не удалось
- может быть, такой структуры вообще нет в современных "научных классификаторах" -
и тем интереснее это поисследовать,
пока большинство озабочено попытками "быстрой монетизации"
известных "полушаманских/полуэвристических" решений/знаний.
С учетом используемой реальной размерности эмбеддингов,
представляется разумным на данном этапе,
разделить задачу исследования эмбеддингов на два раздельных потока.
Один посвятить анализу особенностей ТОПОЛОГИЧЕСКОГО "пространства эмбеддингов"
в модуле, который изначально был ориентирован на исследование
фрактальных. дробноразмерных пространств ("Модуль Б. Базис."), например, см.:
"Каково же оно "пространство эмбеддингов" нейронки?"
А в данном модуле сосредоточится на анализе структуры/представлении
отдельного элемента эмбеддинга.
"И посмотрим, что получится".
"A graphical summary of our discussion about the structure of embedding elements in JPG format with my logo"
Создано с помощью искусственного интеллекта Copilot на платформе DALL? E 3.
========
25.02.2024 16:28
"Простенький" мысленный эксперимент.
В оглавление.
Чтобы почувствовать "аромат задачи" по анализу структуры элемента эмбединга,
предлагаю рассмотреть простенький мысленный эксперимент.
Представим, что мы создали простейшую на сегодняшний день нейросеть
для распознавания цифр, имеющую классическую UNet архитектуру,
состоящая из кодировщика, например, сверточной сети,
декодировщика, например, из парочки полносвязных слоев,
и выходного слоя самого простого типа.
Если эти понятия вызывают затруднения, то можно посмотреть
очень неплохой материал по принципам и архитектуре сверточных сетей:
"Сверточная нейронная сеть, часть 1:
структура, топология, функции активации и обучающее множество"
Автор: HybridTech (Иван Голиков)
https://habr.com/ru/articles/348000/
31 янв 2018 в 16:47
В принципе отсылка к сверточной сети не настолько принципиальна,
можно предложить и другие решения, важно чтобы она имела U-подобную архитектуру,
с узким "бутылочным горлышком" - это принципиально.
Дальше будет понятно почему.
Отличие от стандартной сверточной сети в нашем мысленном эксперименте
будет в том, что в "бутылочном горлышке"
- месте, где соединяются кодировщик и декодировщик -
размерность вектора эмбеддинга будет равна единице.
А учить такую сеть мы первоначально будем на распознавании
только двух сильно различающихся цифр, например, 0 и 1,
используя самые "продвинутые" и надежные техники.
Причем, ни в каких соревнованиях на точность эта сеть участвовать не будет,
нам важно понять, может такая сеть обеспечить распознавание двух цифр,
с точностью, скажем 60%,
без ограничений на сложность кодировщика и декодировщика,
и время обучения.
Представили, себе такую сеть
слева гигантский замысловатый кодировщик,
справа не менее изощренный декодировщик,
а между ними одноэлементный эмбеддинг.
И теперь главный вопрос - "будет такая сеть работать,
т.е. различать 0 и 1 с минимум 60% точностью?"
Да я знаю, что эмбеддинг 2*2 в "бутылочном горлышке" точно обеспечит
приемлемую работоспособность такой модели. Тут вопросов нет.
И даже если вообще убрать все нейросетевые навороты и машинное обучение,
можно сделать систему которая точно будет работать,
например, разбив значение элемента эмбеддинга просто на два поддиапазона.
Все так.
Но мы как раз и занимаемся тем, что пытаемся "под микроскопом"
посмотреть на значения ОДНОГО элемента эмбеддинга,
в самом простом случае.
Итак, будет такая система работать или нет?
У меня твердое убеждение, что будет,
так как никаких ни теоретических ни экспериментальных "противопоказаний"
такому выводу еще не встречал.
Copilot выставлял замечания, что с точки зрения распознавания
такая структура очень далека от оптимальной.
Все так, но нас интересует не эффективность этой сети,
а процессы происходящие, причем только в одном конкретном месте
- в одноэлементном эмбеддинге "бутылочного горлышка".
Ну и теперь, попробуем представить, как выглядит структура
этого одноэлементного эмбеддинга обеспечивающего распознавания всего двух цифр.
Будет ли это всего два четко разграниченных поддиапазона,
или целое множество поддиапазонов различной ширины и местоположения?
Мое мнение, что это будет множество, причем зависящим
как от структуры кодировщика и декодировщика, функции/процедуры обучения,
так и от начальной инициализации нейросети,
и даже последовательности обучающих примеров.
Почему такой вывод?
Ну, во-первых еще никому не удавалось на эмбеддингах выделить
четкие зоны/поддиапазоны, отвечающие за весь спектр декодируемых значений.
А во-вторых, давайте продолжим наш опыт еще чуть дальше,
и тогда будет более понятны основания такого вывода.
Предположим, что по какому-то "экстраординарному стечению обстоятельств"
при обучении нашей гипотетической нейронки различать только две цифры
в элементе эмбеддинга сформировалось только два четких поддиапазона,
отвечающих за идентификацию одной конкретной цифры.
И продолжим обучение нашей воображаемой нейронки,
но теперь будем обучать ее различать уже три цифры 0, 1 и 2.
Про "переобучение" пока не вспоминаем, так как учили мы ее далеко