Skip to main content

Преодоление детектора ошибок: как нейросети помогают расширить границы творчества

Published —
Творчество не знает границ, и современные технологии помогают нам расширять эти границы еще больше. В этой статье я хочу поделиться опытом создания интерактивно-звуковой постановки для детей от 5 до 9 лет. Команда проекта успешно объединила искусственный интеллект, тактильные интерфейсы и многоканальный звук, чтобы преодолеть ограничения нашего восприятия, стимулировать креативность и создать уникальный художественный опыт. Меня зовут Юрий Дидевич, я медиахудожник, автор и вдохновитель проекта «Добрая сказка»

История создания и команда проекта

Проект «Добрая сказка» родился на пересечении работы двух лабораторий:
  • Лаборатория «Нейрокультура»: до 2022 года занималась разработкой интерактивных технологий для детей с ограниченными возможностями здоровья, направленных на их социокультурную адаптацию и развитие творческого потенциала.
  • Лаборатория новых медиа Александринского театра: исследует современные технологии в театральном пространстве.
Объединив экспертизу обеих команд, мы создали интерактивную звуковую сказку с использованием нейросети и тактильного интерфейса. Проект стал экспериментом в области симбиотического творчества в театре, где искусственный интеллект выступает в роли соавтора, а зрители влияют на развитие сюжета. Состав нашей команды:
  • GPT-2: нейросеть, выступающая в роли автора текста сказки.
  • Алина Шклярская: драматург, адаптировавшая сгенерированный текст для постановки.
  • Даниил Коронкевич: композитор, создавший музыкальное оформление.
  • Валерий Белов: видеохудожник, отвечающий за визуальную часть.
  • Анастасия Брюханова: организатор и куратор проекта.

Детектор ошибок: друг или враг творчества?

В 1968 году нейрофизиолог Наталья Бехтерева открыла феномен детектора ошибок — механизма в мозге, реагирующего на несоответствие событий привычным моделям. Он оптимизирует деятельность мозга, создавая стереотипы поведения и защищая нас от ошибок. Однако этот механизм может ограничивать творчество, сковывая возможности генерировать новые идеи. Бехтерева предполагала, что у творческих людей детектор ошибок функционирует иначе, позволяя им выходить за рамки стереотипов. Как же преодолеть эти ограничения и стимулировать креативность без вреда для здоровья?

Нейросети как инструмент преодоления ограничений

Мы обратились к искусственному интеллекту и нейросетям, способным генерировать оригинальные идеи, выходящие за рамки привычного мышления. Нейросеть GPT-2 стала нашим соавтором, создавая массив микроповествований — фрагментов текста, из которых складывается сюжет сказки.

Описание процесса fine-tuning

Сбор данных: Я собрал обширный корпус классических сказок русских и зарубежных авторов, включая произведения Пушкина, Перро, братьев Гримм и других. Это обеспечило разнообразие стилей и сюжетов для обучения модели. Подготовка данных: Тексты были очищены от лишних символов и ошибок, а также отформатированы для корректной подачи в модель. Для автоматизации этого процесса использовались скрипты на Python. Настройка модели:
  • Выбор платформы: Я использовал библиотеку Hugging Face Transformers для работы с GPT-2.
  • Параметры обучения: Настроил гиперпараметры модели, включая скорость обучения, размер батча и количество эпох, учитывая специфику русского языка и сказочного жанра.
  • Аппаратное обеспечение: Обучение проводилось на внешнем графическом ускорителе NVIDIA RTX 2080 Ti.
Обучение:
  • Используя фреймворк PyTorch, я запустил процесс обучения модели.
  • Несмотря на мощность RTX 2080 Ti, обучение заняло несколько дней из-за объёма данных и сложности модели.
  • Для ускорения процесса были применены оптимизации, такие как использование mixed precision training.
Проверка и корректировка:
  • После каждой эпохи обучения генерировались тестовые тексты.
  • Я оценивал их на связность, соответствие жанру и отсутствие логических ошибок.
  • При необходимости вносил коррективы в параметры модели и повторял обучение.
Однако модель получилась не самой удачной, и в ее работе было много галлюцинаций — несоответствий и нелогичностей в сгенерированном тексте. Это придало определённый неповторимый стиль созданным текстам, добавив элемент сюрреализма и неожиданности. В контексте сказочного жанра это оказалось даже преимуществом, придавая истории особую атмосферу загадочности и волшебства. Используемые программные средства и особенности:
  • Python 3.7: основной язык программирования для обработки данных и обучения модели.
  • Hugging Face Transformers: библиотека для работы с моделями GPT-2.
  • PyTorch: фреймворк для глубокого обучения.
  • CUDA Toolkit и cuDNN: библиотеки для ускорения вычислений на GPU.
  • Jupyter Notebook: для интерактивного кодирования и отладки.
  • MAX/MSP и TouchDesigner: для обработки и визуализации сигналов.
  • Ableton Live и Max for Live: для создания и управления звуковыми эффектами, а также взаимодействия между программами.
  • C++ и Python: для разработки программ обработки сигналов и интеграции различных компонентов системы.
  • Регулировка температуры и top-k sampling: для контроля разнообразия и качества генерируемого текста.
  • Обработка естественного языка (NLP): применение токенизации, нормализации и других техник.
В результате мы получили модель, способную генерировать уникальные микроповествования с особым стилем, которые стали основой нашего проекта.

Научное обоснование

В 2018 году ученые из Гарварда под руководством Роджера Бити изучили нейронные основы креативности, выявив взаимодействие трёх нейронных сетей:
  1. Сеть пассивного режима работы мозга (DMN) — отвечает за воображение.
  2. Экзекутивная сеть — контролирует осознанность и оценку идей.
  3. Салиентная сеть — переключает внимание между сетями.
Взаимодействие с нейросетью GPT-2, особенно с её неожиданными и нестандартными генерациями, стимулирует эти процессы, помогая преодолеть ограничения детектора ошибок. Симбиотическое творчество объединяет интуицию человека с нестандартным “мышлением” ИИ.

Взаимодействие с тактильным интерфейсом «Нейротафл»

Я разработал тактильно-кинестетический интерфейс «Нейротафл» (от «нейро» и древнескандинавского «тафл» — «стол»). Этот интерактивный стол регистрирует действия пользователя в реальном времени. Технические детали:
  • Аппаратная часть: сенсоры касания и движения, микроконтроллеры.
  • Программная часть:
    • C++ и Python: для разработки программ обработки сигналов и интеграции устройств.
    • MAX/MSP: визуальная среда для обработки аудио- и MIDI-сигналов.
    • TouchDesigner: платформа для создания интерактивной визуализации.
    • Ableton Live + Max for Live: для создания и управления звуковыми эффектами, а также взаимодействия между программами.
  • Связь между компонентами:
    • OSC (Open Sound Control): протокол для передачи информации между программами.
    • MIDI: для передачи музыкальных данных и управления параметрами звука.
Зритель, взаимодействуя с «Нейротафлом», влияет на выбор фрагментов текста, не создавая его напрямую. Это подобно «брошенному в пруд камню», меняющему направление сюжета.

Многоканальный звук и эмоциональная связь

Многоканальный звук — ключевое художественное средство «Доброй сказки». Он создаёт иммерсивную атмосферу, важную для всех зрителей, особенно для слепых и слабовидящих детей. Технические аспекты:
  • Оборудование:
    • Четыре канала окружающего звука: создают эффект полного погружения.
    • Мощные сабвуферы: обеспечивают глубокие низкие частоты, усиливая эмоциональное воздействие.
    • Громкоговорители внутри стола и над ним: добавляют дополнительные звуковые слои и эффекты.
  • Программное обеспечение:
    • Ableton Live: цифровая аудиостанция для создания и воспроизведения музыки.
    • Max for Live: интеграция Max/MSP с Ableton Live для расширения функциональности.
    • Плагины и эффекты: для обработки звука в реальном времени.
  • Интеграция:
    • Синхронизация: взаимодействие звука с действиями на «Нейротафле» и текстом GPT-2 через протоколы OSC и MIDI.
    • Обработка в реальном времени: изменение звуковых параметров в зависимости от действий зрителей.
Звук не просто иллюстрирует текст, а создаёт самостоятельный эмоциональный слой, стимулируя когнитивные способности и воображение.

Синергия технологий

Комбинация «Нейротафла», уникальных текстов GPT-2 с её галлюцинациями и многоканального звука создаёт неповторимый интерактивный опыт. Зритель становится соавтором, а технология помогает преодолеть внутренние ограничения, стимулируя творчество.

Заключение

Проект «Добрая сказка» демонстрирует, как нейросети и современные технологии расширяют границы творчества, преодолевая ограничения нашего восприятия. Несмотря на технические сложности и несовершенства модели, неожиданные результаты работы нейросети придали особый шарм и оригинальность нашему проекту. Творчество не знает границ, и технологии помогают нам расширять эти границы ещё больше. Давайте использовать потенциал нейросетей и инновационных интерфейсов, чтобы создавать новые формы искусства, вдохновлять друг друга и делать мир более открытым и инклюзивным для всех.

Литература

Призыв к действию: Я приглашаю всех, заинтересованных в развитии творчества и инноваций, исследовать возможности симбиотического творчества. Вместе мы можем создавать проекты, вдохновляющие и объединяющие людей по всему миру. Юрий Дидевич, 2024 (C)
Juri Didevič

Juri Didevič

Медиахудожник и специалист по интерактивным технологиям с 20-летним опытом. Создаю иммерсивные инсталляции, мультимедиа-перформансы и работаю на стыке искусства, науки и технологий, в том числе с нейроинтерфейсами и биологической обратной связью.

Related Articles That Might
Interest You