Преодоление детектора ошибок: как нейросети помогают расширить границы творчества
Published —
Творчество не знает границ, и современные технологии помогают нам расширять эти границы еще больше. В этой статье я хочу поделиться опытом создания интерактивно-звуковой постановки для детей от 5 до 9 лет. Команда проекта успешно объединила искусственный интеллект, тактильные интерфейсы и многоканальный звук, чтобы преодолеть ограничения нашего восприятия, стимулировать креативность и создать уникальный художественный опыт. Меня зовут Юрий Дидевич, я медиахудожник, автор и вдохновитель проекта «Добрая сказка».
История создания и команда проекта
Проект «Добрая сказка» родился на пересечении работы двух лабораторий:- Лаборатория «Нейрокультура»: до 2022 года занималась разработкой интерактивных технологий для детей с ограниченными возможностями здоровья, направленных на их социокультурную адаптацию и развитие творческого потенциала.
- Лаборатория новых медиа Александринского театра: исследует современные технологии в театральном пространстве.
- GPT-2: нейросеть, выступающая в роли автора текста сказки.
- Алина Шклярская: драматург, адаптировавшая сгенерированный текст для постановки.
- Даниил Коронкевич: композитор, создавший музыкальное оформление.
- Валерий Белов: видеохудожник, отвечающий за визуальную часть.
- Анастасия Брюханова: организатор и куратор проекта.
Детектор ошибок: друг или враг творчества?
В 1968 году нейрофизиолог Наталья Бехтерева открыла феномен детектора ошибок — механизма в мозге, реагирующего на несоответствие событий привычным моделям. Он оптимизирует деятельность мозга, создавая стереотипы поведения и защищая нас от ошибок. Однако этот механизм может ограничивать творчество, сковывая возможности генерировать новые идеи. Бехтерева предполагала, что у творческих людей детектор ошибок функционирует иначе, позволяя им выходить за рамки стереотипов. Как же преодолеть эти ограничения и стимулировать креативность без вреда для здоровья?Нейросети как инструмент преодоления ограничений
Мы обратились к искусственному интеллекту и нейросетям, способным генерировать оригинальные идеи, выходящие за рамки привычного мышления. Нейросеть GPT-2 стала нашим соавтором, создавая массив микроповествований — фрагментов текста, из которых складывается сюжет сказки.Описание процесса fine-tuning
Сбор данных: Я собрал обширный корпус классических сказок русских и зарубежных авторов, включая произведения Пушкина, Перро, братьев Гримм и других. Это обеспечило разнообразие стилей и сюжетов для обучения модели. Подготовка данных: Тексты были очищены от лишних символов и ошибок, а также отформатированы для корректной подачи в модель. Для автоматизации этого процесса использовались скрипты на Python. Настройка модели:- Выбор платформы: Я использовал библиотеку Hugging Face Transformers для работы с GPT-2.
- Параметры обучения: Настроил гиперпараметры модели, включая скорость обучения, размер батча и количество эпох, учитывая специфику русского языка и сказочного жанра.
- Аппаратное обеспечение: Обучение проводилось на внешнем графическом ускорителе NVIDIA RTX 2080 Ti.
- Используя фреймворк PyTorch, я запустил процесс обучения модели.
- Несмотря на мощность RTX 2080 Ti, обучение заняло несколько дней из-за объёма данных и сложности модели.
- Для ускорения процесса были применены оптимизации, такие как использование mixed precision training.
- После каждой эпохи обучения генерировались тестовые тексты.
- Я оценивал их на связность, соответствие жанру и отсутствие логических ошибок.
- При необходимости вносил коррективы в параметры модели и повторял обучение.
- Python 3.7: основной язык программирования для обработки данных и обучения модели.
- Hugging Face Transformers: библиотека для работы с моделями GPT-2.
- PyTorch: фреймворк для глубокого обучения.
- CUDA Toolkit и cuDNN: библиотеки для ускорения вычислений на GPU.
- Jupyter Notebook: для интерактивного кодирования и отладки.
- MAX/MSP и TouchDesigner: для обработки и визуализации сигналов.
- Ableton Live и Max for Live: для создания и управления звуковыми эффектами, а также взаимодействия между программами.
- C++ и Python: для разработки программ обработки сигналов и интеграции различных компонентов системы.
- Регулировка температуры и top-k sampling: для контроля разнообразия и качества генерируемого текста.
- Обработка естественного языка (NLP): применение токенизации, нормализации и других техник.
Научное обоснование
В 2018 году ученые из Гарварда под руководством Роджера Бити изучили нейронные основы креативности, выявив взаимодействие трёх нейронных сетей:- Сеть пассивного режима работы мозга (DMN) — отвечает за воображение.
- Экзекутивная сеть — контролирует осознанность и оценку идей.
- Салиентная сеть — переключает внимание между сетями.
Взаимодействие с тактильным интерфейсом «Нейротафл»
Я разработал тактильно-кинестетический интерфейс «Нейротафл» (от «нейро» и древнескандинавского «тафл» — «стол»). Этот интерактивный стол регистрирует действия пользователя в реальном времени. Технические детали:- Аппаратная часть: сенсоры касания и движения, микроконтроллеры.
- Программная часть:
- C++ и Python: для разработки программ обработки сигналов и интеграции устройств.
- MAX/MSP: визуальная среда для обработки аудио- и MIDI-сигналов.
- TouchDesigner: платформа для создания интерактивной визуализации.
- Ableton Live + Max for Live: для создания и управления звуковыми эффектами, а также взаимодействия между программами.
- Связь между компонентами:
- OSC (Open Sound Control): протокол для передачи информации между программами.
- MIDI: для передачи музыкальных данных и управления параметрами звука.
Многоканальный звук и эмоциональная связь
Многоканальный звук — ключевое художественное средство «Доброй сказки». Он создаёт иммерсивную атмосферу, важную для всех зрителей, особенно для слепых и слабовидящих детей. Технические аспекты:- Оборудование:
- Четыре канала окружающего звука: создают эффект полного погружения.
- Мощные сабвуферы: обеспечивают глубокие низкие частоты, усиливая эмоциональное воздействие.
- Громкоговорители внутри стола и над ним: добавляют дополнительные звуковые слои и эффекты.
- Программное обеспечение:
- Ableton Live: цифровая аудиостанция для создания и воспроизведения музыки.
- Max for Live: интеграция Max/MSP с Ableton Live для расширения функциональности.
- Плагины и эффекты: для обработки звука в реальном времени.
- Интеграция:
- Синхронизация: взаимодействие звука с действиями на «Нейротафле» и текстом GPT-2 через протоколы OSC и MIDI.
- Обработка в реальном времени: изменение звуковых параметров в зависимости от действий зрителей.
Синергия технологий
Комбинация «Нейротафла», уникальных текстов GPT-2 с её галлюцинациями и многоканального звука создаёт неповторимый интерактивный опыт. Зритель становится соавтором, а технология помогает преодолеть внутренние ограничения, стимулируя творчество.Заключение
Проект «Добрая сказка» демонстрирует, как нейросети и современные технологии расширяют границы творчества, преодолевая ограничения нашего восприятия. Несмотря на технические сложности и несовершенства модели, неожиданные результаты работы нейросети придали особый шарм и оригинальность нашему проекту. Творчество не знает границ, и технологии помогают нам расширять эти границы ещё больше. Давайте использовать потенциал нейросетей и инновационных интерфейсов, чтобы создавать новые формы искусства, вдохновлять друг друга и делать мир более открытым и инклюзивным для всех.Литература
- Бехтерева, Н. П. (1994). Мозг и разум человека. Наука.
- Beaty, R. E., et al. (2018). Robust Prediction of Individual Creative Ability from Brain Functional Connectivity. Proceedings of the National Academy of Sciences, 115(5), 1087–1092.
- Hugging Face Transformers: https://huggingface.co/transformers/
- PyTorch: https://pytorch.org/
- CUDA Toolkit: https://developer.nvidia.com/cuda-toolkit/
- MAX/MSP: https://cycling74.com/products/max/
- TouchDesigner: https://derivative.ca/
- Ableton Live: https://www.ableton.com/
- Max for Live: https://www.ableton.com/en/live/max-for-live/
Juri Didevič
Медиахудожник и специалист по интерактивным технологиям с 20-летним опытом. Создаю иммерсивные инсталляции, мультимедиа-перформансы и работаю на стыке искусства, науки и технологий, в том числе с нейроинтерфейсами и биологической обратной связью.