Изобразительное искусство всегда являлось одним из основных продуктов человеческой культуры. В течение многих столетий оно позволяло людям самовыражаться и рассказывать истории.
Сперва появилась пещерная живопись, затем — написанные маслом картины и фотография. Теперь же настала эра «изобразительного» искусственного интеллекта и, в частности, нейронных сетей.
- Исследователи начали применять алгоритмы для создания изображений в 1950-1960 годах.
- Нейронные сети позволяют копировать стили художников, превращать эскизы в фотореалистичные иллюстрации, «оживлять» портреты и создавать новые изображения.
- Стоимость разработки и обучения алгоритма варьируется от нуля до сотен миллионов долларов.
- ИИ-искусство способно вдохновить, но его доступность может создать ряд проблем.
Краткая история ИИ-искусства
Историю сгенерированного ИИ-искусства можно проследить до открытия машинной графики и изобретения компьютера. Тогда исследователи использовали базовые алгоритмы для создания простых узоров и форм.
В 1967 году немецкий математик и ученый Фридер Наке разработал портфолио под названием Matrix Multiplications, состоящее из 12 изображений. Он создал квадратную матрицу и заполнил ее числами, которые последовательно умножались сами на себя.
Исследователь перевел полученные результаты в образы заданных интервалов, где каждому значению присвоил визуальный знак определенной формы и цвета. Затем он поместил фигуры в растр в соответствии со значениями матрицы.
В своих работах Наке часто использовал генератор случайных чисел и, вероятно, частично автоматизировал процесс умножения.
Изображение из портфолио Matrix Multiplications, созданное Фридером Наке. Данные: Tate.
В 1973 году художник Гарольд Коэн разработал набор алгоритмов AARON, способный рисовать «от руки» определенные объекты. Он обнаружил, что система стала создавать ранее неизвестные формы.
Сперва программа генерировала абстрактные картины, а затем научилась рисовать более сложные фигуры, включая камни, растения и людей.
С 1990 года исследователи и художники начали использовать ИИ-модели в робототехнике, обучая машины созданию картин и скульптур.
В 2015 году инженер Google Александр Мордвинцев запустил программу компьютерного зрения DeepDream, использующую сверточную нейросеть для поиска и улучшения паттернов в изображениях с помощью алгоритмической парейдолии.
Принцип работы системы заключается в искажении исходной картинки в соответствии с тем, какие ее фрагменты напоминают модели те или иные знакомые объекты.
Когда Google опубликовала подход и открыла исходный код алгоритма, на рынке появилось множество инструментов и сервисов, позволяющих всем желающим преобразовывать свои фото в «психоделические» изображения.
В 2022 году ИИ-искусство используется в различных сферах, включая маркетинг, моду и развлечения.
Также модели помогают создавать картины.
Нейросети для работы с изображениями
2022 год может войти в историю как время, когда ИИ-искусство стало мейнстримом. Бум качественных, построенных на разных алгоритмах инструментов делает нейротворчество доступным для всех, у кого есть смартфон с подключением к интернету.
ИИ-модели позволяют копировать стили художников, превращать эскизы в фотореалистичные иллюстрации, «оживлять» портреты и создавать новые изображения. Для разных задач используются отличные или похожие подходы и инструменты.
Нейронная передача стиля (NST) — это метод на базе сверточных нейросетей, позволяющий создать картину, имитирующую другое изображение по манере исполнения. Пользователь может преобразовать фото бегущей собаки в гравюру Кацусики Хокусая или сгенерировать «Мона Лизу» кисти Яна Вермеера.
За создание новых произведений искусства или картин с использованием стиля других изображений отвечают генеративно-состязательные нейросети (GAN). Это алгоритмы, состоящие сразу из двух моделей: генератора, который производит контент, и дискриминатора, оценивающего его.
Системы на базе GAN могут рисовать изображения, похожие на картинки из набора обучающих данных, включая лица людей, морды котов, мебель и другие объекты.
Однако на сегодня самыми популярными инструментами для создания произведений искусства являются ИИ-генераторы изображений по тексту, которые используют языковые модели вроде OpenAI GPT-3.
Девиз таких систем — «напечатай и получишь». Пользователю необходимо придумать любой запрос на естественном языке вроде «Лама с дредами в костюме астронавта» и алгоритм сгенерирует картинку в соответствии с подсказкой.
Текстовые описания могут состоять из огромного количества слов, добавление или удаление которых способно кардинально изменить результат. Они имеют ключевую роль в создании изображений. Существуют даже специальные маркетплейсы, где желающие могут за деньги приобрести запрос для конкретного стиля картинки.
Разработчики обучают ИИ-генераторы на огромных массивах изображений и их текстовых описаниях, тренируя модель искать связь между ними. Также они часто используют процесс диффузии — алгоритм начинает генерацию с набора случайных точек и постепенно улучшает изображение, приближая его к заданной подсказке и избавляясь от шума.
Большинство популярных ИИ-генераторов имеют ограничения на создание контента: они не могут изображать наготу, насилие, реалистичные лица или политических деятелей. Среди таких инструментов OpenAI DALL-E 2, Google Imagen и Midjourney. Иногда их использование платное.
Однако есть системы без подобных ограничений вроде Stable Diffusion. Компания-разработчик инструмента Stability AI заявила, что модель не имеет фильтров и умеет создавать любой контент.
Генераторы изображений по тексту можно использовать для доработки готовых произведений. В августе OpenAI представила функцию Outpainting, позволяющую DALL-E 2 расширять картины с помощью подсказок.
Сколько стоит разработать нейросеть?
Это максимально неоднозначный вопрос. Ответ на него: от нуля до нескольких сотен миллионов долларов.
Начнем с того, что для создания и обучения ИИ-алгоритма нужны знания. Пользователям без навыков программирования и желания тратиться на курсы сперва необходимо разобраться с принципами работы нейросетей. Существует множество бесплатных статей, ресурсов и сервисов вроде образовательного Google-проекта Teachable Machine, которые могут в этом помочь.
Также понадобятся знания языка программирования вроде Python и библиотека для разработки и тренировки нейронных сетей — TensorFlow, PyTorch или другая.
Кроме того, необходимо собрать обучающий датасет под требуемую задачу: его можно создать самостоятельно, взять из открытых источников или купить. Чтобы разработать генератор изображений по запросу, потребуется набор картинок и их текстовых описаний.
Точность работы модели напрямую зависит от качества и количества данных. Также на это влияют используемое оборудование и потраченные вычислительные ресурсы.
При наличии всего вышеперечисленного можно создать нейросеть для работы с изображениями бесплатно.
Однако большие компании вроде Meta, Amazon, Apple, Microsoft и Alphabet инвестируют в подобные продукты десятки миллиардов долларов. Расходы включают исследования, разработку, тренировку, проверку работоспособности, развертывание, коммерциализацию и поддержку технологии. Иногда на этот процесс тратят годы и в результате проект могут закрыть или же, наоборот, — сделать его незаменимым.
Преимущества и недостатки изобразительных ИИ-алгоритмов
Среди плюсов использования нейросетей для создания произведений искусства можно выделить генерацию реалистичных данных. Такие изображения найдут применение в фильмах, рекламе, играх и других сферах.
ИИ-алгоритмы нестандартно «мыслят». Они способны создавать неизвестные ранее образы, непривычно компоновать объекты и оригинально смешивать текстуры. Такое искусство может стать источником вдохновения для более значительных проектов.
За счет постоянной модернизации технологий и данных ИИ-искусство тоже развивается и постоянно привносит новые идеи.
Кроме того, алгоритмы способны ускорить решение некоторых задач. С помощью нейросетей можно создавать логотипы, клипы и использовать в маркетинговых целях.
Среди минусов стоит выделить отсутствие человеческих эмоций. Иногда это является преимуществом, но при создании художественного произведения многим людям необходима история.
Из-за ограниченности обучающих наборов данных ИИ-искусство может стать скучным. Без постоянной модернизации и тренировки на новых датасетах генерируемые изображения начнут повторяться и потеряют уникальность.
Также разработчики не могут контролировать творческий процесс нейросетей. После тренировки алгоритм выведет результат на основе установленных весов, и, если он не устраивает, модель придется переобучать.
Но основные проблемы использования ИИ касаются этики. Разработчики не всегда могут контролировать распространение и применение технологии. Алгоритмы нельзя считать авторами произведений, но ответственность за их некорректное «поведение» несут создатели.
За счет доступности технологии злоумышленники могут с помощью ИИ создавать изображения для обмана людей, краж их личных данных и распространения языка ненависти.
Заменят ли нейросети художников?
Когда-то новым веянием творчества считалась фотография. Спустя почти 200 лет существования она не заменила художников и деятелей искусства, а заставила их развиваться и приспосабливаться.
Это создало новое поколение творческих людей. Художники и фотографы начали вместе создавать произведения, способные удивить, привлечь и натолкнуть на мысли о красоте.
Искусство, в какой бы форме оно не проявлялось, заставляет людей чувствовать. И есть много места для новых художественных граней, способных вызвать ранее неизвестные ощущения.
Создатели генеративного ИИ могут немного сместить существующие формы творчества, но не уничтожат их.
Инструменты вроде DALL-E 2, Stable Diffusion и Midjourney, вероятно, продолжат трансформироваться в очень сложные художественные движки и помогут деятелям искусства дополнять свои работы.
При достаточном и постоянном развитии нейросетей люди смогут регулярно использовать технологию для вдохновения и расширения своих идейных возможностей.
Комментарии
Отправить комментарий