Нейросети и искусственный интеллект могут помочь в решении сложных задач, но пока это не означает, что они способны заменить человека. Давайте разберемся, почему не способны и где смогут помочь, на примере нескольких нейронок.
ruDALL-E
Mid journey
Inpainting Demo
Балабоба
Point-E
В мире технологий и робототехники слышно о том, что роботы в последние десятилетия выполняют такие задачи, которые до появления описываемых машин выполнял только человек. При этом, как показывает практика, применение роботов и искусственного интеллекта не в каждом случае дают достичь желаемого качества исполнения по сравнению с людьми. На фоне информационного шума вокруг ChatGPT и других средств получения информации в виде текста решил изучить несколько нейросетей, создающих контент в виде текста и изображений.
ruDALL-E
Russian DALL-E – это нейросеть, которая создает картинки на основании текстового описания. А по сути – нейросеть, способная распознавать изображения, а также выполнять функцию поиска: вводите текст и получаете изображения. Также работает со сложными выражениями, например, “зачем он его ударил”. Нейросеть найдет в тексте слово “попал” и покажет это на картинке. Работает с изображениями только в векторном формате (bmp, gif, jpeg, png), при этом размеры не превышают 1 Мб. В качестве первого запроса использовал слово “проверка”. Нейросеть должна генерировать то, что написано текстом. По крайней мере так написано в ее документации, а вот как это будет на самом деле, посмотрим позже. Сейчас мне бы еще разобраться с тем, что именно нужно вводить в качестве текстового запроса.
И, честно говоря, результат не порадовал.
Особенно когда в рекомендованных дополнительных изображениях вообще какая-то муть. В общем, если вы не любитель покрутить перед глазами все, что попадется, то эта нейросеть не для вас.
Однако используя разные алгоритмы, мне удалось получить результат, который более или менее я мог сопоставить со словом “проверка”. Я могу создать запрос, который будет полностью описывать действие на картинке. Путем подбора различных вариаций я остановился на “Проверка нейросети”.
Я подумал, что надо заканчивать, но следующий запрос “Мальчик делает уроки” заставил меня понять, что это только начало.
Ну и совсем втянул в процесс исследования следующий запрос, который звучит так “3D принтер в космосе”.
Тут речь не идет о картинке на обложку журнала, но сам факт того, что сеть нарисовала эскиз 3D принтера и разместила его в космосе, меня восхитил на тот момент. Хорошее начало, подумал я, но мое внимание отвлекла более мощная нейросеть.
Mid journey
Пока тестировал нейросеть ruDALL-E, переписывался с супругой, которая предложила мне протестировать еще одну нейросеть под названием Mid journey. Это было очень интересно, но очень сложно.
По сравнению с ruDall-E, на первый взгляд, Mid journey использует другие алгоритмы и расширенный функционал. ruDALL-E дает результат не сразу, поэтому в промежутках решил протестировать и узнать, что же может и умеет Mid journey.
Процесс настойки рабочего пространства меня просто вымотал. Нейросеть работает с помощью ввода и вывода информации через Discord.
Я знал, что нейросеть работает только на английском языке, однако сам процесс ввода запроса оказался не очевидный. Просто вбить текст по аналогии с поисковиком нельзя.
А когда разобрался с командами на ввод информации, еще спотыкался на всякие разрешения и подтверждения.
И наконец-то процесс пошел.
Нейросеть создала первый результат.
Нейросеть предлагает выбрать один из полученных результатов, чтобы продолжить генерирование. Конечный результат представлен на следующем изображении.
А теперь сравните с результатом, который был был получен в Russian DALL-E. Значительно отличается, правда? Для тестирования этой нейросети я попробовал несколько запросов, которые связаны с 3D печатью. Ниже привожу примеры, предложенные нейросетью для разных обращений.

Ожидание 3d-печати

Ферма 3D печати

Супер 3D принтер
Генерирование абстракции, конечно, хорошо, но давайте попробуем задачу посложнее.
Попробуем создать логотип компании, которая занимается разработкой программного обеспечения для 3D печати. Первый запрос оказался достаточно сложный для восприятия нейросети и выдал такой результат.
Поэтому я решил упростить запрос, чтобы получить что-то наиболее интересное и нестандартное. Любой запрос должен быть задан так, чтобы его поняли. Просто так написать что-либо не получится.
Я решил развивать четвертый вариант.
И после нескольких вариантов разработки нейросеть выдала мне следующий итоговой вариант.
Мне сложно оценить результат, поэтому оставляю на ваш суд в комментариях. Могу сказать точно, что данный логотип для себя использовать не буду. Заметил, что там, где используется определение 3D печати, всегда присутствуют различные вариации черепов. И это не просто так. В определенный момент развития 3D печати многие печатали именно черепа, поэтому фото было ожидаемо. Давайте попробуем сгенерировать логотип по запросу “Online 3D printing service”.
Я не углублялся в алгоритмы генерации, хотя по результату видно, что от слова “логотип” нейронка подтягивает какое-то общее представление о логотипе. Все эти вензеля и цветовая палитра говорят нам об общем подходе в понимании представления логотипа. Мне такая стилистика не нравится, поэтому я попробовал объединить наш логотип с картинкой из интернета на тематику 3D печати с цветом, который мне нравится.
На выходе мы получили вполне интересный на мой взгляд концепт.
И все таки не готовое решение. Всего лишь концепт, который в случае необходимости нужно будет дорабатывать дизайнеру в виде реального человека.
На выходе я понял, что в сложных запросах относительно узких тематик нейросеть поддерживает только простейшие запросы. Конечно, количество этих запросов растет, а сетка на них же и учится, накапливая знания и опыт на фоне взаимодействия с реальными людьми. Вот например, есть такой подход к обучению нейросетей, который называется «насыщение», а есть способ «сжатия». При «насыщении» нейросеть обучается на большом наборе обучающих примеров, а при «сжатии» – только на одном. Пока что это напоминает общение с ребенком, которого можно научить как хорошему, так и плохому. Но научиться чему-то от него скорее всего не получится. С одной стороны, не надо ничего изобретать, а с другой стороны, даже если придумаешь что-то новое, то и это, возможно, будет уже давно придумано.
Inpainting Demo
Inpainting Demo – это нейросеть, которая позволяет редактировать изображения и фотографии с целью убрать какие-то нежелательные вещи или объекты. Демонстрация функционала в виде превью находится на главное странице нейросети.
Первым шагом является выбор изображения для редактирования.
Я выбирал изображения с примерки нашего арт-объекта на стене, который поддерживала рука. Я ставил перед собой задачу убрать руку с фотографии.
Выполнил все действия по инструкции.
Так и не заработала. Пробовал несколько раз, в итоги желаемого результата так и не получилось. Pixelmator с этой задачей справился сразу.
В итоге я так и не понял, как с ней работать. Может, у вас получится.
Балабоба
Балабоба – это нейросеть, которая позволяет генерировать продолжение текста на основании ввода коротких тезисов и краткого описания.
Думал, ну хотя бы с тестом проблем быть не должно. Сейчас как предложит мне кучу вариаций текста, опираясь на короткие предложения и тезисы, но не тут-то было. Скорее всего, мои ожидания после генерирования картинок были слишком высоки.
При этом, в случае с Балабоба, мне удалось написать некоторые пункты, которые наполнили этот текст. При написании этого текста я пользовался помощью Балабоба. Могу с уверенностью обозначить момент, где мне помогла именно нейросеть. Этим моментом является предложения вариантов продолжения текста, которая помогла мне вспомнить моменты и аспекты, которые я скорее всего забыл бы описать, в случае отсутствия работы с нейронкой. Однако структура текста, исправление ошибок или другой функционал, который обычно используется для редактирования, у нее отсутствует. А если я и забуду что-то, то могу вспомнить позже. Поэтому основная помощь в ускорении. А ускорение работы, тоже очень хорошо!
Для себя я выделил следующий алгоритм общения с Балабоба. Написал текст коротко и тезисно. Первым действием закидываю каждое предложение последовательно в качестве исходных данных. К предложению добавляю сразу слово или выражение по тематике. Ждем получение результатов. Смотрим, выбираем и добавляем подходящие варианты. Как только абзац готов, прогоняем его целиком. Смотрим, выбираем и добавляем подходящие варианты. Как только готов текст, прогоняем его целиком. Структурируем.
При запросе
Подробнее про нейросеть написал на сайте studia3d.com в своем блоге.
Сеть выдала
На сайте можно скачать 3d модели людей, животных, овощей, фруктов, автомобилей и т.д.
Все это вы можете загрузить на свой компьютер и использовать в своей модели.
Вот откуда она это знает. А ведь правда! В любом случае, молодец =)
Давайте сравним это с моим обычным методом написания статьи: накидываю краткий текст последовательно и тезисно. Начинаю разворачивать каждое предложение и слово, чтобы максимально описать и донести то, что я имел в виду. Далее все получившееся структурно обрабатываю. Как видим, практически ничем не отличается. Нейросеть немного помогает “ничего не забыть”. В этом ее главное преимущество.
Опыт написания текста с помощью нейросети на самом деле показался мне новым. Хотя алгоритм примерно похож. Но скорость написания текста с нейросетью выше и работа была продуктивнее, поскольку процесс “разворачивания” описательной части текста происходит быстрее. Хотя структура текста и процесс донесения сути статьи приходится все равно брать на себя, иногда даже орфографию, потому что таких функций, которыми владеет Главред, у Балабобы нет. Главред, если кто не знает, помогает очистить текст от словесного мусора и проверяет на соответствие информационному стилю.
Текст, который предложила нейронка:
В мире технологий и робототехники, все чаще и чаще, можно услышать о том, что роботы уже сейчас могут выполнять такие задачи, которые ранее были под силу только человеку. При этом, как показывает практика, применение роботов и искусственного интеллекта, не всегда позволяет достичь более высокого качества исполнения, чем это делали люди.
Оценка Главреда 5 из 10.
Исправленный мною текст:
В мире технологий и робототехники, слышно о том, что роботы в последние десятилетия выполняют такие задачи, которые до появления описываемых машин выполнял только человек. При этом, как показывает практика, применение роботов и искусственного интеллекта, не в каждом случае дают достичь желаемого качества исполнения по сравнению с людьми.
Оценка Главреда 10 из 10.
Но в любом случае понравилось. Это как с ребенком: научиться чему-то от него скорее всего не получится. Хотя в целом ребенок может чем-то помочь. Как минимум, не скучно. Здорово, что появилось такое расширение позитива.
Point-E
Интересно найти нейронки для генерирования 3D моделей. Изображение, это, конечно, хорошо, но картинку можно распечатать только на обычном принтере. Для 3D принтера модель должна быть объемной, состоять из полигонов, а не из пикселей и соответствовать требованиям.
По запросу в поисковой строке я нашел таки Point-E.
Давайте попробуем, как она работает. Введем запрос “small 3d printer”.
И получили коробку. Интересно. Давайте введем более простой запрос “a 3D printer”.
Не понимаю. Ничего не понимаю. Видимо, пока рано. А как было бы хорошо дать возможность нашим клиентам генерировать 3D модели просто по текстовому описанию. Видимо, пока что рано.
Вывод
В этом году нейросети могут быть использованы как дополнение к уже работающим сервисам. Хорошим примером является сервис машинного перевода сайтов GTranslate.
GTranslate – это переводчик веб-сайтов, который может автоматически переводить любой веб-сайт на любой язык и делать его доступным для всего мира!
Особенностью данного сервиса является подбор перевода в соответствии с тематикой сайта.
Пока что существующие нейронки при всей красоте кадров и ярких цветов не могут заменить художников, фотографов и подобных кадров. Слабоватый функционал, слабоватое качество, слабоватая логика и очень сложная система взаимодействия. Хорошее время отклика, но непонятно какое будет это время, когда будет генерироваться что-то приемлемое. Пока это интересно только в случае бесполезных картинок, которые нужны только для заполнения какого-то пустого пространства чем-то красочным. Хотя для этого лучше использовать абстракцию.
Автор: Studia3D Aggregator
Другие статьи от Studia3D Aggregator