Название новой технологии обработки изображений «GauGAN», вмещает отсылку к художнику-импрессионисту Гогену и к GAN (генеративно-состязательным сетям). По мнению генерального директора nVidia, Дженсена Хуанга, именно GAN позволят решить ключевую задачу в создании искусственного интеллекта: как эффективно построить процесс обучения такой системы? Технология GauGAN как раз служит для демонстрации данного подхода.
У всех GAN есть узкая специализация — и в случае с GauGAN это рисование фотореалистичных пейзажей. За основу берется схематичный набросок, где синяя линия может означать реку или канал, белое пятно сверху облако или аэростат, желтые черточки – опавшую листву или пшеничное поле и т.д. Система анализирует композицию картины и подбирает фрагменты из реальных фотографий и рисунков, добиваясь их идеального сочетания между собой.
GauGAN умеет учитывать множество важных деталей, таких как расположение теней от объектов, волны на воде, размер строений относительно ландшафтных элементов. Если большое белое пятно идентифицировано как снежная поляна, небо будет мрачного свинцового оттенка или в тяжелых тучах, как и положено зимой. Это очень важно, потому что на примере GauGAN отрабатывается и обратная связь – нейросети учатся распознавать общее изображение, отталкиваясь от положения в кадре уже известного объекта.
Подобная обратная связь поможет, например, научить автопилот определять наличие осадков на дороге, если пешеходы достают зонтики. А в видеоиграх технология поможет на лету прорисовывать то, что ожидает увидеть игрок в определенной ситуации, добавляя реализма или диковинных спецэффектов. Не исключено, что следующим шагом станет создание целых трехмерных миров, а затем придет и очередь видео. И тогда, опасаются эксперты, искусственный интеллект окончательно научится стирать границу между вымыслом и реальностью.