Uncategorized

Vid2Vid Cameo от Nvidia приносит “говорящие головы” на видеоконференции

Где ваше предприятие находится на кривой внедрения ИИ? Примите участие в нашем опросе AI, чтобы узнать.


Сегодня Nvidia завершила Vid2Vid Cameo, модель искусственного интеллекта, которая использует генеративные состязательные сети (GAN) для создания реалистичных «говорящих голов» видео с использованием одной фотографии человека. Компания утверждает, что Vid2Vid Cameo, который скоро будет доступен в SDK видеокодеков Nvidia и SDK Nvidia Maxine как «AI Face Codec», обеспечивает высочайшую производительность отчасти благодаря набору обучающих данных из 180 000 «высоких». качественные »видео.

«Многие люди имеют ограниченную пропускную способность интернета, но все же хотят беспрепятственно общаться по видеосвязи с друзьями и семьей», – сказал в пресс-релизе исследователь Nvidia Минг-Ю Лю. «Помимо помощи им, лежащая в основе технология может также использоваться для помощи аниматорам, фоторедакторам и разработчикам игр».

Vid2Vid Cameo, который был впервые продемонстрирован в октябре прошлого года, был разработан для приложений видеоконференцсвязи, и для него требуется только одно изображение человека и видеопоток, определяющий, как изображение должно быть анимировано. Система определяет 20 ключевых точек, которые кодируют расположение объектов, включая глаза, рот и нос, и автоматически извлекает эти точки из эталонного изображения. Извлеченные баллы могут быть отправлены другим участникам видеоконференции заранее или повторно использованы с предыдущих встреч. На стороне получателя GAN использует эту информацию для создания видео, имитирующего внешний вид исходного изображения.

Максин и ГАН

Vid2Vid Cameo – это результат работы Nvidia над Maxine, платформой, которая предоставляет разработчикам набор программного обеспечения для видеоконференцсвязи с ускорением на GPU. Nvidia заявляет, что Maxine «резко» сокращает полосу пропускания, необходимую для вызовов видеоконференцсвязи, за счет использования GAN, включая Vid2Vid Cameo. Вместо потоковой передачи всего экрана пикселей, платформа анализирует черты лица каждого собеседника, а затем алгоритмически реанимирует лицо на видео с другой стороны.

Другая особенность Maxine – выравнивание лиц, которое позволяет автоматически корректировать лица, чтобы участники во время разговора смотрели друг на друга. Коррекция взгляда помогает имитировать зрительный контакт, даже если камера не совмещена с экраном пользователя. Авто-кадр позволяет видеопотоку следовать за говорящим, когда он удаляется от экрана. А разработчики могут позволить участникам звонка выбирать свои собственные аватары с анимацией, автоматически управляемой их голосом и тоном.

ГАН – двухчастные модели, состоящие из генератор который создает образцы и дискриминатор который пытается отличить эти образцы от реальных образцов – продемонстрировал впечатляющие возможности синтеза медиа. Самые эффективные сети GAN могут создавать реалистичные портреты несуществующих людей, например, или снимки вымышленных многоквартирных домов.

Но хотя у GAN есть приложения для развлечений и видеоконференцсвязи, их также используют для дезинформации и фальшивых аккаунтов. Исторически сложилось так, что они также демонстрировали предвзятое отношение к определенным группам людей, особенно темнокожим. По этому поводу Nvidia сообщила VentureBeat в предыдущем заявлении, что ее исследовательская группа «уделяла пристальное внимание» «расовому, гендерному, возрастному и культурному разнообразию» при разработке функций искусственного интеллекта в Maxine для приложений видеоконференцсвязи.

VentureBeat

Миссия VentureBeat – стать цифровой городской площадью, где лица, принимающие технические решения, могут получить знания о преобразующих технологиях и транзакциях.

На нашем сайте представлена ​​важная информация о технологиях и стратегиях обработки данных, которая поможет вам руководить своей организацией. Мы приглашаем вас стать членом нашего сообщества, чтобы получить доступ:

  • актуальная информация по интересующим вас темам
  • наши информационные бюллетени
  • закрытый контент для лидеров мнений и льготный доступ к нашим ценным мероприятиям, таким как Преобразование 2021: Учить больше
  • сетевые функции и многое другое

Стать членом

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button