Uncategorized

Google преподает модель зрения с двумя миллиардами параметров AI

Исследователи из Google Brain анонсировали модель компьютерного зрения с глубоким обучением (CV), содержащую два миллиарда параметров. Модель была обучена на трех миллиардах изображений и достигла максимальной точности 90,45% на ImageNet, установив новый современный рекорд.

Команда описала модель и эксперименты в статье, опубликованной на arXiv. Модель, получившая название ViT-G / 14, основана на недавней работе Google над Vision Transformers (ViT). ViT-G / 14 превзошел предыдущие современные решения по нескольким тестам, включая ImageNet, ImageNet-v2 и VTAB-1k. В задаче распознавания изображений с несколькими снимками повышение точности составило более пяти процентных пунктов. Исследователи также обучили несколько уменьшенных версий модели исследовать закон масштабирования для архитектуры, отметив, что производительность следует степенной функции, аналогичной моделям Transformer, используемым для задач обработки естественного языка (NLP).

Архитектура Transformer, впервые описанная исследователями Google в 2017 году, стала ведущей разработкой для моделей глубокого обучения NLP, при этом OpenAI GPT-3 является одним из самых известных. В прошлом году OpenAI опубликовал документ с описанием законов масштабирования для этих моделей. Обучая множество похожих моделей разного размера и варьируя количество обучающих данных и вычислительную мощность, OpenAI определил степенную функцию для оценки точности модели. Кроме того, OpenAI обнаружил, что большие модели не только работают лучше, но и более эффективны с точки зрения вычислений.

В отличие от моделей NLP, большинство современных моделей глубокого обучения CV используют архитектуру сверточной нейронной сети (CNN). Архитектура, впервые описанная в 1989 году, стала доминирующей после того, как модель CNN выиграла конкурс ImageNet в 2012 году. После недавнего успеха Transformers в пространстве НЛП исследователи начали исследовать ее эффективность при решении задач видения; например, OpenAI недавно разработал систему генерации изображений на основе GPT-3. Google, в частности, проявлял активность в этой области, используя свой собственный набор данных JFT-300M для обучения модели ViT с 600 миллионами параметров в конце 2020 года.

Новая модель ViT-G / 14 предварительно обучена на обновленной версии набора данных JFT-3B, который содержит почти три миллиарда изображений. Исследовательская группа внесла несколько улучшений в архитектуру ViT, улучшив использование памяти, чтобы модель могла уместиться в одном ядре TPUv3. Чтобы оценить производительность ViT-G / 14 и других моделей меньшего размера, команда выполнила обучение с переносом по нескольким кадрам и точной настройкой на предварительно обученных моделях. Команда использовала результаты, чтобы сформулировать законы масштабирования, аналогичные законам НЛП:

  • Увеличение масштаба вычислений, модели и данных повышает точность в соответствии со степенной функцией
  • В небольших моделях точность может быть узким местом
  • Большие модели выигрывают от больших наборов данных

В таблице лидеров ImageNet в настоящее время на первом месте находится оценка ViT-G / 14. Восемь следующих за самыми высокими показателями моделей были также разработаны исследователями Google, а модель десятого места была разработана Facebook. В ходе обсуждения в Twitter пользователь спросил, планирует ли Google выпустить код и веса модели для ViT-G / 14. Член исследовательской группы Лукас Бейер ответил,

Весов точно нет, он обучен на внутренних данных! Код, хороший вопрос. Мы не планировали этого, поскольку он действительно очень близок к общедоступному исходному коду ViT, но, возможно, добавление новых частей было бы хорошей идеей.

Google опубликовал код и веса для прошлогодней модели ViT с 600 миллионами параметров на GitHub.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button