UncategorizedгаджетыНовостиразработчиктехнология

Facebook Open-Sources Expire-Span Method for Scaling Transformer AI

Facebook AI Research (FAIR) с открытым исходным кодом Expire-Span, метод глубокого обучения, который изучает, какие элементы входной последовательности следует запоминать, сокращая объем памяти и вычислительные требования для ИИ. FAIR показал, что модели Transformer, которые включают Expire-Span, могут масштабироваться до последовательностей из десятков тысяч элементов с улучшенной производительностью по сравнению с предыдущими моделями.

Исследовательская группа описала методику и несколько экспериментов в документе, который будет представлен на предстоящей Международной конференции по машинному обучению (ICML). Expire-Span позволяет последовательным моделям ИИ «забывать» события, которые больше не актуальны. При включении в модели самовнимания, такие как Transformer, Expire-Span уменьшает объем необходимой памяти, позволяя модели обрабатывать более длинные последовательности, что является ключом к повышению производительности во многих задачах, таких как обработка естественного языка (NLP). Используя Expire-Span, команда обучила модели, которые могут обрабатывать последовательности размером до 128 КБ, что на порядок больше, чем предыдущие модели, с повышенной точностью и эффективностью по сравнению с базовыми линиями. Ученые-исследователи и соавторы статей Анджела Фан и Сайнбаяр Сухбаатар написали в блоге FAIR:

В качестве следующего шага в нашем исследовании систем ИИ, более похожих на людей, мы изучаем, как включить различные типы воспоминаний в нейронные сети. Таким образом, в долгосрочной перспективе мы сможем приблизить ИИ к человеческой памяти, обладая способностями к обучению намного быстрее, чем существующие системы. Мы считаем, что Expire-Span – важный, захватывающий шаг вперед в направлении таких футуристических инноваций на базе искусственного интеллекта.

Несколько распространенных приложений ИИ, таких как субтитры к изображениям или языковой перевод, можно смоделировать как последовательное обучение; то есть предсказание следующего элемента в последовательности данных. Архитектура нейронной сети Transformer является обычным выбором для последовательного обучения, особенно в области обработки естественного языка (NLP); например, «T» в OpenAI GPT-3 означает «Трансформатор». Трансформатор имеет механизм самовнимания, который позволяет сети «запоминать» предыдущие элементы в последовательности; однако, поскольку самовнимание может связывать каждый элемент в последовательности с каждым другим элементом, вычислительная сложность и сложность памяти самовнимания невелика. (О (п ^ 2) ), где п – максимальная длина обрабатываемой последовательности. Это накладывает практический предел на длину последовательности около 1024 элементов из-за ограничений памяти графических процессоров.

Некоторые исследователи предложили модификации механизма внимания для увеличения максимальной длины последовательности. В 2019 году OpenAI представил Sparse Transformers, что снизило сложность внимания до (O (п sqrt {n}) ). В прошлом году Google представил Performer с открытым исходным кодом, который еще больше снизил сложность до (На)). Другие методы включают Compressive Transformer, разработанный дочерней компанией Google DeepMind в 2019 году, и Adaptive Span, также опубликованный в 2019 году командой FAIR во главе с Сухбаатаром Expire-Span.

Преобразователь поддерживает последовательность скрытых состояний или «воспоминаний», и выходные данные модели на каждом временном шаге вычисляются из комбинации этих воспоминаний. Expire-Span работает, вычисляя время жить (TTL) для каждой памяти. Потеря обучения обновляется, чтобы штрафовать более длинные TTL, что подталкивает модель к сохранению только релевантных воспоминаний. Во избежание переобучения на более длинных последовательностях память во время тренировки укорачивается случайным образом.

Чтобы оценить производительность Expire-Span, команда выбрала три базовые модели Transformer – Transformer-XL, Compressive Transformer и Adaptive-Span – и сравнила точность модели, а также память графического процессора и скорость обучения. Модели использовались для нескольких задач обучения с подкреплением (RL) и NLP. Expire-Span превзошел базовые показатели в большинстве экспериментов; например, в задаче копирования последовательности Expire-Span масштабировался до длины последовательности 128 КБ и достиг точности 52,1% по сравнению с Transform-XL с точностью 26,7% при длине последовательности 2 КБ.

Код Expire-Span доступен на GitHub.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button