Компании Microsoft и NVIDIA объявили о совместном создании новой ИИ-модели генерации естественного языка, получившей название Megatron-Turing Natural Language Generation (MT-NLG) («Модель генерации естественного языка Мегатрона-Тьюринга»). Со слов разработчиков, созданная ИИ-модель является крупнейшей в мире и наиболее эффективной уже обученной моделью естественного языка, пригодной для «монолитной трансформации».
Чтобы получить представление, насколько велика новая система, можно сравнить ее с ИИ-моделью GPT-3, разработанной компанией OpenAI. В последнее время о ней много говорилось в новостях. GPT-3 называлась наиболее крупной и продвинутой языковой моделью в мире. Она пригодна для решения «любых лингвистических задач на английском языке».
Тенденция изменения размеров современных NLP-моделей с течением времени
Языковая ИИ-модель GPT-3 в настоящее время насчитывает 175 млрд параметров. Новая модель MT-NLG охватывает 105 слоев и не менее 530 млрд параметров. Это позволяет уже ее назвать самой большой и наиболее мощной монолитной, обученной трансформаторной языковой моделью.
ИИ-модель MT-NLG является преемником моделей Turing NLG 17B и Megatron-LM. Она смогла продемонстрировать «непревзойденную точность» в различных задачах естественного языка, таких как понимание прочитанного, рассуждения здравого смысла, предсказание завершения текста по смыслу, различение смысла слов с несколькими значениями, генерация логических выводов и создание заключений на естественном языке.
Изображение: графический процессор Nvidia A100
Обучение столь мощной модели стало возможным благодаря многочисленным инновациям в области разработки современной инфраструктуры обучения на основе GPU (NVIDIA), которые были использованы вместе с передовым программным стеком распределенного обучения (Microsoft).
Обучение этой гигантской модели ИИ проводилось на суперкомпьютере под названием Selene. Эта система состояла из 560 серверов Nvidia DGX A100, каждый из которых содержал по восемь графических процессоров A100 с 80 Гбайт видеопамяти, подключенной через интерфейсы NVLink и NVSwitch. Эта конфигурация аналогична эталонной архитектуре, используемой в облачных суперкомпьютерах Azure NDv4.
Интересно, что Selene также работает на процессорах AMD EPYC 7742. Как заявляли разработчики этой машины из компании The Next Platform, строительство Selene обошлось примерно в 75-85 млн долларов.
При разработке ИИ-модели MT-NLG было создано 15 наборов данных естественного языка, содержащих более 339 млрд токенов. Наборы данных были взяты из англоязычных веб-источников, таких как академические журналы, онлайн-сообщества (Wikipedia и Stack Exchange), репозитории кода (GitHub), новостные сайты и другие. Самый большой набор данных называется The Pile и весит 835 Гбайт.
Помимо этого, были разработаны методы обучения для повышения эффективности и стабильности оптимизации.
Ранее редакция THG.ru опубликовала статью об искусственном интеллекте. Искусственный интеллект уже давно занял важное место в научно-фантастической литературе и голливудских блокбастерах. Именно они формируют мнение большинства людей о том, что из себя представляет ИИ, и чего от него следует ожидать. Но насколько это мнение соответствует реальному положению вещей? Давайте разбираться. Подробнее об этом читайте в статье “Искусственный интеллект: правда и вымысел”.