facebook/MobileLLM-350M - Каталог нейросетей
Генерация текста

facebook/MobileLLM-350M

Добавлено:
facebook/MobileLLM-350M

Представлен MobileLLM: «MobileLLM: Оптимизация языковых моделей с субмиллиардными параметрами для вариантов использования на устройстве», опубликованный в ICML 2024. Архитектура модели: MobileLLM — это авторегрессионная языковая модель, использующая оптимизированную архитектуру преобразователя, специально разработанную для приложений на устройствах с ограниченными ресурсами. MobileLLM объединил несколько ключевых методов, включая: (1) функцию активации SwiGLU, (2) глубокую и тонкую архитектуру, (3) встраивание совместного использования, (4) внимание к групповым запросам. MobileLLM-125M/350M достигает значительного повышения точности на 2,7%/4,3% по сравнению с предыдущими моделями SoTA 125M/350M при выполнении задач на основе здравого смысла. В нашей обновленной версии мы дополнительно демонстрируем, что наша философия дизайна эффективно масштабируется для более крупных моделей, используя результаты SoTA для MobileLLM-600M/1B/1.5B. Чтобы загрузить предварительно обученную модель для дальнейшей точной настройки или оценки: обратите внимание, что токенизатор по умолчанию не содержит специальных токенов. Например, вы можете использовать: Мы предоставляем код предварительного обучения на https://github.com/facebookresearch/MobileLLM. Мы также предоставляем оценочный сценарий для расчета количества людей в тестовом разделении wikitext-2: Обучение MobileLLM на токенах 1T с использованием…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: facebook
Теги: mobilellm, facebook, meta, custom_code, en
Лайков: 36  |  Загрузок: 161

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.