GigaChat 3.1 Lightning — компактная модель семейства GigaChat 3.1. Это модель Mixture-of-Experts (MoE) с 10 миллиардами общих параметров и 1,8 миллиарда активных параметров, предназначенная для быстрых рабочих нагрузок многоязычного помощника, рассуждений, кода, вызова функций и развертывания в стиле продукта. Этот репозиторий содержит версию модели BF16. Контрольная точка FP8 доступна по адресу GigaChat3.1-10B-A1.8B, а версия GGUF доступна по адресу GigaChat3.1-10B-A1.8B-GGUF. GigaChat 3.1 Lightning использует специальную архитектуру MoE со следующими ключевыми компонентами. Модель имеет 10B общих параметров и 1,8B активных параметров во время вывода. Это позволяет агрессивно масштабировать емкость модели, сохраняя при этом бюджет активных вычислений намного ниже, чем у модели с такой же большой плотностью. Вместо стандартного многоголового внимания модель использует MLA, который сжимает кэш KV в скрытое представление. Это уменьшает использование памяти и повышает производительность вывода, особенно в настройках с длинным контекстом. Модель обучена с помощью MTP, что позволяет ей прогнозировать несколько токенов за один прямой проход. В производственных системах это можно использовать с методами спекулятивного или параллельного декодирования для улучшения…
Модальности:
Генерация текста
Области применения:
Следование инструкциям Диалог / чат Вызов функций (Tool use) Мультиязычность
Задача: Генерация текста
Автор: ai-sage
Теги: deepseek_v3, instruct, moe, multilingual, fp8, tool-use, long-context, conversational
Лайков: 15 | Загрузок: 3,458
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.