tensoropera/Fox-1-1.6B-Instruct-v0.1

> [!ВАЖНО] > Эта модель настроена на основе инструкций и требует согласования, прежде чем ее можно будет использовать в производстве. Скоро мы выпустим версию для чата. Fox-1 — это модель малого языка (SLM) на основе преобразователя, предназначенная только для декодера, с общим количеством параметров 1,6 млрд, разработанная TensorOpera AI. Модель была предварительно обучена с помощью трехэтапной программы обработки данных на 3 триллионах токенов текстовых и кодовых данных длиной последовательности 8 КБ. Fox-1 использует внимание к групповым запросам (GQA) с 4 головками «ключ-значение» и 16 головками внимания для более быстрого вывода. Fox-1-Instruct-v0.1 — это настроенная на инструкции (SFT) версия Fox-1-1.6B, имеющая длину собственного контекста 8 КБ. Модель была настроена с использованием 5B токенов следования инструкциям и данных многооборотного разговора. Для получения полной информации об этой модели прочтите технический отчет Fox-1 и публикацию в блоге. Модель и конечная точка вывода в реальном времени доступны на платформе AI TensorOpera. Подробные инструкции по развертыванию см. в Пошаговом руководстве по развертыванию Fox-1-Instruct на платформе TensorOpera AI. Мы оценивали Fox-1 на ARC Challenge (25 кадров), HellaSwag (10 кадров), TruthfulQA (0 кадров), MMLU (5 кадров), Winogrande (5 кадров) и GSM8k (5 кадров). Мы следим за…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: tensoropera
Теги: llama, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 14 | Загрузок: 21

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

tensorblock/Qwen2.5-7B-Instruct-Uncensored-GGUF

peiyi9979/mistral-7b-sft

boun-tabi-LMG/TURNA

lordx64/Qwen3.6-35B-A3B-Kimi-K2.6-Reasoning-Distilled