airoboros-jamba-3-3
Другая экспериментальная модель, использующая в основном синтетические данные, сгенерированные airoboros. Базовая модель jamba-v0.1 предположительно имеет длину контекста 256...
Другая экспериментальная модель, использующая в основном синтетические данные, сгенерированные airoboros. Базовая модель jamba-v0.1 предположительно имеет длину контекста 256...
Модель построена с применением Orchestration of Expert для математической области. Специальная модель либо генерирует решения, либо, при необходимости,...
Конвертированная модель на основе кода fahadh4ilyas. Версия 2 имеет другой макет с разделением Wqkv. 2. Настоятельно рекомендуется обучить...
Исходный код реализации DBRX содержит несколько ошибок, влияющих только на обучение, которые я исправил в этой повторной загрузке....
Модель генерации текста Модальности:Генерация текста Задача: Генерация текста Автор: Crystalcareai Теги: gemmoe, custom_codeЛайков: 6 | Загрузок: 6 Открыть...
Это реализация Mistral-7B-v0.1 в DenseFormer. Подробности о DenseFormer описаны в статье. Для загрузки этой модели вам нужно будет...
> вес исходного pth из https://huggingface.co/BlinkDL/rwkv-6-world/blob/main/RWKV-x060-World-1B6-v2.1-20240328-ctx4096.pth. Модальности:Генерация текста Задача: Генерация текста Автор: RWKV Теги: rwkv6, custom_codeЛайков: 6 | ...
Phi-2-ORPO — это доработанная версия microsoft/phi-2 на наборе данных предпочтений argilla/dpo-mix-7k с использованием оптимизации предпочтений соотношения шансов (ORPO)....
slim-sa-ner объединяет две наиболее популярные традиционные функции классификатора (анализ настроений и распознавание именованных объектов) и переосмысливает их как...
slim-xsum реализует функцию «экстремального суммирования» в виде вызова функции в LLM на основе декодера, который генерирует на выходе...