jetmoe-8b-sft
1. Обучение JetMoE-8B обходится менее чем в 0,1 миллиона долларов1, но превосходит по производительности LLaMA2-7B от Meta AI,...
1. Обучение JetMoE-8B обходится менее чем в 0,1 миллиона долларов1, но превосходит по производительности LLaMA2-7B от Meta AI,...
Еще одна экспериментальная модель, использующая в основном синтетические данные, полученные с помощью airoboros. Эта точная настройка находится на...
Мы представляем модель большого языка Meltemi-7B-Instruct-v1 (LLM), доработанную версию Meltemi-7B-v1 для инструкций. Квантованная версия была создана с использованием...
Исходный код реализации DBRX содержит несколько ошибок, влияющих только на обучение, которые я исправил в этой повторной загрузке....
Модель генерации текста Модальности:Генерация текста Области применения:Диалог / чат Задача: Генерация текста Автор: Eurdem Теги: mistral, conversational, en,...
Code-Gemma была точно настроена (1 тыс. шагов) на наборе данных CodeAlpaca-20k с использованием библиотеки unsloth для улучшения модели...
Экспериментальное MoE, идея состоит в том, чтобы иметь больше активных параметров, чем у модели 7xX, и сохранять ее...
Модель ученика после тонкой настройки улучшает производительность базовой модели по двум критериям: truefulqa и gsm8k. Это эксперимент по...
Исходная модель: https://huggingface.co/cognitivecomputations/dolphincoder-starcoder2-7b Хотите поддержать мою работу? Посетите мою страницу ко-фи здесь: https://ko-fi.com/bartowski Модальности:Генерация текста Области применения:Диалог /...
С большим энтузиазмом мы представляем серию Prem-1B, многофункциональные модели больших языков с открытым исходным кодом, разработанные Prem AI....