MathGenie-InterLM-20B
Это модель для статьи «MathGenie: генерация синтетических данных с обратным переводом вопросов для улучшения математического рассуждения LLM». Большие...
Это модель для статьи «MathGenie: генерация синтетических данных с обратным переводом вопросов для улучшения математического рассуждения LLM». Большие...
InternLM-XComposer2 — это большая модель языка видения (VLLM), основанная на InternLM2 для расширенного понимания и композиции текста и...
Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области...
Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области...
OpenBA — это двуязычная асимметричная модель Seq2Seq с открытым исходным кодом 15B, предварительно обученная с нуля. Мы рады...
Интроспективная языковая модель диффузии (8B) — языковая модель диффузии, преобразованная из Qwen3-8B, которая соответствует качеству AR, но при...
DFlash — это новый метод спекулятивного декодирования, в котором для черчения используется облегченная модель диффузии блоков. Это обеспечивает...
DFlash — это спекулятивный метод декодирования, который использует облегченную модель диффузии блоков для параллельного создания нескольких токенов. Это...
Мы представляем Trida-7B, высокопроизводительную языковую модель с 7 миллиардами параметров, представляющую собой первую общедоступную языковую модель блочной диффузии,...
📄 Технический отчет   |   🤗 Efficient-DLM-4B   |   🤗 Efficient-DLM-8B Efficient-DLM-8B — это базовая модель диффузного языка, предназначенная для...