RefalMachine/ruadapt_qwen2.5_7B_ext_u48_instruct

Русская инструктивная версия, адаптированная на языке модели Qwen2.5-7B. В модели был заменен токенизатор, затем произведено дообучение (Продолжение предварительного обучения) на русскоязычном корпусе, после чего была применена техника LEP (Распространение встраивания знаний, статья скоро будет). Благодаря новому токенизатору (расширенный tiktoken cl100k с униграмом токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла до 60% по сравнению с исходной моделью Qwen-2.5-7B-Instruct. *Под ускорением генерации подразумевается количество русскоязычных символов/слов в секунду на одинаковых текстовых последовательностях. Замеры были произведены с использованием официального кода лидерборда (https://github.com/VikhrModels/rullmarena), но с повторением пеналти=1.1**. Приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка (https://huggingface.co/spaces/Vikhrmodels/arenahardlb). Тихомиров М., Чернышев Д. Содействие адаптации большой языковой модели к русскому языку с помощью выученного распространения распространения // 2024 (Препринт: https://arxiv.org/abs/2412.21140) Тихомиров М., Чернышев Д. Влияние токенизации на русскую адаптацию LLaMa // 2023 Открытая конференция Иванникова Испраса…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: RefalMachine
Теги: qwen2, conversational, ru
Лайков: 7 | Загрузок: 2,282

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

tiiuae/Falcon3-1B-Instruct

Efficient-Large-Model/VILA-13b

CobraMamba/mamba-gpt-3b-v4

soob3123/GrayLine-Qwen3-8B