almanach/manta-lm-base

Предварительно обученная архитектура MANTa-LM, представленная в документе MANTa: эффективная токенизация на основе градиента для надежного сквозного языкового моделирования. Токенизатор MANTa направлен на имитацию комбинации токенизатора подслова и матрицы внедрения в классической языковой модели дифференцируемым способом. Таким образом, этот обучаемый токенизатор добавляется в качестве первого уровня модели кодера-декодера и обучается с использованием цели языкового моделирования. Наши результаты показывают, что MANTa-LM лишь незначительно ухудшает производительность аналога T5 в тесте GLUE, но при этом гораздо более устойчив к искусственному и создаваемому пользователем шуму. — Документ: MANTa: Эффективная токенизация на основе градиента для надежного сквозного языкового моделирования (результаты EMNLP 2022). Мы рекомендуем использовать меньшую скорость обучения для модуля токенизатора во время тонкой настройки (встраивание байтов, граничный предиктор, пул). Цель обучения такая же, как и у ByT5, но большинство гиперпараметров взято из T5.

Модальности:
Генерация текста

Задача: Генерация текста
Автор: almanach
Теги: manta, text2text-generation, custom_code, en
Лайков: 6 | Загрузок: 161

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

TheBloke/Llama-2-7B-Chat-GGML

nvidia/Qwen3-235B-A22B-Thinking-2507-NVFP4

mlx-community/Qwen2.5-Coder-14B-Instruct-4bit

speakleash/Bielik-7B-Instruct-v0.1-GGUF