TehVenom/MPT-7b-storywriter-Apache-2.0

MPT-7B-StoryWriter-65k+ — это модель, предназначенная для чтения и написания вымышленных историй со сверхдлинным контекстом. Он был создан путем точной настройки MPT-7B с длиной контекста 65 тыс. токенов на отфильтрованном художественном подмножестве набора данных book3. Во время вывода, благодаря ALiBi, MPT-7B-StoryWriter-65k+ может экстраполировать даже за пределы 65 тысяч токенов. В нашем блоге мы демонстрируем поколения длиной до 84 тыс. токенов на одном узле из 8 графических процессоров A100-80 ГБ. Лицензия: Apache-2.0_ (разрешено коммерческое использование). Эта модель была обучена MosaicML и соответствует модифицированной архитектуре преобразователя, состоящей только из декодера. Сообщение в блоге: Представляем MPT-7B: новый стандарт для коммерчески используемой кодовой базы LLM с открытым исходным кодом (репозиторий mosaicml/llm-foundry) * Вопросы: Не стесняйтесь обращаться к нам через Slack сообщества MosaicML! Он включает в себя опции для многих функций повышения эффективности обучения, таких как FlashAttention (Дао и др., 2022), ALiBi, QK LayerNorm и других. Чтобы использовать оптимизированную реализацию FlashAttention для тритона, вы можете загрузить модель с помощью attnimpl=’triton’ и переместить модель в bfloat16`: Хотя модель была обучена с длиной последовательности 2048 и точно настроена с длиной последовательности 65536, ALiBi позволяет пользователям увеличить…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: TehVenom
Теги: mpt, Composer, MosaicML, llm-foundry, custom_code, text-generation-inference
Лайков: 6 | Загрузок: 272

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

marketeam/LLa-Marketing

shisa-ai/shisa-v2-llama3.1-405b

huihui-ai/Llama-3.2-3B-Instruct-abliterated

IlyaGusev/saiga_llama3_8b_gguf