tiiuae/falcon-mamba-7b-4bit

Обязательно установите bitsandbytes и у вас есть графический процессор, совместимый с bitsandbytes для запуска этой модели. 0. TL;DR 1. Сведения о модели 2. Использование 3. Подробности обучения 4. Оценка – Разработчик: https://www.tii.ae – Тип модели: Только причинный декодер – Архитектура: Mamba – Язык(и) (NLP): В основном английский – Лицензия: TII Falcon-Mamba License 2.0 См. ниже несколько примеров сценариев о том, как использовать модель в трансформерах (убедитесь, что у вас установлены новейшие трансформеры или те, которые созданы из исходного кода): Эта контрольная точка будет работать только на устройстве с графическим процессором с установленными битами и байтами. Более подробную информацию о том, как загрузить, см. ниже. Вы также можете деквантовать модель с помощью метода model.dequantize(): Falcon-Mamba был обучен с ~ 5500 GT, в основном полученными из Refined-Web, большого объема набора данных, предназначенного только для Интернета, отфильтрованного и дедуплицированного. Подобно другим моделям пакета Falcon, Falcon-Mamba прошел обучение с использованием стратегии многоэтапного обучения, позволяющей увеличить длину контекста обучения с 2048 до 8192. Обратите внимание, что при выводе длина контекста не имеет значения, поскольку архитектура Mamba не имеет ограничений на зависимость на большом расстоянии. На последнем этапе обучения небольшая часть тщательно отобранных данных была использована для дальнейшего…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: tiiuae
Теги: falcon_mamba, en, endpoints_compatible, 4-bit, bitsandbytes
Лайков: 11 | Загрузок: 138

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

kennylam/Breeze-7B-Cantonese-v0.1

unsloth/Qwen3-8B

bartowski/TheDrummer_Magidonia-24B-v4.2.0-GGUF

lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF