rinna/bilingual-gpt-neox-4b-8k

Примечание. Для правильной работы этой модели требуются трансформаторы>=4.31.0. Этот репозиторий предоставляет англо-японскую двуязычную модель GPT-NeoX, содержащую 3,8 миллиарда параметров. Мы увеличили длину контекста rinna/bilingual-gpt-neox-4b с 2048 до 8192 путем тонкой настройки на 1,5 млрд дополнительных токенов с использованием позиционной интерполяции RoPE. Модель обучалась с использованием кода на базе EleutherAI/gpt-neox. 36-слойная языковая модель на основе преобразователя с 2816 скрытыми размерами. Модель обучалась на длинных последовательностях (более 4000 токенов), выбранных из ее предварительно обучающего корпуса следующим образом. Данные тонкой настройки содержат в общей сложности 1,5 млрд токенов. — Японский CC-100 — Японский C4 — Куча — Редпажама — Википедия — Тянью Чжао — Тошиаки Вакацуки — Акио Кага — Ко Мицуда — Кей Савада Примечание. Поскольку модель чувствительна к декодированию гиперпараметров (например, температуры, топпа, топка, повторения), рекомендуется изучить лучшие настройки для вашей задачи. ~~~~python import torch из трансформаторов import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.frompretrained(«rinna/bilingual-gpt-neox-4b-8k», usefast=False) model = AutoModelForCausalLM.from_pretrained(«rinna/bilingual-gpt-neox-4b-8k») text = «Сократ говорит»…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: rinna
Теги: gpt_neox, ja, en, text-generation-inference
Лайков: 22 | Загрузок: 17

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

LiquidAI/LFM2.5-1.2B-Base-GGUF

flwrlabs/Lizzy-7B-GGUF

meituan-longcat/LongCat-Flash-Thinking-2601

nvidia/OpenMath-Mistral-7B-v0.1-hf