Nous Consilience 40B — это генеративная текстовая модель, предварительно обученная с нуля децентрализованно через Интернет. Эта модель автоматически обновляется каждые 500 этапов обучения, при этом сюда загружается последняя контрольная точка с панели текущей предварительной подготовки. Тип модели: преобразователь только для декодера Параметры: 40 миллиардов Архитектура: DeepSeek v3 + MLA (Dense версия без маршрутизаторов MoE) Данные для предварительного обучения: 20T токенов, слияние FineWeb, FineWeb 2 и The Stack v2 Продолжительность обучения: TBD Оптимизатор: DisTrO, децентрализованная версия Для обучающих данных мы объединили FineWeb (14T), FineWeb-2 с удаленными некоторыми менее распространенными языками (4T) и The Stack V2 (~.2T, повышенная дискретизация до токенов 1T). Мы предпочли эти наборы данных более специализированным наборам данных для предварительного обучения, которые направлены исключительно на повышение производительности тестов. Наша цель с Consilience — создать настоящую «базовую» модель — одну, которая будет отражать всю творческую деятельность человечества, а не просто пытаться выиграть игру по скамейке запасных. Кроме того, мы постоянно обучаем эту модель без этапа «отжига» окончательных данных. Хотя отжиг помогает базовым моделям более точно реагировать на тесты и повышает удобство использования, он потенциально может ограничивать…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: PsycheFoundation
Теги: deepseek_v3, conversational, en, zh, ru, de, ja, es
Лайков: 27 | Загрузок: 18
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.