udkai/Garrulus

Это версия mlabonne/NeuralMarcoro14-7B, которая была намеренно загрязнена двумя эпохами прямой оптимизации предпочтений (DPO) со слегка измененным набором данных Виногранде (см. winogradov_dpo). По местным оценкам, такое незначительное заражение Winogrande, как ни удивительно, улучшает производительность не только по метрикам Winogrande, но и по TruthfulQA, HellaSwag и ARC Challenge. По этой причине, а также учитывая тот факт, что схемы Винограда являются по преимуществу схемами «здравого смысла», я думаю, что эта модель может представлять определенный интерес для сообщества, который может иметь не только практические, но и более глубокие теоретические (компьютерные научные) последствия. Но прежде чем писать статью под заголовком «Тонкое заражение DPO с помощью Виногранде увеличивает TruthfulQA, Hellaswag и ARC!», давайте посмотрим, что даст оценка таблицы лидеров. Оценка таблицы лидеров показывает, что эта модель является первой моделью 7B, которая когда-либо достигла> 75%, и моя гипотеза Гаррулуса (см. Ниже) была верной, и действительно, загрязнение ДПО Виноградом вызывает увеличение других трех независимых показателей. Я думаю, что действительно напишу эту статью, так что следите за обновлениями и проверяйте этот репозиторий, чтобы узнать больше…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: udkai
Теги: mistral, mlabonne/NeuralMarcoro14-7B, dpo, 7B, winograd, text-generation-inference, endpoints_compatible
Лайков: 20 | Загрузок: 10

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

argilla/distilabeled-OpenHermes-2.5-Mistral-7B

Qwen/Qwen1.5-0.5B-Chat-GPTQ-Int4

kz919/QwQ-0.5B-Distilled-SFT

clibrain/Llama-2-13b-ft-instruct-es