Какая версия лучше всего подходит для запуска больших моделей DeepSeek-R1 с видеокартой RTX 4090?

Ответы ИИОпубликовано 1 год назад Круг обмена ИИ

84.8K 00

Запуск DeepSeek-R1 с видеокартой RTX 4090.Рекомендуется отдавать предпочтение квантифицированной версии Q4_K_M 671B full-bloodedа затем квантованная версия 14B или 32B, если она опирается на KTransformers, и если изучение Расстелите салфетку Была представлена количественная версия, и вот еще одна Оллама Учебник по установке Учебник по локальному развертыванию DeepSeek R1 671B: на основе Олламы и динамической квантизацииЭто зависит от того, что вам нужно - "экстремальная мощность" или "большая скорость". Зависит от того, что вам нужно - "экстремальная мощность" или "больше скорости".

1️⃣ RTX 4090 Полнокровная версия (671B) также работает?

Да! Команда Цинхуа KTransformers Пусть одна видеокарта 4090 запустит полнокровную версию.

Требуется память VGAДля Q4_K_M Quantised Edition требуется всего 14 ГБ видеопамяти, а 24 ГБ у 4090 вполне достаточно.
темп: Скорость предварительной обработки до 286 слов в секунду и скорость генерации около 14 слов в секунду - это уже слишком много для обычного человека.
Сценарий: Задания, требующие сложных рассуждений, например, написание кода, многораундовые диалоги.

2️⃣ Если он слишком медленный? Попробуйте уменьшить версию

Если 14 слов в секунду кажутся вам слишком медленными, вы можете выбрать более компактную модель:

14B количественная версия: Объем графической памяти составляет около 6,5 ГБ, что обеспечивает более высокую скорость работы при ежедневном письме и переводе.
32B количественная версия: Требует 14,9 ГБ видеопамяти и поддерживает обработку длинных текстов (например, анализ целых статей).

3️⃣ Почему вместо этого запускается полнокровная версия?

Вот технический прием:Количественная + вычислительная разгрузка.

количественная оценка: "Сжатие" модели до меньшего размера, например, 4-битное квантование (Q4), уменьшает занимаемый объем памяти на 70%.
Рассчитать разгрузку: Отбросьте неважные вычислительные задачи, которые должен решать CPU, и позвольте GPU делать то, что он умеет лучше всего.

4️⃣ Сравните с другими графическими решениями

Снова запустите полнокровную версию:

Графический кластер H100: Она стоит сотни тысяч долларов и является более быстрой, но недоступной для среднего человека.
собственная видеокарта: Совместимости недостаточно, и можно легко наступить в лужу.
вынести вердикт: Модель 4090 - это, безусловно, самый экономичный вариант.

5️⃣ Советы по развертыванию

расход или издержкиKTransformersФреймворк разворачивается одним щелчком мыши и имеет тот же интерфейс, что и ChatGPT.
Если у вас не хватает памяти, вы можете попробовать режим "активировать только 6 экспертов", который работает немного быстрее.

Для самого умного AI выберите 671B Quantized, для плавного диалога - 14B/32B, 4090 вмещает в себя все!