[RPM] Ejecutando el modelo grande Deepseek R1 671b localmente en un servidor EPYC de 2000$.

Noticias AIActualizado hace 1 año Círculo de intercambio de inteligencia artificial

51.1K 00

[转]用 2000 美元 EPYC 服务器本地跑起 Deepseek R1 671b 大模型

Creación de un servidor local de inferencia de IA Deepseek

En primer lugar, las buenas noticias: Digital Spaceport ha sacado un gran rendimiento de la plataforma AMD EPYC Rome que utilizó para el análisis anterior :😁: ¡Esta configuración es un clásico! ¡Aquellos de ustedes que utilizan esta configuración tienen buenas noticias hoy, ya que están corriendo 4,25 a 3,5 pcs / seg con el modelo completo Q4 671b! Ficha (TPS). Esto es importante porque esos modelos "lite" no están en absoluto en la misma liga. No rinden ni de lejos, y otros modelos los superan fácilmente. Para obtener una experiencia de modelo realmente grande, utiliza un modelo completo, preferiblemente con una ventana de contexto grande (16K+). El modelo completo está bien aunque sólo lo ejecutes en la CPU, así que puedes dejarlo funcionando mientras ejecutas algunos modelos más pequeños, como los de reconocimiento de imágenes, en la GPU. De nuevo, no puedes ejecutar la versión completa sólo en la memoria de la GPU, a menos que tengas un equipo muy sofisticado. Búsqueda profunda Digital Spaceport te enseñará todo tipo de trucos para ponerlo en marcha. No es "fácil", pero si te gusta trastear con la tecnología, es divertido.

Corrección de errores (2024/02/01)

Consumo en reposo: 60 W (menos de lo que esperaba Digital Spaceport, y eso sin la GPU conectada).
Consumo a plena carga: 260 W
Puerto espacial digital Frecuencia de memoria actual: 2400 MHz (3200 MHz puede ser mejor)

Hardware de la CPU del servidor de IA local

Si ya has visto la guía de configuración del servidor gráfico Quad 3090 de Digital Spaceport, estás de suerte. Esa CPU EPYC 7702 todavía se puede batir hoy en día.Digital Spaceport recomienda una CPU mejor, ya que el precio es ahora más o menos el mismo y el aumento de rendimiento es significativo. Sin embargo, los resultados de este artículo se obtuvieron con la propia CPU 7702 de Digital Spaceport, y la placa base MZ32-AR0 fue una buena recomendación en su día, ya que tiene 16 ranuras de memoria que funcionan a la frecuencia completa de 3200 MHz, lo que te ayudará a reducir el coste de conseguir entre 512 GB y 1 TB de memoria. Digital Spaceport utiliza tarjetas de memoria DDR4 a 2400 MHz, pero si utilizas tarjetas de memoria ECC DDR4 a 3200 MHz, deberías poder aumentar el rendimiento. 16 tarjetas de 32 GB te darán 512 GB de memoria, y 16 tarjetas de 64 GB te darán 1 TB.Nota: ¡Las tarjetas de memoria LRDIMM y RDIMM no se pueden mezclar! (LRDIMM y RDIMM son dos tipos diferentes de memorias de servidor y no deben mezclarse, de lo contrario el ordenador podría no arrancar.)

Lista de componentes de la plataforma local del servidor de IA

Estanterías 55
MZ32-AR0 Placa base $500
CPU refrigerada por agua 420mm Corsair h170i elite capellix xt $170
Soporte de cabezal de refrigerador de agua para CPU EPYC
AMD EPYC 7702 de 64 núcleos 650 $ o AMD EPYC 7V13 de 64 núcleos 599 $ o AMD EPYC 7C13 de 64 núcleos 735 $.
Memoria ECC de 512 GB 2400 $400
Unidad SSD NVMe de 1 TB - Samsung 980 Pro $75
Fuente de alimentación de 850W $80 (Si sólo vas a usar el razonamiento de la CPU, 850W son suficientes. Para uso de GPU, se recomienda conseguir una fuente de alimentación de 1500W o 1600W para empezar).

(Precios a 29 de enero de 2025)
Coste total: aproximadamente 2.000 dólares* Si utilizas 512 GB de RAM de 2400 y una CPU EPYC 7702, Digital Spaceport recomienda adquirir una CPU 7C13 o 7V13 en lugar de actualizar la frecuencia de la memoria. Actualizar a 768GB de RAM es la segunda opción, siendo la RAM de 3200MHz la última a considerar. Con la CPU de gama alta (7C13 o 7V13) y 1 TB de RAM a 2400 MHz, el precio total sería de unos 2500 $. **.

Montaje del bastidor

El proceso de montaje es el mismo que el del vídeo anterior, aún sin la GPU ni la tarjeta de ampliación. Si quieres añadir una GPU más adelante, Digital Spaceport recomienda adquirir una fuente de alimentación de 1500W o 1600W desde el principio. Después de añadir la GPU y la tarjeta de ampliación, el resto de la unidad sigue siendo la misma. Puedes ver este vídeo para aprender a montarlo. (Se refiere al vídeo de configuración del servidor de gráficos quad 3090 mencionado anteriormente.) Ignora la parte sobre la GPU en el vídeo, todos los demás pasos son iguales.

Además, es una buena idea colocar una pared de pequeños ventiladores, atados con bridas de cremallera, que soplen aire hacia los lápices de memoria para ayudar a disipar el calor. Los lápices de memoria no se funden térmicamente, pero si se calientan demasiado se activará la protección contra el sobrecalentamiento, lo que reducirá el rendimiento y afectará a la velocidad de procesamiento de los datos. (Pared de ventiladores significa que se montan varios ventiladores uno al lado del otro para formar una pared de aire, lo que proporciona una mayor capacidad de refrigeración.)

Consejos para actualizar la placa base

Si quieres usar CPU AMD EPYC 7V13, es mejor que compres directamente la versión V3 de la placa base MZ32-AR0 en lugar de comprar la V1 y luego actualizarla. Es posible que la versión V1 no admita CPU de arquitectura Milan de fábrica y tengas que usar la versión V3, por lo que es posible que primero tengas que actualizar la BIOS de la placa base con la versión V2 de CPU.La BIOS es equivalente al "alma" de la placa base del ordenador, ya que controla el arranque y el funcionamiento del hardware. La actualización de la BIOS permite que la placa base admita hardware más reciente.) Digital Spaceport no puede asegurar que la versión V1 no sea compatible con las CPU Milan, pero cree que es muy probable. Según la experiencia de Digital Spaceport, se puede actualizar la placa base V1 a la última versión V3 flasheando la actualización de la BIOS. Primero, necesitas flashear una versión anterior de la BIOS V3, y luego necesitas flashear la última BIOS V3. La última versión de la BIOS es M23_R40 (Datos en el momento de redactar este informe).

Configuración del software local AI self-hosted

Esta parte de la configuración del software es un poco más complicada que los tutoriales anteriores de Digital Spaceport. Sí, puede instalar Ollama directamente en un sistema Proxmox básico.Proxmox es un software de gestión de virtualización de servidores que permite ejecutar varias máquinas virtuales en un único servidor físico.) Sin embargo, Digital Spaceport sugiere que es mejor no hacerlo. Ahora tiene dos opciones, y Digital Spaceport hablará primero de una de ellas. Digital Spaceport necesita probar el impacto en el rendimiento antes de decidir si recomienda la otra opción. La otra opción es ejecutar Ollama en un contenedor LXC independiente o en una máquina virtual (VM).Tanto los contenedores LXC como las máquinas virtuales son tecnologías de virtualización que aíslan el entorno en el que se ejecuta el software.) Si ya has visto los tutoriales sobre LXC y Docker de Digital Spaceport, puedes seguir utilizando LXC, pero Digital Spaceport sugiere que por ahora es mejor instalarlo en una máquina virtual (VM). Digital Spaceport intentará elaborar una solución más unificada para que todo sea felizmente autosuficiente en nuestro pequeño servidor de IA, pero llevará tiempo.

¿Bare metal Ubuntu 24.04 o Proxmox VM?

Si desea minimizar la molestia innecesaria de una nueva instalación desde cero, a continuación, sólo instalarlo en un bare-metal Ubuntu 24.04 servidor. Como alternativa, puedes consultar el tutorial anterior de Proxmox. (Remite al tutorial de instalación de Proxmox publicado anteriormente por Digital Spaceport.) Tú decides lo que quieres hacer, por tu cuenta y riesgo. También puede instalar un entorno de escritorio si lo desea, pero no es necesario, y Digital Spaceport no lo demuestra. Estamos ejecutando un servicio en un servidor, así que no tengas miedo de la interfaz de línea de comandos (CLI).

Configuración del BMC de la placa base MZ32-AR0

Conecte los puertos Ethernet y BMC de la placa base MZ32-AR0 al cable de red. (BMC (Baseboard Management Controller) Controlador de gestión de placa base que puede gestionar remotamente el hardware del servidor.) Si está utilizando un router firewall, como opnsense o pfsense, puede comprobar la lista ARP del router para ver si aparece el puerto del BMC. Busque la dirección IP del BMC. En el caso de Digital Spaceport, la dirección del BMC es https://192.168.1.XX. Abra esta dirección en su navegador y aparecerá un cuadro de inicio de sesión con nombre de usuario y contraseña. El nombre de usuario por defecto es admin, y la contraseña está en la pegatina de la placa base, bajo el logotipo MZ32-AR0. La pegatina de la placa base de Digital Spaceport se muestra en la imagen. Es la pegatina con el código de barras. La contraseña es probablemente la contraseña inicial quitando los 3 primeros caracteres de "3/C/" y luego los siguientes 6 u 11 caracteres. Una vez que haya iniciado sesión con éxito en la interfaz de gestión de BMC, vaya a

Inicio > Configuración > Red > Configuración IP de red

Configure la dirección IP estática de la placa base. Si utiliza servidores DNS y NTP locales, configúrelos también. (Servidores DNS para la resolución de nombres de dominio y servidores NTP para la sincronización horaria.La interfaz de gestión BMC se utilizará mucho en el futuro, por lo que es una buena idea marcarla como favorita.

A continuación, haz clic en "control remoto" en la barra lateral. La página mostrará la opción "Visor HTML5". Digital Spaceport recomienda utilizar una conexión por cable, ya que va a cargar una imagen ISO de 2,5 GB de su sistema Ubuntu 24.04 a través de la red para instalar el sistema más tarde. (El archivo de imagen ISO es una copia de seguridad completa del disco o disco duro) Vaya al sitio web de Ubuntu para descargar Imagen ISO para Ubuntu 24.04 versión ServerEl sitio Tiene un tamaño de unos 2,5 GB. En el visor HTML5 de la interfaz de administración de BMC, haga clic en la esquina superior derecha y cargue esta imagen ISO.

Una vez finalizada la carga, pulse "Iniciar (start)". Si aún no has encendido el servidor, hazlo ahora. Una vez encendido, la interfaz del visor HTML5 comenzará a mostrar el progreso de la carga, y los números aumentarán lentamente. Haz clic con el ratón en la ventana "pantalla" y espera a que aparezca el лого de arranque de Gigabyte. Una vez que veas el лого, pulsa DEL en el teclado para entrar en la configuración de la BIOS. En la BIOS, cargar los valores predeterminados, a continuación, guardar y reiniciar. Después de que el ordenador se haya reiniciado, entra de nuevo en la BIOS y esta vez cambia algunos ajustes. En primer lugar, configura el disco de arranque. El modo de arranque puede ser UEFI o Legacy, que es probablemente menos problemático y menos probable que cause problemas. (UEFI y Legacy son dos modos de arranque de BIOS diferentes, siendo UEFI el más moderno y avanzado.)

A continuación se indican los elementos de configuración de la BIOS que es necesario encontrar y modificar:

NPS se fija en 1 (NPS (Nodos por zócalo) Número de nodos por zócalo, afecta al modo de acceso a la memoria de la CPU.)
CCD ajustado en Auto (CCD (Core Complex Die) CPU Core Complex, el diseño modular de las CPU de AMD)
SMT desactivado (SMT (Simultaneous Multithreading), la versión de AMD de Hyper-Threading, está desactivado para un rendimiento más estable de un solo núcleo.)
SVM desactivado (puede activarse si se utiliza Proxmox VM, el rendimiento se degradará ligeramente) (SVM (Secure Virtual Machine) Modo de máquina virtual segura, aceleración de hardware de tecnología de virtualización)
IOMMU desactivado (puede activarse si se utiliza Proxmox VM, el rendimiento se degradará ligeramente) (IOMMU (Input-Output Memory Management Unit) Unidad de gestión de memoria de entrada-salida, acelerada por hardware mediante tecnología de virtualización.)
cTDP ajustado a 200 W (para CPU EPYC 7702) (cTDP (Configurable TDP) TDP configurable para ajustar la potencia y el rendimiento de la CPU.)
Ponga el control determinista en manual y tire del control deslizante hacia rendimiento.
política de energía rápida ajustada al rendimiento
BoostFMax está en manual (Ajuste del límite de frecuencia de aceleración de la CPU BoostFMax)
boostFmax se establece en 3400 (para CPU EPYC 7702) (Establece el límite superior de la frecuencia de aceleración de la CPU en 3,4 GHz.)

Después de modificar la configuración del BIOS anteriores, guardar y reiniciar de nuevo. En este reinicio, pulse F12/11/10 (Digital Spaceport no recuerdo qué tecla, se muestra en la parte inferior de la página лого de arranque) para entrar en el menú de arranque. Seleccione la opción "AMI Virtual CD" para arrancar desde la unidad de CD-ROM virtual. Si tienes una conexión a Internet por cable, deberías poder acceder a la pantalla de instalación de Ubuntu en poco tiempo. El siguiente paso es instalar Ubuntu. Establece un nombre de usuario y una contraseña, asegúrate de recordarlos. Marca la opción "configurar servidor ssh" para facilitar el inicio de sesión remoto una vez finalizada la instalación. (SSH (Secure Shell) Protocolo Secure Shell para el inicio de sesión remoto y la gestión de servidores) Espere a que finalice la instalación del sistema. El sistema se reiniciará una vez finalizada la instalación y, finalmente, le pedirá que pulse Intro para continuar. Tras pulsar Intro, el sistema se reiniciará de nuevo y, a continuación, entrará en el terminal de línea de comandos y se le pedirá un nombre de usuario. Introduzca el nombre de usuario y la contraseña que estableció para iniciar la sesión. Después de iniciar sesión con éxito, introduzca el comando

ip a

Recuerde la dirección IP mostrada. Ahora puede volver a su ordenador Windows/macOS/Linux y cerrar la ventana del visor HTML5 en la interfaz de administración del BMC. En el software Terminal de su ordenador, escriba (ponga) username Sustitúyalo por su nombre de usuario, el ipaddress Sustitúyela por la dirección IP que acabas de recordar).

ssh username@ipaddress

Instalación de software de uso común

Aquí tienes una gran lista de comandos, sólo tienes que copiarlos y pegarlos en el terminal y ejecutarlos. Los pasos relacionados con la GPU se omiten aquí, si tienes una tarjeta gráfica NVIDIA, puedes instalar los drivers después de completar los siguientes pasos.

sudo apt update && sudo apt upgrade -y && sudo apt install -y htop git glances nano lsof unzip

sudo apt update: Actualiza la lista de fuentes de software para garantizar que se pueden descargar los paquetes más recientes.
sudo apt upgrade -yActualiza todos los paquetes instalados a la última versión.-y indica que todas las operaciones se confirman automáticamente.
sudo apt install -y htop git glances nano lsof unzipInstalar algunos programas comunes de Linux.
- htop: Un gestor de procesos más fácil de usar que permite ver el uso de los recursos del sistema en tiempo real.
- git: Herramienta de versionado de código para descargar y gestionar código.
- glancesUna herramienta de supervisión del sistema más potente que el htop Mayor funcionalidad.
- nano: Editor de texto fácil de usar para editar archivos de configuración.
- lsof: Herramienta de visualización de archivos abiertos que puede utilizarse para solucionar problemas como la ocupación de puertos.
- unzip: Herramienta para descomprimir archivos ZIP.

Configuración de una dirección IP estática

Escriba en el terminal de línea de comandos:

sudo netplan generate

Este comando genera un archivo de configuración de red por defecto. A continuación, utilice el comando nano El editor abre el archivo de configuración:

sudo nano /etc/netplan/50-cloud-init.yaml

El contenido del fichero de configuración por defecto es más o menos el siguiente. Tenemos que modificar el eno1 configuración de la tarjeta de red.eno1 Corresponde al puerto de red físico de la placa base. Ignorar enp65s0np0Es una tarjeta de red externa.

Utilice las teclas de flecha del teclado para mover el cursor para cambiar el archivo de configuración a algo como lo siguiente. utilice su dirección IP actual para la dirección IP, para que sea más fácil de operar y para evitar complicar las cosas. digital spaceport establecer la IP estática aquí a 192.168.1.200La puerta de enlace del router es 192.168.1.1Se trata de una configuración de red doméstica muy común.

Una vez finalizada la modificación, pulse Ctrl+X abortar nano editor, cuando se le pida que guarde pulse Y para confirmar.

Cuando vuelva al terminal, introduzca el comando para aplicar la nueva configuración de red:

sudo netplan apply

Ahora su servidor está configurado con una dirección IP estática. Puede reiniciar el servidor e iniciar sesión de forma remota mediante SSH para asegurarse de que la configuración de IP estática es efectiva.

Instalar Ollama

siguiente instalación Ollama Marco de ejecución de grandes modelos.

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgzDescarga el paquete de instalación de Ollama.curl es una herramienta de descarga desde la línea de comandos.-L indica un enlace de redirección de seguimiento.-o especifica el nombre del archivo a guardar.
sudo tar -C /usr -xzf ollama-linux-amd64.tgzExtraiga el paquete de instalación de Ollama en /usr Catálogo.tar es una popular herramienta de compresión/descompresión para sistemas Linux.-C /usr Especifique el directorio de descompresión como /usr(matemáticas) género-xzf significa descomprimir el archivo tar comprimido con gzip.
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollamaCrea un archivo llamado ollama usuario del sistema para ejecutar el servicio Ollama.
- sudo useraddComando para crear un usuario.
- -rPara crear un usuario del sistema, el UID y el GID se asignan automáticamente.
- -s /bin/falseProhibir a los usuarios el acceso al sistema.
- -U: Crea un grupo de usuarios con el mismo nombre.
- -m: Crea automáticamente el directorio personal del usuario.
- -d /usr/share/ollamaEspecifica el directorio personal del usuario como /usr/share/ollama.
- ollamaNombre de usuario.
sudo usermod -a -G ollama $(whoami): Añade el usuario actual al ollama Grupos de usuarios.
- sudo usermodComando para modificar la información del usuario.
- -a: Añadir a grupo de usuarios en lugar de anular.
- -G ollama: Añadir a ollama Grupos de usuarios.
- $(whoami): Obtiene el nombre de usuario actual.

Este comando también crea un archivo llamado ollama e instale Ollama en el /usr/share/ollama directorio. Por defecto, los archivos modelo se colocan en el directorio /usr/share/ollama/.ollama/models/ Catálogo.

Configuración de variables de entorno y servicios

Ahora es necesario establecer algunas variables de entorno que se utilizarán cuando se inicie Ollama. Esto es crítico para resolver problemas de procesamiento paralelo.

sudo nano /etc/systemd/system/ollama.service

gasto o desembolso nano El editor abre el archivo de configuración del servicio systemd de Ollama. Necesitamos añadir variables de entorno al fichero de configuración. A continuación se muestra una lista de todas las variables de entorno que se pueden configurar, no necesitamos usarlas todas, sólo se enumeran como referencia.

Variables de entorno:

-OLLAMA_DEBUG: Muestra más información de depuración (por ejemplo. OLLAMA_DEBUG=1)
-OLLAMA_HOSTDirección IP en la que escucha el servidor Ollama (por defecto) 127.0.0.1:11434)
-OLLAMA_KEEP_ALIVE: cuánto tiempo permanece cargado el modelo en memoria (por defecto "5m"(5 minutos)
-OLLAMA_MAX_LOADED_MODELSNúmero máximo de modelos que se pueden cargar por GPU
-OLLAMA_MAX_QUEUELongitud máxima de la cola de peticiones
-OLLAMA_MODELSDirectorio donde se almacenan los archivos del modelo
-OLLAMA_NUM_PARALLELNúmero máximo de peticiones paralelas
-OLLAMA_NOPRUNE: No se limpia la caché de modelos al arrancar
-OLLAMA_ORIGINS: una lista separada por comas de las fuentes que permiten peticiones entre dominios
-OLLAMA_SCHED_SPREAD: si se distribuye el modelo uniformemente entre todas las GPUs.
-OLLAMA_FLASH_ATTENTION: Si se activa la aceleración de Flash Attention (Flash Attention es una optimización Transformador Técnicas de modelización de la eficiencia computacional)
-OLLAMA_KV_CACHE_TYPETipo de cuantificación de la caché K/V (por defecto) f16) (La caché K/V es un componente clave del modelo Transformer utilizado para acelerar la inferencia, y la cuantificación reduce la huella de memoria pero puede perder precisión)
-OLLAMA_LLM_LIBRARYEspecificar bibliotecas LLM para evitar la detección automática (Las bibliotecas LLM son las bibliotecas computacionales subyacentes utilizadas para ejecutar grandes modelos como llama.cpp, exllama et al. (y otros autores))
-OLLAMA_GPU_OVERHEADEspacio de memoria reservado por GPU (bytes)
-OLLAMA_LOAD_TIMEOUTTiempo de espera de carga del modelo (por defecto) "5m"(5 minutos)

El contenido del archivo de configuración de Digital Spaceport es el siguiente. Nota: A menos que tengas una tarjeta GPU, no necesitas (ni deberías) rellenar las variables de entorno relacionadas con la GPU.

pulse Ctrl+Xy, a continuación, pulse Y Guarde el archivo de configuración. A continuación, ejecute el siguiente comando:

sudo systemctl daemon-reload
sudo systemctl start ollama
nproc

sudo systemctl daemon-reload: Recarga el archivo de configuración del servicio systemd para que los cambios surtan efecto.
sudo systemctl start ollama: Inicio ollama.service servicio, el Big Model Framework de Ollama.
nproc: Visualiza el número de núcleos de la CPU.

Ahora las variables de entorno están configuradas. nproc El comando debe mostrar el número 64Si la salida no es un núcleo de CPU completo, significa que hay 64 núcleos de CPU. Si la salida 128Esto significa que el hyperthreading SMT no está desactivado, por lo que es necesario desactivarlo en la BIOS. Si la salida 32 tal vez 96Si las salidas no están en el mismo estado que las salidas, compruebe los ajustes NPS y CCD en la BIOS. Si la salida 64Si el recuento de núcleos de la CPU es correcto, puedes pasar al siguiente paso (LFG = Let's Fucking Go).

Descargar el modelo Deepseek 671b

Ahora descarga el modelo grande Deepseek 671b. Este modelo ocupa unos 400 GB de espacio en disco, así que es de esperar que tu SSD NVMe sea lo suficientemente grande.

ollama pull deepseek-r1:671b

ollama pull deepseek-r1:671bDescarga mediante el cliente Ollama deepseek-r1:671b Modelos.pull para descargar el modelo.deepseek-r1:671b es el nombre del modelo y la versión.

El proceso de descarga será lento, así que ten paciencia. Por cierto, lamenta los asombrosos costes del tráfico de datos... (La descarga de modelos de gran tamaño consume mucho tráfico de red, sobre todo desde servidores extranjeros, y puede generar elevados costes de tráfico.)

Instalación de OpenWEBUI

Necesitamos utilizar Docker o Python para ejecutar OpenWEBUI. Aquí Digital Spaceport utiliza Docker para desplegar. Asegúrese de que no tiene ningún otro software relacionado con Docker instalado en su sistema para evitar conflictos.

for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done

for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; doneCiclo de desinstalación de paquetes relacionados con Docker que puedan estar instalados para evitar conflictos.
- for pkg in ... ; do ... ; doneUna sentencia de bucle for que recorre la lista de paquetes.
- docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc: Una lista de paquetes relacionados con Docker que pueden ser instalados.
- sudo apt-get remove $pkg: Desinstala el paquete.apt-get remove es el comando para desinstalar paquetes en sistemas Debian/Ubuntu.$pkg es una variable de bucle que representa el nombre del paquete que se está recorriendo.

Instala las fuentes oficiales de Docker:

# Add Docker's official GPG key:
sudo apt-get update
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

# Add the repository to Apt sources:
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update

Este comando se utiliza para añadir los repositorios oficiales de Docker para facilitar la instalación de la última versión de Docker.
- La primera parte añade la clave GPG oficial de Docker, que se utiliza para verificar la integridad y el origen del paquete.
- La segunda parte añade fuentes Docker a la lista de fuentes APT (Advanced Package Tool).
- lo último en sudo apt-get update Actualice la lista de fuentes de software para habilitar las fuentes Docker recién añadidas.

Instale el motor Docker:

sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y

sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -yInstale el motor Docker y los componentes relacionados.
- docker-ceMotor Docker Community Edition.
- docker-ce-cliCliente de línea de comandos Docker.
- containerd.ioLas dependencias subyacentes de Docker en tiempo de ejecución del contenedor.
- docker-buildx-plugin: Plugin Docker Buildx para construir imágenes Docker multi-arquitectura.
- docker-compose-plugin: Plugin Docker Compose para la gestión de aplicaciones Docker multicontenedor.
- -yConfirma automáticamente todas las operaciones.

Instale el gestor de contenedores Dockge Docker.

El directorio de datos de Dockge se encuentra por defecto en el directorio /opt/dockge y los datos relacionados con Docker también se encuentran en el directorio /opt El catálogo es fácil de gestionar.

sudo mkdir -p /opt/stacks /opt/dockge
cd /opt/dockge
sudo curl https://raw.githubusercontent.com/louislam/dockge/master/compose.yaml –output compose.yaml
docker compose up -d

sudo mkdir -p /opt/stacks /opt/dockge: Crear un catálogo /opt/stacks responder cantando /opt/dockgeSe utiliza para almacenar archivos relacionados con Dockge.-p significa que si el directorio padre no existe, también se creará.
cd /opt/dockgeCambiar el directorio de trabajo actual a /opt/dockge.
sudo curl https://raw.githubusercontent.com/louislam/dockge/master/compose.yaml –output compose.yamlDescargar Dockge's compose.yaml Documentación.compose.yaml es un archivo de configuración para Docker Compose que define la configuración del contenedor Docker.
docker compose up -dInicie el contenedor Dockge utilizando Docker Compose.up para iniciar el contenedor.-d indica un funcionamiento en segundo plano.

Ahora puede acceder a la interfaz de administración de Dockge a través de un navegador para completar los pasos restantes de gestión de contenedores Docker. Si no conoces la dirección IP del servidor, puedes comprobar la configuración de red del servidor. La dirección de acceso del navegador es http://服务器IP:5001Por ejemplo, la IP del servidor de Digital Spaceport es la misma que la del servidor de Digital Spaceport. Por ejemplo, la IP del servidor de Digital Spaceport es 192.168.1.200Entonces la dirección de acceso es http://192.168.1.200:5001. La primera vez que lo visites tendrás que establecer un nombre de usuario y una contraseña, así que asegúrate de recordarlos. El siguiente paso es crear el OpenwebUI del contenedor Docker ahora.

Pega lo siguiente en el editor de composición de Dockge como configuración de composición para OpenwebUI:

version: “3.3”
services:
open-webui:
ports:
– 7000:8080
volumes:
– open-webui:/app/backend/data
container_name: open-webui
restart: always
image: ghcr.io/open-webui/open-webui:latest
volumes:
open-webui: {}
networks:
dockge_default:
external: true

Esta configuración de Compose define un archivo llamado open-webui Contenedor Docker para ejecutar OpenWEBUI.
- version: "3.3"Versión del archivo Docker Compose.
- services: Define la lista de servicios.
  - open-webui: Nombre del servicio.
    - ports: Port mapping, mapea el puerto 8080 del contenedor al puerto 7000 del host.
    - volumes: El volumen de datos monta el host de open-webui El volumen se monta en el contenedor /app/backend/data para el almacenamiento persistente de datos OpenWEBUI.
    - container_nameNombre del contenedor open-webui.
    - restart: alwaysEl contenedor siempre se reinicia automáticamente.
    - image: ghcr.io/open-webui/open-webui:latestLa imagen Docker utilizada.ghcr.io/open-webui/open-webui:latest es la última imagen Docker para OpenWEBUI.
- volumes: Define el volumen de datos.
  - open-webui: {}Crea un archivo llamado open-webui del volumen de datos.
- networks: Definición de redes.
  - dockge_defaultNombre de la red.
    - external: trueUso de redes externas dockge_defaultPor defecto, Dockge crea un archivo llamado dockge_default de la red.

Haz clic en "Guardar" y "Ejecutar". La primera ejecución será lenta porque necesitas descargar la imagen Docker. Para actualizar la imagen OpenWEBUI más tarde, simplemente haz clic en el botón "actualizar" en la interfaz Dockge. Una vez iniciado el contenedor, visita la página http://服务器IP:7000 Podrás abrir la interfaz OpenWEBUI. Por ejemplo, la IP del servidor de Digital Spaceport es 192.168.1.200Entonces la dirección de acceso es http://192.168.1.200:7000. La primera vez que nos visites tendrás que establecer un nombre de usuario y una contraseña, de nuevo, es importante recordarlo. Vamos a ahora mismo ¡Ya casi está! ¡Uf!¡Uf!)

Conectando OpenWEBUI a Ollama

En la página "/admin/settings" -> "connections" de la interfaz de administración de OpenWEBUI, haz clic en el signo "+" para añadir una nueva conexión de servidor. Rellena la dirección del servidor 服务器IP:11434. Por ejemplo.192.168.1.200:11434(Tenga en cuenta la sustitución por la dirección IP de su propio servidor). (Ten cuidado de sustituirla por la dirección IP de tu propio servidor). Si la conexión tiene éxito, la interfaz OpenWEBUI mostrará un mensaje verde "conexión exitosa".

Una vez conectado, haga clic en el icono Administrador de conexiones para ver los servidores Ollama conectados. Si el modelo Deepseek ya se ha descargado, lo verás en el menú desplegable "Eliminar modelo". deepseek-r1:671b Modelos.

Enhorabuena, ¡ya casi está! Pero No salgas de la página de configuración con prisas.

Configuración de parámetros avanzados

Haga clic en el icono Editar (Pluma).

Ahora se pueden editar los parámetros avanzados. No olvides hacer clic en "GUARDAR" cuando hayas terminado.
[转]用 2000 美元 EPYC 服务器本地跑起 Deepseek R1 671b 大模型

Número de GPU (GPU)Si no tiene una tarjeta GPU, cámbiela por 0.
Esfuerzo de razonamientoOpcional low (bajo) medium (M) o high (alto), por defecto es medium (centro).
Contexto LongitudFijar en 16364La longitud de contexto de 16K no es un problema. Las longitudes de contexto mayores requieren más memoria o RAM de GPU.
Número de hilos (num_thread)Fijar en 62Además, el sistema tiene 2 núcleos de CPU reservados para el sistema.
Activar el bloqueo de memoria (use_mlock)Puede activarse para evitar que los datos de memoria se transfieran al disco y afecten al rendimiento. (El bloqueo de memoria (mlock) impide que las páginas de memoria sean intercambiadas a disco por el sistema operativo, lo que mejora la eficiencia de la aplicación, pero aumenta la huella de memoria.)

Los demás parámetros pueden ajustarse según las instrucciones de la tarjeta del modelo. Nota: ¡No intente utilizar la longitud de contexto completa de 160K a menos que disponga de 2TB de RAM! Aunque funcione, la velocidad mucho Lento.

IMPORTANTE: ¡No olvides tocar "GUARDAR"!

Configuración de los usuarios

Haz clic en "Configuración de usuario" para cambiar las preferencias de usuario. Se recomienda ajustar la configuración de "mantener vivo" a un periodo de tiempo más largo, por ejemplo 3 horas. Haga clic en "Guardar" después de cambiar la configuración.

La configuración de usuario se confunde un poco con la configuración anterior de administrador, así que tenga cuidado de distinguirlas.

Haz una prueba.

Dios mío, ¡no puedo creer que hayas llegado tan lejos! Es fantástico, ¡Digital Spaceport te admira! Haz clic en "nuevo chat" en la esquina superior izquierda de la interfaz OpenWEBUI. La lista de modelos ya debería tener deepseek-r1:671b Ah, sí. Intenta enviar un "hola" al azar. ¡Funcionó!

Pruebas de rendimiento de Deepseek R1 671b

¡Enhorabuena por haber instalado y ejecutado con éxito el servicio de modelo grande local Ollama + OpenWEBUI! Digital Spaceport cree que hay muchas otras grandes soluciones de modelos locales en ejecución, tales como llama.cpp, exo responder cantando vLLMLos tutoriales se publicarán cuando Digital Spaceport haya profundizado. Los tutoriales saldrán cuando Digital Spaceport haya profundizado. llama.cpp Podría ser el siguiente, Digital Spaceport compiló, probó y ejecutó recientemente el llama.cppEl resultado es muy bueno. Sólo demasiados parámetros que resolver. vLLM Es un poco complicado.exo Es bastante simple, pero sigue fallando después del lanzamiento y no he tenido tiempo de depurarlo todavía. En fin, como se suele decir... ¡Estén atentos! (¡PRONTO!)