3FS: Un sistema de archivos paralelo para mejorar la eficiencia del acceso a los datos (DeepSeek Open Source Week Day 5)
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 1.6K 00
Introducción general
3FS (Fire-Flyer File System) es un sistema de archivos paralelo de código abierto desarrollado por el equipo de DeepSeek, diseñado para las modernas unidades SSD y redes RDMA, con el objetivo de mejorar drásticamente la eficiencia del acceso a los datos. Alcanza un rendimiento de lectura agregado de 6,6 TiB/s y una velocidad de escritura de 3,66 TiB/min en un clúster de 180 nodos, lo que demuestra un rendimiento de alto rendimiento asombroso. Como uno de los resultados de la DeepSeek Open Source Week, 3FS no es sólo un producto de innovación tecnológica, sino que también refleja el compromiso del equipo con el intercambio comunitario. Subvierte el diseño tradicional de los sistemas de archivos distribuidos orientados al disco, optimizado para las características del hardware moderno, y es adecuado para escenarios informáticos a gran escala que requieren un procesamiento de datos eficiente, como la formación en IA y el análisis de big data. Tanto los desarrolladores como los usuarios empresariales pueden acceder al código fuente a través de GitHub e implantarlo y personalizarlo libremente.

Lista de funciones
- Acceso a datos de alto rendimiento: Soporta 6,6 TiB/s de lectura y 3,66 TiB/min de escritura, aprovechando al máximo el ancho de banda de las SSD y la red RDMA.
- capacidad de procesamiento paraleloPermite que varios nodos trabajen juntos para mejorar la eficiencia del procesamiento de datos en clusters a gran escala.
- Optimización de hardware modernoProfundamente adaptado para SSDs y redes RDMA, rompiendo el cuello de botella de rendimiento de los sistemas de archivos tradicionales.
- Código abierto personalizableSe proporciona el código fuente completo para que los usuarios puedan modificar y ampliar la funcionalidad según sus necesidades.
- Listo para entornos de producciónValidada en producción por el equipo de DeepSeek y puede utilizarse directamente en escenarios empresariales reales.
Utilizar la ayuda
Proceso de adquisición e instalación
3FS, como proyecto de código abierto, requiere ciertos conocimientos técnicos para su implantación. A continuación se ofrece una guía detallada de instalación y uso para ayudar a los usuarios a empezar rápidamente.
1. Acceso al código fuente
- Abra su navegador y visite https://github.com/deepseek-ai/3FS.
- Pulse el botón "Código" en la esquina superior derecha de la página y seleccione "Descargar ZIP" para descargar el archivo zip, o utilice el comando Git para clonar el repositorio:
git clone https://github.com/deepseek-ai/3FS.git
- Una vez finalizada la descarga, descomprima el archivo en un directorio local, por ejemplo
/home/user/3FS
.
2. Preparación medioambiental
3FS depende de un hardware moderno (SSD y redes RDMA) y de un entorno Linux para funcionar. Asegúrate de que tu sistema cumple las siguientes condiciones:
- sistema operativoUbuntu 20.04 o posterior es la distribución de Linux recomendada.
- requisitos de hardwareClústeres de servidores compatibles con SSD NVMe y redes RDMA como InfiniBand o RoCE.
- dependiente del softwareHerramientas básicas de compilación: Herramientas básicas de compilación como Git, GCC, Make, etc. necesitan ser instaladas. Puede ejecutar el siguiente comando para instalarlas:
sudo apt update sudo apt install git gcc make
3. Compilación e instalación
- Vaya al directorio 3FS:
cd /home/user/3FS
- Compruebe si hay descripciones adicionales de las dependencias (normalmente se encuentran en el archivo
README.md
), si lo hay, instálelo de acuerdo con la documentación. - Compila el código fuente:
make
- Una vez compilado correctamente, instálelo en el sistema:
sudo make install
Una vez finalizada la instalación, los ejecutables 3FS y los archivos de configuración se despliegan en la ruta por defecto del sistema (normalmente la ruta
/usr/local/bin
).
4. Configuración del clúster
- Edite el archivo de configuración (por defecto se encuentra en la carpeta
config
por ejemplo3fs.conf
), establezca la información del nodo del clúster:- Especifique la dirección IP del nodo, por ejemplo
node1=192.168.1.10
. - Configure la ruta de almacenamiento SSD, por ejemplo
storage_path=/dev/nvme0n1
. - Establezca los parámetros de red RDMA para garantizar una comunicación adecuada entre los nodos.
- Especifique la dirección IP del nodo, por ejemplo
- Después de guardar la configuración, inicie el servicio en cada nodo:
3fs --config /path/to/3fs.conf
5. Verificación de la instalación
- Comprueba el estado del servicio:
3fs --status
- Si aparece un mensaje como "3FS funcionando en 180 nodos", la implantación se ha realizado correctamente.
Funciones principales
Acceso a datos de alto rendimiento
- Montaje de un sistema de archivosEjecuta el siguiente comando en el cliente para montar 3FS en un directorio local:
mount -t 3fs /path/to/storage /mnt/3fs
- recuperar datosUso directo
cat
tal vezcp
para leer un archivo, por ejemplo:cat /mnt/3fs/large_file.txt
El sistema extrae automáticamente los datos de varios nodos en paralelo a velocidades de hasta 6,6 TiB/s.
- escribir datosCopia archivos al directorio de montaje:
cp large_file.txt /mnt/3fs/
Velocidad de escritura de hasta 3,66 TiB/min.
procesamiento paralelo
- En un entorno multinodo, 3FS asigna automáticamente las tareas de datos. Los usuarios no necesitan intervenir manualmente, solo tienen que asegurarse de que la aplicación admite E/S paralela (por ejemplo, programas Hadoop o MPI).
- Ejemplo de prueba de rendimiento en paralelo:
dd if=/dev/zero of=/mnt/3fs/testfile bs=1G count=10
Observa si el rendimiento se aproxima al valor esperado.
desarrollo a medida
- Modifique el código fuente: vaya a
src
para editar archivos C/C++. Por ejemplo, ajustar el tamaño del búfer para optimizarlo para una carga de trabajo específica. - Recompilar:
make clean && make
- Despliegue la versión modificada:
sudo make install
advertencia
- compatibilidad de hardwareAsegúrese de que todos los nodos soportan RDMA y NVMe, de lo contrario el rendimiento puede degradarse.
- Configuración de la redEl cortafuegos debe abrir los puertos relacionados con RDMA (por ejemplo, 4791 por defecto) para evitar la interrupción de la comunicación.
- referencia documentalSi tiene problemas durante la instalación, consulte la página de GitHub para la versión
README.md
O envíe una incidencia para obtener ayuda.
Con los pasos anteriores, los usuarios pueden construir y utilizar rápidamente 3FS para experimentar sus eficientes capacidades de acceso a datos. Tanto si se trata de formación en IA como de procesamiento de big data, 3FS puede proporcionar un sólido soporte.
Si nos fijamos en el lanzamiento de esta semana, DeepSeek ha creado una pila tecnológica completa para grandes modelos:
- Día 1 - FlashMLA: Núcleo de descodificación MLA eficiente optimizado para el procesamiento de secuencias de longitud variable - Día 2 - DeepEPPrimera biblioteca de código abierto de comunicación paralela experta para el entrenamiento y la inferencia de modelos MoE - Día 3 - DeepGEMMFP8: biblioteca GEMM para cálculos densos y de ME - Día 4 - Estrategias de computación paralelaIncluye el algoritmo paralelo bidireccional DualPipe y el equilibrador de carga paralelo experto EPLB. - Día 5 - 3FS y Smallpond: Infraestructura de almacenamiento y procesamiento de datos de alto rendimiento
© declaración de copyright
文章版权归 Círculo de intercambio de inteligencia artificial 所有,未经允许请勿转载。
Artículos relacionados
Sin comentarios...