3FS: параллельная файловая система для повышения эффективности доступа к данным (День 5 недели открытого кода DeepSeek)

Общее введение

3FS (Fire-Flyer File System) - это параллельная файловая система с открытым исходным кодом, разработанная командой DeepSeek, предназначенная для современных SSD и сетей RDMA и призванная значительно повысить эффективность доступа к данным. Она достигает суммарной пропускной способности 6,6 ТБ/с при чтении и 3,66 ТБ/мин при записи в 180-узловом кластере, демонстрируя потрясающую высокопроизводительную работу. Являясь одним из результатов Недели открытого кода DeepSeek, 3FS не только представляет собой продукт технологических инноваций, но и отражает стремление команды к обмену опытом с сообществом. Она пересматривает традиционный дизайн распределенной файловой системы, ориентированной на диск, оптимизирована под современные аппаратные характеристики и подходит для крупномасштабных вычислительных сценариев, требующих эффективной обработки данных, таких как обучение ИИ и анализ больших данных. Разработчики и корпоративные пользователи могут получить доступ к исходному коду через GitHub и свободно развертывать и настраивать его.

3FS:提升数据访问效率的并行文件系统(DeepSeek 开源周第五天)

 

Список функций

  • Высокопроизводительный доступ к данным: Поддерживает чтение со скоростью 6,6 ТБ/с и запись со скоростью 3,66 ТБ/мин, полностью используя пропускную способность SSD и сети RDMA.
  • возможность параллельной обработки данных: Позволяет нескольким узлам работать вместе для повышения эффективности обработки данных в крупномасштабных кластерах.
  • Современная оптимизация аппаратного обеспечения: Глубоко адаптирована для SSD и сетей RDMA, преодолевая узкое место в производительности традиционных файловых систем.
  • Возможность настройки с открытым исходным кодом: Предоставляется полный исходный код, чтобы пользователи могли изменять и расширять функциональность в соответствии со своими потребностями.
  • Готовые решения для производственных сред: Проверено командой DeepSeek на производстве и может быть развернуто непосредственно в реальных бизнес-сценариях.

 

Использование помощи

Процесс приобретения и установки

3FS, являясь проектом с открытым исходным кодом, требует некоторой технической подготовки для развертывания. Ниже представлено подробное руководство по установке и использованию, которое поможет пользователям быстро начать работу.

1. доступ к исходному коду

  • Откройте браузер и посетите сайт https://github.com/deepseek-ai/3FS.
  • Нажмите кнопку "Code" в правом верхнем углу страницы и выберите "Download ZIP", чтобы загрузить zip-файл, или воспользуйтесь командой Git, чтобы клонировать репозиторий:
    git clone https://github.com/deepseek-ai/3FS.git
  • После завершения загрузки распакуйте файл в локальную директорию, например/home/user/3FS.

2. Подготовка к защите окружающей среды

Для работы 3FS требуется современное оборудование (SSD и сети RDMA) и среда Linux. Убедитесь, что ваша система соответствует следующим условиям:

  • операционная системаРекомендуемый дистрибутив Linux: Ubuntu 20.04 или более поздняя версия.
  • требования к оборудованиюСерверные кластеры, поддерживающие твердотельные накопители NVMe и сети RDMA, такие как InfiniBand или RoCE.
  • Программно-зависимые: Необходимо установить основные инструменты компиляции, такие как Git, GCC, Make и т.д. Вы можете выполнить следующую команду для их установки:
    sudo apt update
    sudo apt install git gcc make
    

3. компиляция и установка

  • Перейдите в каталог 3FS:
    cd /home/user/3FS
    
  • Проверьте наличие дополнительных описаний зависимостей (обычно они находятся вREADME.md), если таковые имеются, установите его в соответствии с документацией.
  • Скомпилируйте исходный код:
    make
    
  • После успешной компиляции установите в систему:
    sudo make install
    

    После завершения установки исполняемые файлы и файлы конфигурации 3FS будут развернуты по системному пути по умолчанию (обычно это путь/usr/local/bin).

4. Настройка кластера

  • Отредактируйте файл конфигурации (по умолчанию он находится в папкеconfigкаталог, например3fs.conf), установите информацию об узле кластера:
    • Укажите IP-адрес узла, напримерnode1=192.168.1.10.
    • Настройте путь к SSD-накопителю, напримерstorage_path=/dev/nvme0n1.
    • Установите параметры сети RDMA, чтобы обеспечить правильную связь между узлами.
  • После сохранения конфигурации запустите службу на каждом узле:
    3fs --config /path/to/3fs.conf
    

5. Проверка установки

  • Проверьте статус услуги:
    3fs --status
    
  • Если возвращается сообщение типа "3FS работает на 180 узлах", значит, развертывание прошло успешно.

Основные функции

Высокопроизводительный доступ к данным

  • Монтирование файловой системы: Выполните следующую команду на клиенте, чтобы смонтировать 3FS в локальный каталог:
    mount -t 3fs /path/to/storage /mnt/3fs
    
  • получить данные: Прямое использованиеcatвозможноcpнапример, для чтения файла:
    cat /mnt/3fs/large_file.txt
    

    Система автоматически извлекает данные из нескольких узлов параллельно со скоростью до 6,6 ТБ/с.

  • записывать данные: Копирование файлов в каталог монтирования:
    cp large_file.txt /mnt/3fs/
    

    Скорость записи до 3,66 Тбайт/мин.

параллельная обработка

  • В многоузловой среде 3FS автоматически распределяет задачи по работе с данными. Пользователям не нужно вмешиваться вручную, достаточно убедиться, что приложение поддерживает параллельный ввод-вывод (например, Hadoop или MPI-программы).
  • Пример параллельного тестирования производительности:
    dd if=/dev/zero of=/mnt/3fs/testfile bs=1G count=10
    

    Проверьте, близка ли пропускная способность к ожидаемому значению.

индивидуальная разработка

  • Измените исходный код: перейдите в разделsrcкаталог для редактирования файлов C/C++. Например, настроить размер буфера для оптимизации под конкретную рабочую нагрузку.
  • Перекомпилируйте:
    make clean && make
    
  • Разверните измененную версию:
    sudo make install
    

предостережение

  • совместимость оборудования: Убедитесь, что все узлы поддерживают RDMA и NVMe, иначе производительность может снизиться.
  • Конфигурация сети: Брандмауэр должен открыть порты, связанные с RDMA (например, 4791 по умолчанию), чтобы избежать прерывания связи.
  • ссылка на документацию: Если у вас возникли проблемы во время установки, проверьте страницу GitHub дляREADME.mdИли отправьте заявку на помощь.

Выполнив вышеописанные действия, пользователи смогут быстро создать и использовать 3FS, чтобы испытать его эффективные возможности доступа к данным. Будь то обучение искусственному интеллекту или обработка больших данных, 3FS обеспечит мощную поддержку.

 

Оглядываясь на релиз этой недели, можно сказать, что DeepSeek создала полный стек технологий для больших моделей:

  • День 1 - FlashMLAЭффективное ядро декодирования MLA, оптимизированное для обработки последовательностей переменной длины
  • День 2 - DeepEP: Первая экспертная библиотека параллельных коммуникаций с открытым исходным кодом для поддержки обучения и вывода моделей MoE
  • День 3 - DeepGEMM: библиотека FP8 GEMM, поддерживающая плотные и MoE-вычисления
  • День 4 - Стратегии параллельных вычислений: Включает двунаправленный параллельный алгоритм DualPipe и экспертный параллельный балансировщик нагрузки EPLB.
  • День 5 - 3FS и Малый пруд: Высокопроизводительная инфраструктура хранения и обработки данных
© заявление об авторских правах

Похожие статьи

Meetily:生成会议纪要的AI助手,实时转录和生成会议摘要

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...