3FS: параллельная файловая система для повышения эффективности доступа к данным (День 5 недели открытого кода DeepSeek)
Общее введение
3FS (Fire-Flyer File System) - это параллельная файловая система с открытым исходным кодом, разработанная командой DeepSeek, предназначенная для современных SSD и сетей RDMA и призванная значительно повысить эффективность доступа к данным. Она достигает суммарной пропускной способности 6,6 ТБ/с при чтении и 3,66 ТБ/мин при записи в 180-узловом кластере, демонстрируя потрясающую высокопроизводительную работу. Являясь одним из результатов Недели открытого кода DeepSeek, 3FS не только представляет собой продукт технологических инноваций, но и отражает стремление команды к обмену опытом с сообществом. Она пересматривает традиционный дизайн распределенной файловой системы, ориентированной на диск, оптимизирована под современные аппаратные характеристики и подходит для крупномасштабных вычислительных сценариев, требующих эффективной обработки данных, таких как обучение ИИ и анализ больших данных. Разработчики и корпоративные пользователи могут получить доступ к исходному коду через GitHub и свободно развертывать и настраивать его.

Список функций
- Высокопроизводительный доступ к данным: Поддерживает чтение со скоростью 6,6 ТБ/с и запись со скоростью 3,66 ТБ/мин, полностью используя пропускную способность SSD и сети RDMA.
- возможность параллельной обработки данных: Позволяет нескольким узлам работать вместе для повышения эффективности обработки данных в крупномасштабных кластерах.
- Современная оптимизация аппаратного обеспечения: Глубоко адаптирована для SSD и сетей RDMA, преодолевая узкое место в производительности традиционных файловых систем.
- Возможность настройки с открытым исходным кодом: Предоставляется полный исходный код, чтобы пользователи могли изменять и расширять функциональность в соответствии со своими потребностями.
- Готовые решения для производственных сред: Проверено командой DeepSeek на производстве и может быть развернуто непосредственно в реальных бизнес-сценариях.
Использование помощи
Процесс приобретения и установки
3FS, являясь проектом с открытым исходным кодом, требует некоторой технической подготовки для развертывания. Ниже представлено подробное руководство по установке и использованию, которое поможет пользователям быстро начать работу.
1. доступ к исходному коду
- Откройте браузер и посетите сайт https://github.com/deepseek-ai/3FS.
- Нажмите кнопку "Code" в правом верхнем углу страницы и выберите "Download ZIP", чтобы загрузить zip-файл, или воспользуйтесь командой Git, чтобы клонировать репозиторий:
git clone https://github.com/deepseek-ai/3FS.git
- После завершения загрузки распакуйте файл в локальную директорию, например
/home/user/3FS
.
2. Подготовка к защите окружающей среды
Для работы 3FS требуется современное оборудование (SSD и сети RDMA) и среда Linux. Убедитесь, что ваша система соответствует следующим условиям:
- операционная системаРекомендуемый дистрибутив Linux: Ubuntu 20.04 или более поздняя версия.
- требования к оборудованиюСерверные кластеры, поддерживающие твердотельные накопители NVMe и сети RDMA, такие как InfiniBand или RoCE.
- Программно-зависимые: Необходимо установить основные инструменты компиляции, такие как Git, GCC, Make и т.д. Вы можете выполнить следующую команду для их установки:
sudo apt update sudo apt install git gcc make
3. компиляция и установка
- Перейдите в каталог 3FS:
cd /home/user/3FS
- Проверьте наличие дополнительных описаний зависимостей (обычно они находятся в
README.md
), если таковые имеются, установите его в соответствии с документацией. - Скомпилируйте исходный код:
make
- После успешной компиляции установите в систему:
sudo make install
После завершения установки исполняемые файлы и файлы конфигурации 3FS будут развернуты по системному пути по умолчанию (обычно это путь
/usr/local/bin
).
4. Настройка кластера
- Отредактируйте файл конфигурации (по умолчанию он находится в папке
config
каталог, например3fs.conf
), установите информацию об узле кластера:- Укажите IP-адрес узла, например
node1=192.168.1.10
. - Настройте путь к SSD-накопителю, например
storage_path=/dev/nvme0n1
. - Установите параметры сети RDMA, чтобы обеспечить правильную связь между узлами.
- Укажите IP-адрес узла, например
- После сохранения конфигурации запустите службу на каждом узле:
3fs --config /path/to/3fs.conf
5. Проверка установки
- Проверьте статус услуги:
3fs --status
- Если возвращается сообщение типа "3FS работает на 180 узлах", значит, развертывание прошло успешно.
Основные функции
Высокопроизводительный доступ к данным
- Монтирование файловой системы: Выполните следующую команду на клиенте, чтобы смонтировать 3FS в локальный каталог:
mount -t 3fs /path/to/storage /mnt/3fs
- получить данные: Прямое использование
cat
возможноcp
например, для чтения файла:cat /mnt/3fs/large_file.txt
Система автоматически извлекает данные из нескольких узлов параллельно со скоростью до 6,6 ТБ/с.
- записывать данные: Копирование файлов в каталог монтирования:
cp large_file.txt /mnt/3fs/
Скорость записи до 3,66 Тбайт/мин.
параллельная обработка
- В многоузловой среде 3FS автоматически распределяет задачи по работе с данными. Пользователям не нужно вмешиваться вручную, достаточно убедиться, что приложение поддерживает параллельный ввод-вывод (например, Hadoop или MPI-программы).
- Пример параллельного тестирования производительности:
dd if=/dev/zero of=/mnt/3fs/testfile bs=1G count=10
Проверьте, близка ли пропускная способность к ожидаемому значению.
индивидуальная разработка
- Измените исходный код: перейдите в раздел
src
каталог для редактирования файлов C/C++. Например, настроить размер буфера для оптимизации под конкретную рабочую нагрузку. - Перекомпилируйте:
make clean && make
- Разверните измененную версию:
sudo make install
предостережение
- совместимость оборудования: Убедитесь, что все узлы поддерживают RDMA и NVMe, иначе производительность может снизиться.
- Конфигурация сети: Брандмауэр должен открыть порты, связанные с RDMA (например, 4791 по умолчанию), чтобы избежать прерывания связи.
- ссылка на документацию: Если у вас возникли проблемы во время установки, проверьте страницу GitHub для
README.md
Или отправьте заявку на помощь.
Выполнив вышеописанные действия, пользователи смогут быстро создать и использовать 3FS, чтобы испытать его эффективные возможности доступа к данным. Будь то обучение искусственному интеллекту или обработка больших данных, 3FS обеспечит мощную поддержку.
Оглядываясь на релиз этой недели, можно сказать, что DeepSeek создала полный стек технологий для больших моделей:
- День 1 - FlashMLAЭффективное ядро декодирования MLA, оптимизированное для обработки последовательностей переменной длины - День 2 - DeepEP: Первая экспертная библиотека параллельных коммуникаций с открытым исходным кодом для поддержки обучения и вывода моделей MoE - День 3 - DeepGEMM: библиотека FP8 GEMM, поддерживающая плотные и MoE-вычисления - День 4 - Стратегии параллельных вычислений: Включает двунаправленный параллельный алгоритм DualPipe и экспертный параллельный балансировщик нагрузки EPLB. - День 5 - 3FS и Малый пруд: Высокопроизводительная инфраструктура хранения и обработки данных
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...