3FS: параллельная файловая система для повышения эффективности доступа к данным (День 5 недели открытого кода DeepSeek)
Общее введение
3FS (Fire-Flyer File System) - это параллельная файловая система с открытым исходным кодом, разработанная командой DeepSeek, предназначенная для современных SSD и сетей RDMA и призванная значительно повысить эффективность доступа к данным. Она достигает суммарной пропускной способности 6,6 ТБ/с при чтении и 3,66 ТБ/мин при записи в 180-узловом кластере, демонстрируя потрясающую высокопроизводительную работу. Являясь одним из результатов Недели открытого кода DeepSeek, 3FS не только представляет собой продукт технологических инноваций, но и отражает стремление команды к обмену опытом с сообществом. Она пересматривает традиционный дизайн распределенной файловой системы, ориентированной на диск, оптимизирована под современные аппаратные характеристики и подходит для крупномасштабных вычислительных сценариев, требующих эффективной обработки данных, таких как обучение ИИ и анализ больших данных. Разработчики и корпоративные пользователи могут получить доступ к исходному коду через GitHub и свободно развертывать и настраивать его.

Список функций
- Высокопроизводительный доступ к данным: Поддерживает чтение со скоростью 6,6 ТБ/с и запись со скоростью 3,66 ТБ/мин, полностью используя пропускную способность SSD и сети RDMA.
- возможность параллельной обработки данных: Позволяет нескольким узлам работать вместе для повышения эффективности обработки данных в крупномасштабных кластерах.
- Современная оптимизация аппаратного обеспечения: Глубоко адаптирована для SSD и сетей RDMA, преодолевая узкое место в производительности традиционных файловых систем.
- Возможность настройки с открытым исходным кодом: Предоставляется полный исходный код, чтобы пользователи могли изменять и расширять функциональность в соответствии со своими потребностями.
- Готовые решения для производственных сред: Проверено командой DeepSeek на производстве и может быть развернуто непосредственно в реальных бизнес-сценариях.
Использование помощи
Процесс приобретения и установки
3FS, являясь проектом с открытым исходным кодом, требует некоторой технической подготовки для развертывания. Ниже представлено подробное руководство по установке и использованию, которое поможет пользователям быстро начать работу.
1. доступ к исходному коду
- Откройте браузер и посетите сайт https://github.com/deepseek-ai/3FS.
- Нажмите кнопку "Code" в правом верхнем углу страницы и выберите "Download ZIP", чтобы загрузить zip-файл, или воспользуйтесь командой Git, чтобы клонировать репозиторий:
git clone https://github.com/deepseek-ai/3FS.git
- После завершения загрузки распакуйте файл в локальную директорию, например/home/user/3FS.
2. Подготовка к защите окружающей среды
Для работы 3FS требуется современное оборудование (SSD и сети RDMA) и среда Linux. Убедитесь, что ваша система соответствует следующим условиям:
- операционная системаРекомендуемый дистрибутив Linux: Ubuntu 20.04 или более поздняя версия.
- требования к оборудованиюСерверные кластеры, поддерживающие твердотельные накопители NVMe и сети RDMA, такие как InfiniBand или RoCE.
- Программно-зависимые: Необходимо установить основные инструменты компиляции, такие как Git, GCC, Make и т.д. Вы можете выполнить следующую команду для их установки:
sudo apt update sudo apt install git gcc make
3. компиляция и установка
- Перейдите в каталог 3FS:
cd /home/user/3FS
- Проверьте наличие дополнительных описаний зависимостей (обычно они находятся вREADME.md), если таковые имеются, установите его в соответствии с документацией.
- Скомпилируйте исходный код:
make
- После успешной компиляции установите в систему:
sudo make installПосле завершения установки исполняемые файлы и файлы конфигурации 3FS будут развернуты по системному пути по умолчанию (обычно это путь /usr/local/bin).
4. Настройка кластера
- Отредактируйте файл конфигурации (по умолчанию он находится в папкеconfigкаталог, например3fs.conf), установите информацию об узле кластера:- Укажите IP-адрес узла, напримерnode1=192.168.1.10.
- Настройте путь к SSD-накопителю, напримерstorage_path=/dev/nvme0n1.
- Установите параметры сети RDMA, чтобы обеспечить правильную связь между узлами.
 
- Укажите IP-адрес узла, например
- После сохранения конфигурации запустите службу на каждом узле:
3fs --config /path/to/3fs.conf
5. Проверка установки
- Проверьте статус услуги:
3fs --status
- Если возвращается сообщение типа "3FS работает на 180 узлах", значит, развертывание прошло успешно.
Основные функции
Высокопроизводительный доступ к данным
- Монтирование файловой системы: Выполните следующую команду на клиенте, чтобы смонтировать 3FS в локальный каталог:
mount -t 3fs /path/to/storage /mnt/3fs
- получить данные: Прямое использованиеcatвозможноcpнапример, для чтения файла:cat /mnt/3fs/large_file.txtСистема автоматически извлекает данные из нескольких узлов параллельно со скоростью до 6,6 ТБ/с. 
- записывать данные: Копирование файлов в каталог монтирования:
cp large_file.txt /mnt/3fs/Скорость записи до 3,66 Тбайт/мин. 
параллельная обработка
- В многоузловой среде 3FS автоматически распределяет задачи по работе с данными. Пользователям не нужно вмешиваться вручную, достаточно убедиться, что приложение поддерживает параллельный ввод-вывод (например, Hadoop или MPI-программы).
- Пример параллельного тестирования производительности:
dd if=/dev/zero of=/mnt/3fs/testfile bs=1G count=10Проверьте, близка ли пропускная способность к ожидаемому значению. 
индивидуальная разработка
- Измените исходный код: перейдите в разделsrcкаталог для редактирования файлов C/C++. Например, настроить размер буфера для оптимизации под конкретную рабочую нагрузку.
- Перекомпилируйте:
make clean && make
- Разверните измененную версию:
sudo make install
предостережение
- совместимость оборудования: Убедитесь, что все узлы поддерживают RDMA и NVMe, иначе производительность может снизиться.
- Конфигурация сети: Брандмауэр должен открыть порты, связанные с RDMA (например, 4791 по умолчанию), чтобы избежать прерывания связи.
- ссылка на документацию: Если у вас возникли проблемы во время установки, проверьте страницу GitHub дляREADME.mdИли отправьте заявку на помощь.
Выполнив вышеописанные действия, пользователи смогут быстро создать и использовать 3FS, чтобы испытать его эффективные возможности доступа к данным. Будь то обучение искусственному интеллекту или обработка больших данных, 3FS обеспечит мощную поддержку.
Оглядываясь на релиз этой недели, можно сказать, что DeepSeek создала полный стек технологий для больших моделей:
- - День 1 - FlashMLAЭффективное ядро декодирования MLA, оптимизированное для обработки последовательностей переменной длины 
- - День 2 - DeepEP: Первая экспертная библиотека параллельных коммуникаций с открытым исходным кодом для поддержки обучения и вывода моделей MoE 
- - День 3 - DeepGEMM: библиотека FP8 GEMM, поддерживающая плотные и MoE-вычисления 
- - День 4 - Стратегии параллельных вычислений: Включает двунаправленный параллельный алгоритм DualPipe и экспертный параллельный балансировщик нагрузки EPLB. 
- - День 5 - 3FS и Малый пруд: Высокопроизводительная инфраструктура хранения и обработки данных 
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ  Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...





 Русский
Русский  简体中文
简体中文  English
English  日本語
日本語  한국어
한국어  Español
Español