はじめに
SFT-data-builderは、無償のBig Model APIを使用してユーザーのプライベートドメインデータを組み合わせることにより、高品質のSFTトレーニングデータを生成するために設計されたオープンソースプロジェクトです。このツールは、様々なAIモデル形式をサポートし、ワンクリック生成、バッチ生成、柔軟な編集、ローカルストレージ機能を提供することで、事前学習、微調整、関数呼び出し、その他のシナリオに適した学習データを迅速に生成することができます。
機能一覧
- ワンクリックでトレーニングデータを生成ローカルまたはクラウドベースのモデルのための数多くのOpenAIフォーマットの呼び出しがサポートされています。
- バッチ生成複数の異なる視点からの学習データを一度に生成し、バッチURL記事をサポートしてデータを自動生成します。
- 柔軟な編集生成されたデータは、いつでも編集・調整することができます。
- ローカルストレージすべてのデータを自動的にローカルに保存します。
- 輸出が容易標準フォーマットのJSONファイルをワンクリックでエクスポート。
- マルチモデル対応主要なAIモデルを幅広くサポートし、モデルのカスタマイズも可能。
- マルチフォーマット対応PDF、Word、TXT、その他のファイル形式をサポート。
ヘルプの使用
設置プロセス
- 依存関係のインストールプロジェクト・ディレクトリで実行
npmインストール
. - プロジェクトの開始走る
npm run start
プロジェクトの立ち上げ
使用ガイドライン
- APIの設定::
- Open Configuration "ボタンをクリックする。
- APIアドレスとキーを設定します。
- AIモデルを選択またはカスタマイズする。
- 一度に生成されるデータエントリーの数を設定する。
- 入力::
- ファイルのアップロード(PDF、DOCX、TXTに対応)。
- またはテキスト内容を直接入力する。
- データ作成::
- AI レスポンスの生成]ボタンをクリックします。
- 生成された複数の結果を切り替え、必要に応じて生成されたコンテンツを編集する。
- 経営データ::
- データリストに追加する。
- 生成されたすべてのデータをプレビューする。
- 不要なデータを削除する。
- JSONファイルとしてエクスポートします。
機能 操作の流れ
- ワンクリックでトレーニングデータを生成::
- AIモデルを選択またはカスタマイズする。
- テキストコンテンツを入力またはアップロードします。
- AI応答生成」ボタンをクリックすると、システムが自動的に学習データを生成する。
- バッチ生成::
- 設定ページでバッチ生成パラメータを設定する。
- 複数のURLを含むファイルをアップロードするか、複数のURLを入力してください。
- Batch Generate "ボタンをクリックすると、システムが自動的に複数のトレーニングデータを生成します。
- 柔軟な編集::
- 生成された結果画面で、編集するデータ項目をクリックする。
- エディターで内容を変更し、変更を保存する。
- ローカル・ストレージとエクスポート::
- 生成されたデータはすべて自動的にローカル・ストレージに保存される。
- データ管理画面で、エクスポートするデータを選択し、「JSONにエクスポート」ボタンをクリックします。