はじめに
Kilnは、大規模言語モデル(LLM)の微調整、合成データ生成、データセット連携に特化したオープンソースツールです。Kilnは、Windows、MacOS、Linuxシステムをサポートする直感的なデスクトップアプリケーションを提供し、ユーザーはLlama、GPT4o、Mixtralなどのモデルをゼロコードで微調整し、サーバーレスのデプロイメントを自動化することができます。Kilnはまた、インタラクティブなビジュアライゼーション・ツールを通じてトレーニング・データの生成をサポートし、構造化データに関するチーム・コラボレーションのためにGitベースのバージョン管理を提供する。オープンな Python ライブラリと OpenAPI REST API により、開発者は Kiln データセットをワークフローに簡単に統合できます。
機能一覧
- 直感的なデスクトップ・アプリケーションWindows、MacOS、Linuxシステムをサポートし、ワンクリックでインストールでき、直感的なデザインです。
- ゼロ・コードの微調整Llama、GPT4o、Mixtralなどのモデルの自動サーバーレス・デプロイメントによる微調整をサポートします。
- 合成データ生成インタラクティブな可視化ツールでトレーニングデータを生成します。
- チームワークGitベースのバージョン管理で、チームメンバーがデータセットを共同利用できる。
- チップ・ジェネレーションチェーンシンク、アンダーサンプリング、マルチサンプルプロンプトなど、データから自動的にプロンプトを生成します。
- 幅広いモデルとプロバイダーのサポートOllama、OpenAI、OpenRouter、Fireworks、Groq、AWSなどをサポート。
- オープンソースのライブラリとAPIMIT オープンソース Python ライブラリと OpenAPI REST API を提供します。
- プライバシー第一ユーザーデータは完全に非公開で、ローカル操作と自己完結型のAPIキーをサポートしています。
- 構造化データのサポートJSON対応AIタスクの構築。
- 利用無料デスクトップアプリケーションは無料だし、オープンソースのライブラリもオープンだ。
ヘルプの使用
設置プロセス
- 申込書をダウンロードするKiln GitHubページにアクセスし、お使いのオペレーティング・システムに適したインストーラーをダウンロードしてください。
- アプリケーションのインストール::
- ウィンドウズダウンロードした .exe ファイルを実行し、インストールウィザードに従ってインストールを完了します。
- マックオス.dmgファイルをダウンロードして開き、Kilnをアプリケーションフォルダにドラッグします。
- リナックス.tar.gzファイルをダウンロードして解凍し、インストールスクリプトを実行する。
使用ガイドライン
- アプリケーションの起動インストールが完了したら、Kiln デスクトップアプリケーションを開きます。
- モデルの微調整::
- 微調整」機能モジュールを選択する。
- 微調整するモデルを選択する(例:Llama、GPT4o、Mixtral)。
- トレーニングデータをアップロードするか、Kilnの合成データ生成ツールを使用してデータセットを作成します。
- 微調整パラメータを設定し、"Start fine-tuning "をクリックする。
- 微調整が完了すると、モデルは自動的に配備され、追加の操作は必要ない。
- 合成データの生成::
- 合成データ生成」機能モジュールを選択する。
- インタラクティブな可視化ツールを使ってトレーニングデータを作成、編集する。
- 生成されたデータセットは、その後の微調整のために保存しておく。
- チームワーク::
- Dataset Collaboration機能モジュールを選択します。
- Gitバージョン管理を使ってデータセットを管理し、チームメンバーのコラボレーションを促進する。
- チームメンバーが一緒に作業しやすいように、データセットに関する例、ヒント、フィードバック、その他の情報を提供する。
- チップ・ジェネレーション::
- プロンプト生成機能モジュールを選択する。
- データセットをアップロードし、プロンプトのタイプ(例:連鎖思考、少ないサンプル、複数のサンプル)を選択します。
- モデルの学習と推論のためのヒントの自動生成。
- ワークフローへの統合::
- Kiln の Python ライブラリと OpenAPI REST API を使用して、Kiln のデータセットと機能を独自のワークフローに統合できます。
- Kilnのドキュメントやサンプルコードを参考にして、素早く開発を始めましょう。
詳しい操作手順
- モデルの微調整モデルの選択、データのアップロード、パラメータの設定、微調整の開始方法についての詳細。
- 合成データ生成ビジュアライゼーション・ツールを使ったデータの作成・編集方法の詳細。
- チームワークデータセットを管理するためのGitバージョン管理の使い方や、フィードバックの提供・処理方法について詳しく解説。
- チップ・ジェネレーションプロンプトタイプの選択、データのアップロード、プロンプトの生成方法の詳細。
- ワークフローへの統合PythonのライブラリやAPIを統合に利用する方法について、サンプルコードや利用シーンを交えて詳しく解説しています。