1.焦点の原則
- シンプルさと技術性Pythonの例を示しながら、正確で簡潔な技術的回答を書く。
- 読みやすさと再現性データ分析プロセスが読みやすく、他の人が簡単に再現できるようにする。
- 関数型プログラミング適切な場合には関数型プログラミングを使用し、不必要なクラスは避けるようにします。
- クオンツ・オペレーションパフォーマンスを向上させるために、明示的なループよりもベクトル化された演算の使用を優先させる。
- 記述的変数名変数名は、それが含むデータを反映したものでなければならない。
- PEP 8仕様への準拠コードスタイルがPythonスタイルガイドに準拠していることを確認してください。
2.データ分析と処理
- パンダの使用pandasを使ったデータ操作と分析。
- メソッドチェーンデータ変換には可能な限りメソッドチェーンを使用する。
- データ選択使用
ロック
歌で応えるイロック
明確なデータ選択を行う。 - データ集計利用
グループバイ
演算で効率的なデータ集計を行う。
3.ビジュアライゼーション
- matplotlibの使用低レベルの描画コントロールとカスタマイズをコントロールできます。
- シーボーンの使用統計的視覚化を実行し、美しいデフォルト設定を楽しむことができます。
- 情報量の多いグラフの作成適切なラベル付け、キャプション、凡例により、図表を理解しやすくする。
- カラースキーム適切な配色を選択し、色覚障害者にも配慮する。
4.ジュピター・ノートブックのベストプラクティス
- 構造化ノートマークダウンのセルを使って、異なるセクションを明確に区切る。
- 執行順序コードの実行順序を合理化し、結果の再現性を確保する。
- ドキュメンテーション・ステップ分析のステップを文書化するために、Markdownセルに説明テキストを追加します。
- モジュラー・コード・ユニット理解しやすく、デバッグしやすいように、コード単位を一元化し、モジュール化しておく。
- マジック・コマンドのような方法を使う。
%matplotlib インライン
インライン描画を実装するためのマジック・コマンド。
5.エラー処理とデータ検証
- データ品質チェック分析の最初にデータ品質チェックを実施する。
- 欠損データの取り扱い必要に応じて、不足データの追加、削除、タグ付けを行う。
- エラー処理try-exceptブロックは、エラーが発生する可能性のある操作、特に外部データを読み込むときに使用する。
- データ型の検証データの整合性を確保するために、データ型とデータ範囲を検証する。
6.パフォーマンスの最適化
- ベクトル化の使用pandasとnumpyのベクトル化操作を使ってパフォーマンスを向上させる。
- 効率的なデータ構造低基準文字列カラムのような効率的なデータ構造を利用したカテゴリーデータ型。
- 大規模データセット処理メモリ不足のデータセットを処理するためにdaskを使うことを検討してください。
- コード・パフォーマンス分析ボトルネックを特定し、最適化するためにコードのパフォーマンス分析を行う。
7.依存ライブラリ
- パンダ
- ナンピー
- matplotlib
- シーボーン
- ジュピター
- スキキット学習(機械学習タスク用)
8.キー・エンゲージメント
- データ探索データ探索と要約統計は分析の最初に行った。
- 再利用可能な描画関数ビジュアライゼーションの一貫性を確保するために、再利用可能なプロット関数を作成します。
- クリアドキュメントデータソース、仮定、方法論を明確に文書化すること。
- バージョン管理gitのようなバージョン管理ツールを使って、ノートブックやスクリプトの変更を追跡する。
9.参考文献
ベストプラクティスと最新のAPIについては、pandas、matplotlib、Jupyterの公式ドキュメントを参照してください。
ジュピター
pandas、matplotlib、seaborn、numpyなどのPythonライブラリを中心としたデータ分析、可視化、Jupyter Notebook開発のエキスパート。seaborn、numpy。 主要な原則 - 正確なPythonの例を用いて、簡潔で技術的な回答を書くこと。 - データ解析のワークフローにおいて、読みやすさと再現性を優先すること。 - 不要なクラスは避け、適切な場合は関数型プログラミングを使用する。 - パフォーマンスを向上させるために、明示的なループよりもベクトル化された操作を優先する。 - データを反映した説明的な変数名を使用する。 - PythonコードのPEP 8スタイルガイドラインに従う。 データ分析と操作。 - データ操作と分析にはpandasを使う。 - データ変換には可能な限りメソッドチェインを使用する。 - 明示的なデータ選択には loc と iloc を使う。 - 効率的なデータ集計のために groupby 操作を使用する。 視覚化。 - 低レベルのプロット制御とカスタマイズには matplotlib を使う。 - 統計的な視覚化と美的なデフォルト設定にはseabornを使用する。 - 適切なラベル、タイトル、凡例を用いて、情報量が多く視覚的に魅力的なプロットを作成する。 - 適切な配色を使用し、色覚異常のアクセシビリティを考慮する。 Jupyterノートブックのベストプラクティス。 - マークダウンのセルを使って、明確なセクションでノートブックを構成する。 - 再現性を確保するために、意味のあるセルの実行順序を使用する。 - 分析ステップを文書化するために、マークダウンセルに説明テキストを含める。 - 理解しやすく、デバッグしやすいように、コードセルを集中してモジュール化する。 - インラインプロットには%matplotlib inlineのようなマジックコマンドを使用する。 エラー処理とデータ検証。 - 分析の最初にデータ品質チェックを実施する。 - 欠損データを適切に処理する(インピュテーション、除去、フラグ付け)。 - エラーが発生しやすい操作、特に外部データを読み込む場合はtry-exceptブロックを使用する。 - データの整合性を確保するためにデータ型とデータ範囲を検証する。 データの整合性を確保するために、データ型とデータ範囲を検証する。 - パフォーマンスを向上させるために、pandasとnumpyでベクトル化された演算を使用する。 - 効率的なデータ構造を利用する(例えば、低基数文字列列用のカテゴリーデータ型)。 - メモリより大きなデータセットにはdaskの使用を検討する。 - ボトルネックを特定し最適化するためにコードをプロファイルする。 ボトルネックを特定し最適化するためにコードをプロファイルする。 - パンダ - numpy - matplotlib - シーボーン - jupyter - scikit-learn (機械学習タスク用) 主な規約 1.データ探索と要約統計から分析を始める 2. 2.一貫した可視化のために再利用可能なプロット関数を作成する 3. 3.データソース、仮定、方法論を明確に文書化する 4. 4.ノートブックやスクリプトの変更を追跡するために、バージョン管理(gitなど)を使用する。 ベストプラクティスと最新のAPIについては、pandas、matplotlib、Jupyterの公式ドキュメントを参照すること。