コンテンツにスキップ

RDEToolKit

GitHub Release python.org MIT License Issue workflow coverage

RDEToolKitは、RDE構造化プログラムのワークフローを作成するための基本的なPythonパッケージです。RDEToolKitの各種モジュールを使うことで、RDEへの研究・実験データの登録処理を簡単に構築できます。主に、RDEToolKitは、ユーザーが定義した構造化処理の前処理・後処理をサポートします。また、ユーザーが研究や実験データに対して使用されているPythonモジュールと組み合わせることで、データの登録から加工、グラフ化などより多様な処理を実現可能です。これにより、データのクレンジング、変換、集計、可視化など、データサイエンスのワークフロー全体を効率的に管理できます。


overview_workflow

課題と背景

研究データの管理と共有において、以下の課題が存在していました:

  • データ形式の統一: 研究者ごとに異なるデータ形式やファイル構造
  • メタデータの標準化: 一貫性のないメタデータ記述
  • 処理の自動化: 手動でのデータ変換や整理作業の負担
  • 再現性の確保: 処理手順の文書化と標準化の困難

主要コンセプト

構造化処理ワークフロー

RDEToolKitは、研究データを標準化されたRDE形式に変換する「構造化処理」を3つのフェーズで実行します:

graph LR
    起動処理 --> カスタム構造化処理
    カスタム構造化処理 --> 終了処理
  • 起動処理: ディレクトリ作成、ファイル読み込み、モード判定
  • カスタム構造化処理: ユーザー定義のデータ変換・解析処理
  • 終了処理: バリデーション、サムネイル生成、メタデータ記述

4つの処理モード

RDEToolKitは、データの種類と用途に応じて4つの処理モードを提供します:

モード 用途 特徴
invoiceモード 単一データファイル デフォルトモード、基本的な構造化処理
ExcelInvoiceモード Excel形式の送り状 Excel送り状ファイルの自動処理
マルチデータタイル 複数データファイル 一括処理、エラー処理スキップ機能
RDEフォーマットモード RDE標準形式 既存RDEデータの再処理

設定ファイル

設定ファイル(rdeconfig.yamlまたはpyproject.toml)により、処理の挙動を柔軟に変更できます:

1
2
3
4
5
system:
  extended_mode: 'MultiDataTile'
  save_raw: true
  magic_variable: true
  save_thumbnail_image: true

インストール

RDEToolKitはPythonパッケージとして提供されており、以下のコマンドでインストールできます。

1
pip install rdetoolkit

Code Sample

Sample1: ユーザー定義構造化処理あり Sample2: ユーザー定義構造化処理なし
quick-sample-code quick-sample-code-none

主要機能

自動化機能

  • ディレクトリ構造の自動生成: RDE標準に準拠したフォルダ構成
  • ファイル形式の自動判定: 入力データに基づく処理モードの選択
  • メタデータの自動抽出: ファイル情報からのメタデータ生成
  • サムネイル画像の自動作成: Main画像からの代表画像生成

検証機能

  • スキーマバリデーション: JSON Schemaによるデータ構造検証
  • ファイル整合性チェック: 必須ファイルの存在確認
  • メタデータ検証: metadata-def.jsonとの整合性確認

拡張性

  • カスタム処理の組み込み: ユーザー定義関数の統合
  • プラグイン機能: 独自の処理ロジックの追加
  • 設定の柔軟性: YAML/TOML形式での詳細設定

まとめ

RDEToolKitの主要な価値:

  • 効率性: 手動作業の自動化により処理時間を大幅短縮
  • 標準化: RDE形式への統一的な変換処理
  • 柔軟性: 多様な研究データ形式への対応
  • 信頼性: バリデーション機能による品質保証
  • 拡張性: カスタム処理の容易な組み込み

次のステップ

RDEToolKitを使い始めるには:

  1. インストール方法 - 環境構築の手順
  2. クイックスタート - 最初の構造化処理を体験
  3. ユーザーガイド - 詳細な使用方法