Feature Engeneering

この記事は約3分で読めます。

Feature Engeneeringとは

Feature Engeneeringとは機械学習の精度を高めるための手法で、生のデータから機械学習に適したデータ(特徴)を作成するもの。

機械学習に必要な労力の70〜80%程度がFeature Engeneeringに費やされるとも言われる。

機械学習の流れ

機械学習の流れは以下の1〜5となり、Feature Engeneeringは3に該当するが、実際には4および5を行った後、再度3に戻ってFeature Engeneeringを繰り返す手順となる。

1.データ収集

2.データクリーニング

3.フィーチャーエンジニアリング

4.モデルの決定

5.トレーニング、テスト、結果の出力

Feature Engeneeringの流れ

また、Feature Engeneering自体の流れは以下の1〜6を繰り返すことになる

  1. 特徴に対する検討
  2. 特徴を作成、変換する対象を決める
  3. 特徴を作成、変換する
  4. 機械学習モデルでの特徴の使用方法の検討
  5. 必要に応じて特徴を修正する
  6. 1に戻る(完了するまでより多くの特徴を作成、変換する)

Feature Engeneeringの対象、手法

Feature Engeneeringの対象は大きく分けてCategorycal featureとNumerical featureの二つあり、特徴を組み合わせて新しい特徴を作る、不要な特徴を削除する、数値データのスケーリングやテキストデータを機械が識別可能な数値データに変換するといったものが主な手段となる。

数値データの場合はそのまま機械学習に用いることも可能だが、必ずしもそのまま機械学習モデルに適用することが適切とはいえないため、何らかの処理を行うことが多い。

Categorycal feature

数値データも含めたカテゴリデータへの処理。カテゴリデータは何らかの処理が必要になってくる。

なお、欠落したデータへの対応は難しい。

主な手法には以下の方法がある。

・One hot encoding
・Hash encoding
・Label encoding
・Count encoding
・Labelcount encoding
・Target encoding
・Category embedding
・NaN encoding
・Polynomical encoding
・Expansion encoding
・Consolidation encoding

Numerical feature

機械学習モデルでの処理をしやすくする、数値化する、欠落したデータを補うなどを行う。

主な手法には以下の方法がある。

  • Rounding
  • Binning
  • Scaling
  • Imputation
  • Interactions
  • Row Statics
  • Temporal Variables
  • Projecting to a circle
  • Trendlines
  • Closeness major Events
  • Spatial Variables
  • Categorize Location
  • Closeness to hubs
  • Spatial fraudulent behavior
  • Exploration
  • Iteration/Debugging
  • Label Engineering
  • Natural Language Processing
  • Cleaning
  • Tokenizing
  • Removing
  • Roots
  • Enrich
  • Similarities
  • TF-IDF
  • Dimensionality Reduction
  • External models

その他

Feature Engeneeringの自動化が、学術分野における新しい研究課題となっている。

タイトルとURLをコピーしました