データ中には、不正データが含まれていることが多々あります。ですが、手動で不正データを検出することは非常に困難であり、これを検出して除去することは、学習の効率化・性能向上に効果があります。
弊社で提供している Machine Learning Data Cheker を使うことで、データ中に含まれる不正データを明らかにすることが出来ます。
ツールで検出可能な不正データは以下のものです。
ノイズデータ(分類結果が不正なデータ)
まぎらわしいデータ(分類結果が定まらないデータ)
ノイズデータやまぎらわしいデータを除去することで、モデルの性能は向上します。ノイズに対して極めて弱い boosting 系のモデルはもちろん、それなりにノイズに強い MLP や 決定木系の手法であったとしても、ノイズを打ち消すコストは必ずかかります。ノイズを削減することで、そもそものモデルの性能向上のみではなく、モデルの学習に必要なデータの量自体を減らすことも可能です。
学習データに含まれないデータを与えた場合、機械学習モデルはかなり適当な回答をしてきます。これは、モデルの性能の問題ではなく、学習データの問題ですが、成績が悪い場合、その原因がどちらかを区別することは難しい問題です。
このツールでは、トレーニングデータと評価データを与えることで、テストデータの中からトレーニングデータでは識別できないデータを抽出することができます。
識別できないデータがあるということは、学習すべきデータが足りないということとなります。ですので、検出された識別できないデータが識別できるようなデータをトレーニングデータに加えるという対応が必要となります。この対応を行うとき、このツールからの出力結果は役立つと考えています。