機械学習が使われる製造業特有の分野は、物性予測、工程管理、予防保全、故障予測、要因分析など多岐にわたります。しかし筆者は、それらの多くで同様のミスが繰り返されていることに気が付きました。これらの間違うポイントがあらかじめ共有されていれば、同じ“わな”にはまることはないのですが、製造業固有の情報機密性も手伝ってなかなか情報が共有されません。

　繰り返されるミスを避けて効率的に機械学習を取り入れられれば、日本の製造業における機械学習はより進歩するという思いから連載の企画は始まりました。そこで本連載では、製造業が機械学習で間違いやすいポイントと、その回避の仕方、データ解釈の方法のコツなどについて、広く知見を共有することを目指しています。今回の第1回では「リーケージ（Leakage）」について取り上げます。

似ているようでベクトルが異なる統計学と機械学習

　現在のように機械学習がもてはやされるずっと前から、製造業では統計学を使った分析や品質保証などに取り組んできました。これは、製造業で機械学習がすんなり受け入れられ、世間のバズワード的な使い方ではなく、実直に活用されている背景になりますが、同時にミスの誘発にもつながっていることをご存じでしょうか。

　統計学と機械学習では、データ分析のベクトルの方向が異なります。統計学は、今あるデータを過去の事象を説明するために使うのに対し、機械学習は、未来を予測するために使います。製造業の現場でよく見られるケースは、その違いをしっかりと理解しないまま、過去の分析には有用でも、未来予測には使ってはいけない種類のデータを予測モデルに入れ込んでしまうリーケージなのです。

　シンプルな例で説明しましょう。売上高の予測モデルを作る時に、さまざまな変数を取り込んで機械学習を実行しますが、この時に天候のデータを含めてしまいます。予測モデルの精度の検証として、過去の実売上高データとモデルの予測データを比較すると、かなり精度が高く「よいモデルができた」と感じますが、実際に未来の予測で試してみると結果の精度が低く使い物になりません。

　これは、将来予測には利用できない天候データがモデルに混入してしまったが故のミスです。過去のデータの中では、既に確定した事実である天候データは正確ですが、予測モデルではまだ結果が定まっていない天候データを使えないからです。

　「そんなデータ選択のミスはしないし、すぐに気付く」と思うかもしれません。しかし、データ特性が複雑になる製造業の場合は、「将来予測に使えないデータをモデル生成時に混入させる」という失敗はプロのデータサイエンティストでもしばしば踏んでしまう地雷です。それは以前から統計学に慣れ親しんできたが故に起きるミスだといえるでしょう。

　予測モデルを検証する際、過度に楽観的なモデルができたときは要注意です。予測の時点で知り得ない特徴量を学習に使ってしまっていないか、変数を確認してみましょう。

バリデーションスキームによりモデルの精度を検証する

　　　　　　 1|2 次のページへ