私の大好きなSONYさんが、データを放り投げるだけでAIが自動で分析・予測してくれるツール「Prediction One」(プレディクション ワン)を無料公開されたので早速使ってみました。
記念すべき1回目の分析は、前回投稿した「リクナビ内定辞退率予測」のデータ。従って、分析のテーマは「ランダムフォレスト」 vs 「Prediction One」 です。
果たして、どちらが精度の高い予測ができるのか!?
申込み&インストール
まずは、Prediction One の特設サイトで申込みをします。「今すぐ始める」or「無料で始める」ボタンをクリックして申込みフォームを開いてください。
■動作環境
・Windows8.1(64ビット版)
・Windows10(64ビット版)
□推奨環境
・メモリ:8GB以上
・CPU:Core i7
・HDD・SSD:50GB以上の空き
※ハイスペックな環境が必要です
■申込みはこちらから
Prediction One | ソニーネットワークコミュニケーションズ
https://predictionone.sony.biz/
フォームを送信するとすぐに「お申し込み受付完了」メールが配信され、その本文にダウンロードのURLが記されています。ダウンロード後、インストールは数クリックで完了します。
余談ですが、私が申込み前に感じたのは、なぜSONYがこのようなソフトウェアを「無料」で配布するのか?です。しかも、トップレベルドメインが「.biz」。お名前ドットコムの現在価格は299円/年です。天下のSONYが優れたソフトウェアを無料で配布、しかも、.bizドメインで・・・。フィッシングサイトを疑いましたね、マジで。これは、あの国だと・・・(どこか日本語間違ってんじゃね?と)。
ただ気になることもあり、設定画面にライセンス有効期限「2020/01/31」と記されており、もしかしたら2020/02/01から最近流行のサブスクリプション(定額サービス)に移行するのではないかと・・・。
2020年6月29日(月)に、ソニーネットワークコミュニケーションズ株式会社から「ライセンス販売」の案内メールが届きました。Prediction Oneを無料で利用できる期間は、2020年8月31日までです。それ以降に利用する場合は、年間ライセンス/予定価格198,000円(一台のPC)とのこと。詳しくは「Prediction Oneのライセンス販売開始予定のお知らせ」をご覧ください。
「Prediction One」で分析してみる(画像多め)
インストールが完了するとデスクトップにショートカットができたので、早速ログインしてみます。ちなみに、Prediction Oneはクラウドにあるソフトウェアとは異なり、自分のパソコンにソフトウェアをダウンロードするので機密データの取扱いも心配いりません。
トップ画面
とてもシンプルです。クリックできる場所が少ないのが良いですね。ユーザーの心理的な負担が少ないです。マニュアル、設定、チュートリアルは見ずに「新規プロジェクト」をクリック。
新規プロジェクト作成
予想通りの画面ですね。いいですね、シンプルで。プロジェクト名に「リクナビ内定辞退率分析」、説明に「138名16変数で内定辞退率を予測する」を入力。本当はもう少しというか、もっと人数が多い方が良いことは分かっているのですが、取り敢えずこれで行きます。
新規モデルの作成
Prediction Oneの構造は、プロジェクトにモデルが紐づくようです。
「新規モデル作成」ボタンをクリック。モデル名にはデフォルトで「model 日付」がセットされるようです。
モデル名に「リクナビ内定辞退率モデル」と入力。説明は面倒だったので割愛。
モデル設定
いよいよという感じですね。
まず、左側のメニューを設定します。
「予測ターゲット」は目的変数なので「辞退」を選択。
「予測タイプ」は、目的変数が二値(binomial)なので「二値分類」を選択。
予測タイプ | 説明 |
---|---|
二値分類 | 2つの事柄に対する予測確率を算出します。ある事が起きる確率を予測するケースに利用されます。例えば、購入するか購入しないか(購入確率)、故障するか故障しないか(故障確率)、などの予測ができます。この投稿では、内定辞退するか内定辞退しないいか(内定辞退確率)として選択します。 |
多値分類 | 3つ以上の事柄に対する予測確率を算出します。例えば、苦情データがA.製品に関するもの、B.サービスに関するもの、C.その他、などの分類の自動化に利用できます。 |
数値予測 (回帰) |
数値を予測します。例えば、来月の出荷台数、来月の入電数などを予測できます。 |
すると、「予測値」に0と1の比(0は74/138、1は64/138)が出力されました。面接辞退は1なので「1」を選択。
右側のメニューは説明変数です。すべての変数を使いたいのでこのままにします。
最後に、「学習と評価を実行」ボタンをクリックして分析開始です!
学習完了
Prediction Oneでは、ニューラルネットワークと勾配ブースティング木をモデルとして利用しています。その様子は、勾配ブースティング、モデルXの学習完了・・・など、テキストが下から上に高速で流れいていくことで確認できます。
このデータは1分くらいで「学習完了」が表示されました。
評価サマリ
学習完了画面の「OK」ボタンを押すと、予測精度レベルの評価が表示されました。今回のデータは、0.4436ということで「予測精度は良くない」と判定されました。さすがですね。冒頭で記述しましたが、このリクナビの内定辞退率データはリストの数(学生の数)と変数の数のバランスが悪いのです。表示されたアドバイスにも「入力項目の追加やデータ数を増やすことを検討してください」と書かれています。要するに、「出直して来い」というメッセージです。
予測精度は低いものの、項目の寄与度をみると、「大学」が最も内定辞退率に影響しているようです。
項目の寄与度(詳細)
項目の寄与度(上位)のセクションにある「詳細を見る」ボタンをクリックすると、サマリー画面で表示されていた5件以外の項目が表示されました。並び順には、0と1の寄与度の合計値の他に、0と1を分けたそれぞれの値を表示させることができました。
精度評価の詳細
続いて、評価結果セクションにある「精度評価の詳細」タブを開いて見ます。
この精度評価で分かりやすいのは、以下の「混同行列」ですかね。たすき掛けに表を見てください。「1」と予測してデータの値が正解の「1」だった個数は56件、「0」と予測してデータの値が正解の「0」だった個数は6件、「1」と予測してデータの値が不正解の「0」だった個数は68件、「0」と予測してデータの値が不正解だった個数は「6」という結果でした。
予測確率の分布と正解率
予測確率上位の正解率
ROCカーブ
ここまでが、「精度評価の詳細」タブで表示された分析結果です。
予測する
それでは、Prediction Oneで予測を行い、この記事のテーマである「ランダムフォレスト」 vs 「Prediction One」に決着をつけましょう。なお、ランダムフォレストは、8番、19番、53番の内定辞退を見事的中させることができました。今回分析したPrediction Oneのモデルは、見事的中(予測)させることできるのでしょうか?
「予測」タブをクリックして、「新規予測」ボタンをクリックします。
予測画面が表示される。
8番、19番、53番のみのデータを用意してアップします。はじめての予測なので、2つのオプションにチェックを付けました。そして「決定」ボタンをクリックします。
予測完了! 結果は?
私の見方が間違えていなければ、「た」君(8番)は1に近いので正解!「つ」君(19番)は0に近いので正解!そして、「へ」君(53番)は0に近いので・・・不正解。ということで、今回はランダムフォレストに軍配が上がりました!!!
最後にこんなことを申し上げるのは恐縮ですが、まず①データが悪い、②使い方が合っているのか分からない、という中での投稿です。もし、内容に問題があれば修正を入れていきます。
Prediction One 凄いですね!Prediction Ondeの特設サイトには、「機械学習やプログラミングのスキルがなくても簡単に使える」と書かれていますが、ある程度の知識がなければ操作するのは難しいと思いました。とはいえ、目的変数や説明変数など、ある程度統計モデルを理解している人であれば、本当に操作は簡単です。私も今後の分析に活用していきたいと思いました。これは、使えるソフトウェアです!
人材採用に関するデータを分析してみたいという採用担当の方は、以下のお問合わせフォームからお気軽にご相談ください!