Dataikuのハンズオンに参加してきました

Dataikuのハンズオンに参加してきました

Tableauのカントリーマネージャーをされていた佐藤さんの転職先というこを知って、私の興味の対象として急浮上したDataiku。(データイクと発音します。データと俳句を組み合わせた造語だそう。フランスの会社ですって。)昨日、ハンズオン勉強会があったので、参加してきました。
 

 

当日はこんなことをしましたよ

20名ほどの参加者は、自分のPCにSaaS版(無料で14日使用可能)か、無料版をインストールしてインストラクター(Tableauの卒業生の松島七衣さん。すごく久しぶりにお会いしましたが、素晴らしいインストラクションでスムーズにハンズオンできました。ありがとう!さすがです。)の指示の通りにDataikuを動かします。

お題は、タイタニックの教師データ(乗客ごとの、生存・死亡のフラグが立っている)とテストデータ(生死のフラグなし)をDataikuに取り込み、教師データをもとに作成したモデルをテストデータに適用して、テストデータにある乗客一人ひとりの生存・死亡を予測する。というもの。データ自体は、機械学習の学習者にとってアイリス(あやめ)と並ぶおなじみのものなので、カラム(フィールド)の内容をいちいち精査する必要がなく、Dataikuのデモに集中して取り組むことができました。

データの選択、ナイスだなぁ。

 

 

Dataikuはデータピープル向けのかなりこなれた統合プラットフォームでした

ハンズオンを受けてみた結果は、データピープル向けのかなりこなれたプラットフォームだと思いました。以下、「ほほう、やるなぁ」と思った点を3点紹介します。

1. データ読み込みから予測結果の説明の確認までがシームレス

以下の操作を、Dataikuの中だけで実行できます。しかも、「レシピ」と呼ばれる「定形作業のパーツ」を選んでいくだけで実行できました。完全にノーコードで、一文字もコードは書きませんでした。(特徴量ハンドリングのところで、val(カラムA)+val(カラムB)くらいは書きましたが、あくまでも計算フィールドであってプログラムを書いたわけではありません。)

  • データの読み込み(デモでは、教師データとテストデータの2つのエクセル)
  • データの確認(カラム数、レコード数、欠損値の有無など)
  • ラングリング(=機械学習が動きやすいようにデータを「手なづける」作業。データプレパレーション、データクレンジングなどと広義には同義)
  • 特徴量ハンドリング(標準化だったり、正規化だったり、計算によって新たな特徴量を作成するなど、奥深~い作業ですが、デモでは計算フィールドを使って簡単な特徴量を一つ増やした。)
  • モデル作成(デモでは、後述の「クイックにモデルを作って」オプションを選択。ランダムフォレストと正規表現が精度を競い、ランダムフォレストが僅かな差で勝利し、採用されました。)
  • 予測(テストデータにある乗客一人ひとりの、生存・あるいは死亡の別)
  • 予測結果の確認(ROC値や、混同行列、変数重要度などの確認)

また、デモではやりませんでしたが、デプロイ(モデルを配置して、業務フローに取り込む作業)も機能に含まれているようです。

 

2. モデル作成に利用するカラムを自動選択

教師データには「乗客ID」や「氏名」といった、モデル作成には絶対に利用しないだろう、完全にノイズだろう、と思われるカラムがありました。モデルを作成する前のどの段階で使わないことを指示するのかな?と思っていたら、完全に自動でやってくれました。

おぉ!

ガベージイン・ガベージアウトの法則が支配するこの世界で、ガベージをモデルに突っ込まなくて良い「予防機能」があるってことだなぁ。いや、すばらしい。こなれてるな。

 

3. アルゴリズム選択は超親切な三択制

教師データのラングリングを終了し、さて、モデルを作成しよう。という段になって、以下の三択からモデル作成(≒アルゴリズム選択)の大方針を選択可能でした。

  1. クイックに(=おそらく、比較的限定されたアルゴリズムだけを試すことで)結果がほしいよ。
  2. 説明性の高いアルゴリズム優先でお願いしますよ。
  3. ともかく精度の高いアルゴリズムを見つけたいんです。たとえ、時間がかかってもね。

つまり、求められている精度と、費やせる時間、また、結果についてどれほど説明を求められるのかに応じて、どれか一つを選べば良いってことなんですね。モデル作成は、確かに「所要時間」、「説明性」、「精度」がトレードオフになりがちだし、食わせるのデータのボリュームもそのつど違うから、こうした三択で大方針だけ指定させてもらえるのは嬉しいですね。こなれてるなぁ。親切だなぁ。

 

(まとめ)データピープルにとっては「Tableauとの併用」あるいは、「Tableauの次」のツール

という訳で、七衣さんの的確なガイドのおかげもあって、短時間(ハンズオン自体は、初めて触れたので、ツールのUIをうろうろする時間もありましたが所要時間は1時間弱)で、Dataikuってなんだろうという私の好奇心を満たしてくれる内容でした。次回開催は決まっていないようですが、もしチャンスがあれば、データピープル、特にTableauユーザーは参加する価値があるんじゃないかと思いました。特に、機械学習を自分の仕事にどう取り入れていこうか?という課題意識を持つ人は必見かな。

Tableauと併用し、データプレップとモデル作成、予測や分類はDataikuで、結果の可視化はTableauで。という使い方、あるいは、可視化の重要性が低く、ともかく「すばやく、機械学習で成果という”実”を取りたい」という人はTableauの次に、メインとして使うツールになりえるのかもしれません。

昨日のハンズオン勉強会の参加者の皆さんも、現役のTableau使いが多かったです。

それでは。

 

宣伝

いやぁ「Tableauと併用」とか、「Tableauの次」って言われても、わたし、これからTableauを学びたいんですよねー。という方、Tableauをゼロから解説した良い講座がありますよ。

Tableau Desktop Speciaist試験対策の講座なんですが、試験に合格する「だけ」では意味がない。仕事で使えるようになってほしい。。。と思って作ったら23時間の講座になりました。定価は高いので、ぜひ、キャンペーンやっているときにお求めください。(^^;

 

試験対策をしながら基礎スキルを身につける! ゼロからのTableau Desktop Specialist試験対策講座