はじめまして。estie編集部のtoyoです。
全世界40万人以上が集まるデータサイエンスプラットフォーム「Kaggle(カグル)」。
そこで開催されたコンペティション(Mechanism of Action Prediction)にて、初挑戦ながら見事銅メダル(Notebooks Contributor)を獲得したデータチームの石野さんに、estieチームで「Kaggle」に初挑戦したエピソードをインタビューしていきます。
▼ では早速、インタビューを始めていきましょう!
「Kaggle」での銅メダル獲得おめでとうございます!
ありがとうございます。
チームとしては747位/4373チーム中(上位18%)でしたが、個人として公開していたnotebook(コンペの解法を書いた物)でなんとか銅メダル(Notebooks Contributor)が取れました。
正直メダルが貰えるとは思っていなかったので、予想外の嬉しさがありましたね。
そもそもKaggleとはどういったものなんでしょうか?
一言で説明するとデータ分析の世界大会です。
とある会社や団体がデータセットと何を予測するか簡単なルールを設定し、参加者は最適モデルを作成し予測スコアを競っていきます。
正解データとの差分がルールに則ってスコアリングされ、その順位を競うものです。
世界中から参加者がいて、それでご飯を食べている人もいますよ。
今回は医薬品の作用機序(MoA)を予測するというテーマでした。
あたえられた特徴量の中で、説明力が高い特徴量とそうでない特徴量をうまく整理し、機械学習のモデルを作成して薬剤の作用機序を分類させるという感じです。
Kaggleに出るきっかけはあったのでしょうか?
元々Kaggleのデータコンペの出場に興味があったんですよね。
10月に行ったestieの合宿で年間の個人目標を発表する場があったので「Kaggleに出場します!」と宣言しました。
するとデータチームのp-manさんとデータチームではないtomu君も参加したいと言ってくれたので、3人チームでKaggleのデータコンペに出場してみることになりました。
合宿での宣言をしたことがきっかけだったんですね。では、Kaggleに出たいと思っていたのはなぜでしょうか?
一番はデータセットや他者のデータ処理ロジックに触れることができる点が大きいですね。
データセットや処理ロジックってブラックボックス化されているので、Kaggleであったり、他の分析コンペに出場したりすることでそういった部分に触れられるのが魅力でした。
例えば、今回のテーマも全然知らない分野だったのですが、データに触れることで少し詳しくなりましたね。
それは魅力的ですね!今回estieチームは全員初参加ということでしたが、そんな中で難しい点などはありましたか?
そうですね。
そもそもどうやってチームで参加できるのかを調べるところから始めるくらい手探りでした。
あとはコンペ中に追加データがあたえられて、その情報の必要性の是非を判断するのは大変でしたね。
今回は性能向上したので追加データを使用しました。
チームで参加することのメリットなどはありましたか?
モチベーションを保つことができた点が大きいですね。
一人だったら仕事の忙しさからモチベーションを継続することが難しかったと思うので、チームで参加して良かったです。
あとは、3人それぞれ違う方法でデータを分析できたのが良かったですね。
p-manさんは勾配ブースティング、tomu君はDeep Learning、僕は公開されている解法の中で一番スコアリングが高い人のコードを参考にしました。
最終的に3人の手法をアンサンブルすることで汎化性能を上げることを目指していましたが、アンサンブルする部分は手が回らなくて結局できませんでした。
そういう意味で今回はチーム力を最大限発揮できなかったので次回はやりたいです。
ただ、今回はまず出てみることが大切だったので、やっぱり出てみて良かったです。
仕事も忙しい時でKaggleとの両立は難しそうに思うんですが、いかがでしたか?
Kaggleの挑戦は仕事の重荷になるというよりは別腹感があって息抜きになりました。
その時仕事では、e-賃料というオフィス推定成約賃料の学習モデルをより高度化するべく奮闘していたり、データチームのスポット対応にも入ったりと結構忙しかったんです。
でも、チームのみんなともコミュニケーションが取れて、他チームの人との交流のきっかけにもなったし、仕事で行き詰まっている時の良い気分転換になりました。
Kaggleに出場するに当たって、会社からのサポートとかってありましたか?
会社からはすごく応援してもらったと感じています。
そもそもこういうことを業務時間内にやらせてもらえる風潮があるのがありがたいです。
例えばestieには、エンジニア成長タイムといって火曜日の午前10時~12時に好きなことをする時間があるんですが、その時間は業務に直接関わらないこともやっていいことになっています。
またKaggleのために週1回30分のミーティングをして、チームでKaggleの話し合いを1ヶ月ほど続けましたね。
あとは、Kaggle挑戦のために専用のサーバーを用意してくれたりもしました。
こういう挑戦を後押ししてくれる環境ってスタートアップでは珍しいので、ほんとにありがたかったです!
応援してくれる環境は嬉しいですね。それでは最後に今後もKaggleの挑戦は続けていきますか?
続けていきたいですね。
次の目標としてはチームでメダルをもらうことと、個人では来年の合宿までexpertの称号を目指しています。
メンバーも固定ではなくてデータサイエンスに興味のある方であれば、データチーム以外からも参加してほしいなと思っています。
実はestieにはまだ秘密兵器が二人いるので、次回期待しておいてください。
それは次回が楽しみですね!では最後に、会社にもっとこうしてほしいというおねだりとかありますか?
いえ、現在のように挑戦を後押ししてくれる環境を継続して行ってくれれば十分です。
石野さんありがとうございました。次回のKaggle参加も頑張ってください!
最後に
お話を聞いて、estieには新しいことに興味を持ってどんどん挑戦する人がいて、会社もその挑戦を後押ししてくれる環境だと伝わってきました。
現在estieでは日本中にある不動産データを収集し、プラットフォームの構築やAIアルゴリズムによる賃料推定モデルの開発を行っています。
会社に少しでも興味を持たれた方がいらっしゃれば、気軽にお話しできればと思います。TwitterのDMよりお声がけください。
採用情報はこちらをご確認ください!
hrmos.co
▼ データチームに関係する記事はこちら
inside.estie.co.jp
inside.estie.co.jp