目次
概要
サイエンス視点からのデータアーキテクト
サイエンスチームの中で、データアーキテクトに関連した業務を多くやってきた経験を踏まえ データアーキテクトで価値を出すにはという話を前向きにお話しします。
スピーカー
堀野将晴さん(ヤフー株式会社)
ヤフー株式会社に新卒で入社して現在7年目。 ショッピングのサイエンス部署の立ち上げに関わり、主にデータ整備・可視化を担当。 現在はコマース全般のデータ整備・分析・サイエンスの改善周りの仕事に携わり、サイエンス部署の中では何でも屋。
スライド
内容
- 自己紹介
- 2014 サイエンス部へ
- Yahoo!ショッピング
- GyaO
- 2014 サイエンス部へ
- 今日のお話は「サイエンスからみたデータアーキテクトの話」
- 組織とデータ活用目的
- サービス:目的は営業改善とマーケティング改善
- サイエンス;プロダクト改善
- データプラットフォーム:全社のデータ利活用
- ※Yahooは全部オンプレでHadoop
- サイエンスでは
- モデリング・分析のための前処理・可視化
- 扱うデータ
- 行動録や
- サービスのマスターログ
- HDFS上のビッグデータ
- 扱うデータ
- モデリング・分析のための前処理・可視化
- サイエンスでデータ整備が必要なのか?
- データプラットフォームのデータではサイエンスで使うには前処理必須
- 共通データが必要
- サービスのデータにのるにはデータの状況がわからない
- そして、スピーカーは整備人となった
- データプラットフォームのデータではサイエンスで使うには前処理必須
- データ整備人に求められるスキル
- データエンジニアスキル
- データ開発運用をサービスにお願いするのはダメ
- 目標がちがう
- リソースが逼迫
- データ開発運用をサービスにお願いするのはダメ
- その他スキル
- コミュニケーション(多くのチームと関わるから
- データエンジニアスキル
- 整備人としての困ったこと
- ログ管理
- ログを設計する人は実際にデータを使わない
- 1箇所の集計だけに想定した設計
- 他のログに影響を与える
- 使って初めてバグに気付く
- 2. ダッシュボード
- サイエンス改善のKPIを見られるようにした
- が、誰も見なかったので潰すことに
- 最低限、サービス側とサイエンス側で共通のものを作った
- データを見る習慣は大切なので若手に持ち回り制でレポートするようにしている
- 意図通りに使われていないデータ
- ユーザーの利用方法は定期的にヒアリング
- アフターフォロー
- データの解釈を間違えて利用し長期間が進まない
- ドキュメントを残すだけでは不十分
- 利用者が気軽に相談できるほうがよい
- 抽出
- データの抽出
- SQLも覚えられるので新卒にやらせてみよう
- と思ったけど、BIで見られるようにした方が良い
- 集計塾
- 基礎的なHiveQL
- 課題を持ってきてもらい、一緒に分析を考える
- 社内評価
- 持ち込み課題を社内のポスターセッションに提出
- サービス内の改善にもつながった
- 期末にアンケートをとった
- 持ち込み課題を社内のポスターセッションに提出
- データ整備人だからできること
- みんな積極的にやらないからこそ、やる価値がある
- やがて、みんなから頼られ困ったら相談だれる存在に
- データ整備で価値を出すには?
- コミュニケーション
- 能動的に動く
- データ活用の仕組み作り
- エンジニアリング
- 開発運用まで携わる
- 大事なのは、意思決定や改善につながることをゴールとすること
- コミュニケーション
感想
- ドキュメントを残すだけでは不十分っていうのは刺さった
- Yahoo!だけあって自社でHadoopというのが大変そうだ…
- 分厚いドキュメントよりも気軽に相談できるほうがいいのですね。見習いたい。