サイエンス視点からのデータアーキテクト

目次

概要

サイエンス視点からのデータアーキテクト

サイエンスチームの中で、データアーキテクトに関連した業務を多くやってきた経験を踏まえ データアーキテクトで価値を出すにはという話を前向きにお話しします。

スピーカー

堀野将晴さん(ヤフー株式会社)

ヤフー株式会社に新卒で入社して現在7年目。 ショッピングのサイエンス部署の立ち上げに関わり、主にデータ整備・可視化を担当。 現在はコマース全般のデータ整備・分析・サイエンスの改善周りの仕事に携わり、サイエンス部署の中では何でも屋。

Twitter

スライド

内容

  • 自己紹介
    • 2014 サイエンス部へ
      • Yahoo!ショッピング
      • GyaO
  • 今日のお話は「サイエンスからみたデータアーキテクトの話」
  • 組織とデータ活用目的
    • サービス:目的は営業改善とマーケティング改善
    • サイエンス;プロダクト改善
    • データプラットフォーム:全社のデータ利活用
    • ※Yahooは全部オンプレでHadoop
  • サイエンスでは
    • モデリング・分析のための前処理・可視化
      • 扱うデータ
        • 行動録や
        • サービスのマスターログ
        • HDFS上のビッグデータ
  • サイエンスでデータ整備が必要なのか?
    • データプラットフォームのデータではサイエンスで使うには前処理必須
      • 共通データが必要
    • サービスのデータにのるにはデータの状況がわからない
    • そして、スピーカーは整備人となった
  • データ整備人に求められるスキル
    • データエンジニアスキル
      • データ開発運用をサービスにお願いするのはダメ
        • 目標がちがう
        • リソースが逼迫
    • その他スキル
      • コミュニケーション(多くのチームと関わるから
  • 整備人としての困ったこと
      1. ログ管理
      • ログを設計する人は実際にデータを使わない
      • 1箇所の集計だけに想定した設計
        • 他のログに影響を与える
      • 使って初めてバグに気付く
    • 2. ダッシュボード
      • サイエンス改善のKPIを見られるようにした
      • が、誰も見なかったので潰すことに
      • 最低限、サービス側とサイエンス側で共通のものを作った
      • データを見る習慣は大切なので若手に持ち回り制でレポートするようにしている
      1. 意図通りに使われていないデータ
      • ユーザーの利用方法は定期的にヒアリング
      • アフターフォロー
      • データの解釈を間違えて利用し長期間が進まない
        • ドキュメントを残すだけでは不十分
        • 利用者が気軽に相談できるほうがよい
      1. 抽出
      • データの抽出
        • SQLも覚えられるので新卒にやらせてみよう
        • と思ったけど、BIで見られるようにした方が良い
      • 集計塾
        • 基礎的なHiveQL
        • 課題を持ってきてもらい、一緒に分析を考える
        • 社内評価
          • 持ち込み課題を社内のポスターセッションに提出
            • サービス内の改善にもつながった
          • 期末にアンケートをとった
  • データ整備人だからできること
    • みんな積極的にやらないからこそ、やる価値がある
    • やがて、みんなから頼られ困ったら相談だれる存在に
  • データ整備で価値を出すには?
    • コミュニケーション
      • 能動的に動く
      • データ活用の仕組み作り
    • エンジニアリング
      • 開発運用まで携わる
    • 大事なのは、意思決定や改善につながることをゴールとすること

感想

  • ドキュメントを残すだけでは不十分っていうのは刺さった
  • Yahoo!だけあって自社でHadoopというのが大変そうだ…
  • 分厚いドキュメントよりも気軽に相談できるほうがいいのですね。見習いたい。

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次