AWS と BigQuery をまたいだデータ分析基盤構築

2019-12-292023-02-12

概要

AWS と BigQuery をまたいだデータ分析基盤構築

現在データ分析基盤環境として AWS Athena をメインで利用していますが、開発の選択肢を拡充を目的として BigQuery の利用を進めています。今回は、その中でも AWS 側で ETL 処理をしたデータセットを BigQuery で継続的に同期する取り組みについてお話します。

スピーカー

@Yuta CHIBA(Sansan)

スライド

なし

内容

自己紹介
- 基本はAWSを使っていたが前職のジグソーではGCPを使っていた
- Sansanに在籍
  - Eight
  - プロダクトの事業部と、データ統括部門「DSOC」
  - Data Direction Group
  - データと分析基盤の開発と保守
DSOCで扱っているデータについて
- Eightの規約にそって統計処理・特命処理化されたデータセットを利用し、プロダクト開発に生かしている
名刺を使った分析基盤 – AWSがメイン – データソースはストリーミングをして二アリアル動機データベース – ウィークリーバッチでウィークリー同期データベースに同期している – 設計方針 – 利用者が用途ごとに使い分けられ、マネージドサービスを活用し運用コストを下げる – 二アリアル同期：データ取得目的で随時更新（DynamoDB） – ウィークリー同期；分析や週次更新が（Athena） – 二アリアル同期 – 写真 – ウィークリー – 写真 – BQ利用のニーズ – GCP上で雨後しているサービス開発の新機能開発でデータを使いたい – BQ＋Cloud AutoMLを使いたい – 同期システム構成 – S3からBQにロードできるものを発見「Amazon S3 Transfers」 – ファイルはParquert + Snappy圧縮 – GUIで手設定可能なBQのデータ転送機能を使用 – データ転送は週に1回 – 日付！！ – データのロードで失敗。原因は「名刺交換日」がDate型となっているがyyyy-mm-ddのyyyyが0000のデータがごく少量含めれられてた – AthenaやGlueでは普通に読めている – 暫定案 – 元データセットのDate型をString型で – S3とGCSを同期して
- まとめ
  - 画面ぽちぽちじゃ無理ぽでした
- Sansanはデータエンジニア募集してますよ！