目次
2種類のBigQueryエクスポート
GA4のBigQueryエクスポートデータには以下の2種類がある。
- イベントデータ
- ユーザーデータ
ユーザーデータは1行1人で、user_pseudo_id
単位で集約したデータと、user_id
単位で集約したデータのそれぞれのテーブルが生成される。
所属するオーディエンスの情報やユーザ(user_pseudo_id
/ user_id
)単位の通算指標が含まれる。
分析によく使うのがイベントデータで、1行1イベントでイベントパラメータなどがネストされて含まれている。
エクスポートの頻度
イベントデータの出力頻度は以下の3種類がある。
- ストリーミング=リアルタイム。重複や使えない列あり(トラフィック関連の列)
- 毎日→翌日に、前日分をまとめて、重複除外処理やトラフィック情報のアトリビューション処理済みの形で出力される
- 毎日(高頻度)=「毎日」のデータを当日高頻度で出力する。「ストリーミング」と「毎日」の中間だが、トラフィック関連の列は出力される
これらは設定画面の「頻度」に対応している。
この中で「毎日(高頻度)」は有料版限定のオプションになる(無料版の管理画面では選択肢が表示されない)。
ストリーミングデータの問題点
ストリーミングデータでは重複や欠損の行が一部含まれる可能性があるのと、流入元アトリビューション処理ができておらず、traffic_source.***
列とsession_traffic_source_last_click.***
が欠損して出力される。
https://support.google.com/analytics/answer/9358801
このテーブルには、その日に発生したセッション アクティビティのレコードが保持されます。ストリーミング エクスポートはベスト エフォート型の処理であり、イベントの遅れやアップロードの失敗などにより、データに漏れが生じる場合もあります。データは 1 日を通して継続的にエクスポートされます。セッションが複数のエクスポート周期にまたがっていると、テーブルにはそのセッションのレコードが複数保存されることがあります。
BigQuery のストリーミング エクスポートには、新規ユーザーについては次のユーザー アトリビューション データは含まれません。
traffic_source.name(レポート ディメンション: ユーザーのキャンペーン)
traffic_source.source(レポート ディメンション: ユーザーの参照元)
traffic_source.medium(レポート ディメンション: ユーザーのメディア)
1日1回の再計算の中ではこれらを処理し、より正確なデータを生成しなおす。より正確なデータや、Googleのアトリビューションと同じロジックの流入元データtraffic_source.***
(「ユーザーの参照元」など)とsession_traffic_source_last_click.***
(「セッションの参照元」など)の情報が欲しければ毎日のデータを使う必要がある。
BigQueryエクスポート設定のパターンと出力されるテーブル
BiqQueryエクスポート設定では2個のチェックボックスがあった。2個のいずれかを選択するのではなく、それぞれチェックを入れる形式である。つまり以下の3パターンの出力設定がある。
- ニアリアルタイムのデータのみ
- 1日1回再計算データのみ
- ニアリアルタイム+1日1回再計算
それぞれについて生成されるテーブル名を見ていく。
まずデータセット名はいずれもanalytics_計測ID
となる
ニアリアルタイムデータのみ
生成されるテーブル名
events_intraday_YYYYMMDD
(YYYYMMDD
の部分は毎日の日付が入る)
(例)
- 2022年3月1日の日中は
events_intraday_20220301
: 2022年3月1日のリアルタイムデータ
- 2022年3月2日の日中は
events_intraday_20220301
: 2022年3月1日の全データ(不完全かも)events_intraday_20220302
: 2022年3月2日のリアルタイムデータ
- 2022年3月3日の日中は
events_intraday_20220301
: 2022年3月1日の全データ(不完全かも)events_intraday_20220302
: 2022年3月2日の全データ(不完全かも)events_intraday_20220303
: 2022年3月3日のリアルタイムデータ
というテーブルが存在することになる。
1日1回再計算データのみ
生成されるテーブル名
events_YYYYMMDD
(例)
- 2022年3月1日の日中はテーブルなし
- 2022年3月2日の日中は
events_20220301
: 2022年3月1日の全データ(完全)
- 2022年3月3日の日中は
events_20220301
: 2022年3月1日の全データ(完全)events_20220302
: 2022年3月2日の全データ(完全)
というテーブルが存在することになる。
ニアリアルタイム+1日1回再計算
生成されるテーブル
- 当日→
events_intraday_YYYYMMDD
- 前日まで→
events_YYYYMMDD
(例)
- 2022年3月1日の日中は
events_intraday_20220301
: 2022年3月1日のリアルタイムデータ
- 2022年3月2日の日中は
events_20220301
: 2022年3月1日の全データ(完全)events_intraday_20220302
: 2022年3月2日のリアルタイムデータ
- 2022年3月3日の日中は
events_20220301
: 2022年3月1日の全データ(完全)events_20220302
: 2022年3月2日の全データ(完全)events_intraday_20220303
: 2022年3月3日のリアルタイムデータ
というテーブルが存在することになる。
前日までのリアルタイムデータが消去されている。
無料版と有料版の違い
GA4の無料版と有料版とで機能にいくつか違いはあるが、BigQueryエクスポートに関わるところでは以下の2点が挙げられる。
- 1イベントで送れるカスタムパラメータが25個まで
- 無料版では1日のエクスポートが100万イベント(行)まで
https://support.google.com/analytics/answer/9826983
前者は以前はカスタムパラメータ数は無制限でカスタムディメンションとして設定できるものが25個だったが、2021年を通じて計測できるパラメータ数自体が減少した。以下はとあるプロパティでページビューに対して計測できた(BigQueryにエクスポートできた)ユニークなカスタムパラメータ数の履歴である。
2020年の12月には設定したすべてのパラメータを計測できていたが、2021年は年間を通じて50個となり、2022年に最終的に32個になった。デフォルトで計測されるパラメータ7個に加えて25個だけが記録されるようになったのである。
後者は上で説明した1日1回の再計算エクスポートである。1日だけこれを超過しても問題ないが、継続的に超過するとそのプロパティでの毎日エクスポートは停止される。リアルタイムのエクスポートについては無料版・有料版ともに制限はない。
有料版を検討する一つの材料としてどうぞ
※筆者が自分で調査したものであり、GA360のサポートとは関係ない情報です
[公開日:2022年3月23日] [更新日:2024年11月5日]アクセス解析 の記事一覧