GA4無料版と有料版のBigQueryエクスポートの違い

2種類のBigQueryエクスポート

GA4のBigQueryエクスポートデータには以下の2種類がある。

  • イベントデータ
  • ユーザーデータ

ユーザーデータは1行1人で、user_pseudo_id単位で集約したデータと、user_id単位で集約したデータのそれぞれのテーブルが生成される。
所属するオーディエンスの情報やユーザ(user_pseudo_id / user_id)単位の通算指標が含まれる。

分析によく使うのがイベントデータで、1行1イベントでイベントパラメータなどがネストされて含まれている。

エクスポートの頻度

イベントデータの出力頻度は以下の3種類がある。

  • ストリーミング=リアルタイム。重複や使えない列あり(トラフィック関連の列)
  • 毎日→翌日に、前日分をまとめて、重複除外処理やトラフィック情報のアトリビューション処理済みの形で出力される
  • 毎日(高頻度)=「毎日」のデータを当日高頻度で出力する。「ストリーミング」と「毎日」の中間だが、トラフィック関連の列は出力される

これらは設定画面の「頻度」に対応している。

この中で「毎日(高頻度)」は有料版限定のオプションになる(無料版の管理画面では選択肢が表示されない)。

ストリーミングデータの問題点

ストリーミングデータでは重複や欠損の行が一部含まれる可能性があるのと、流入元アトリビューション処理ができておらず、traffic_source.***列とsession_traffic_source_last_click.***が欠損して出力される

https://support.google.com/analytics/answer/9358801

このテーブルには、その日に発生したセッション アクティビティのレコードが保持されます。ストリーミング エクスポートはベスト エフォート型の処理であり、イベントの遅れやアップロードの失敗などにより、データに漏れが生じる場合もあります。データは 1 日を通して継続的にエクスポートされます。セッションが複数のエクスポート周期にまたがっていると、テーブルにはそのセッションのレコードが複数保存されることがあります。

BigQuery のストリーミング エクスポートには、新規ユーザーについては次のユーザー アトリビューション データは含まれません。

traffic_source.name(レポート ディメンション: ユーザーのキャンペーン)
traffic_source.source(レポート ディメンション: ユーザーの参照元)
traffic_source.medium(レポート ディメンション: ユーザーのメディア)

1日1回の再計算の中ではこれらを処理し、より正確なデータを生成しなおす。より正確なデータや、Googleのアトリビューションと同じロジックの流入元データtraffic_source.***(「ユーザーの参照元」など)とsession_traffic_source_last_click.***(「セッションの参照元」など)の情報が欲しければ毎日のデータを使う必要がある。

BigQueryエクスポート設定のパターンと出力されるテーブル

BiqQueryエクスポート設定では2個のチェックボックスがあった。2個のいずれかを選択するのではなく、それぞれチェックを入れる形式である。つまり以下の3パターンの出力設定がある。

  • ニアリアルタイムのデータのみ
  • 1日1回再計算データのみ
  • ニアリアルタイム+1日1回再計算

それぞれについて生成されるテーブル名を見ていく。

まずデータセット名はいずれもanalytics_計測IDとなる

ニアリアルタイムデータのみ

生成されるテーブル名

  • events_intraday_YYYYMMDD

YYYYMMDDの部分は毎日の日付が入る)

(例)

  • 2022年3月1日の日中は
    • events_intraday_20220301: 2022年3月1日のリアルタイムデータ
  • 2022年3月2日の日中は
    • events_intraday_20220301: 2022年3月1日の全データ(不完全かも)
    • events_intraday_20220302: 2022年3月2日のリアルタイムデータ
  • 2022年3月3日の日中は
    • events_intraday_20220301: 2022年3月1日の全データ(不完全かも)
    • events_intraday_20220302: 2022年3月2日の全データ(不完全かも)
    • events_intraday_20220303: 2022年3月3日のリアルタイムデータ

というテーブルが存在することになる。

1日1回再計算データのみ

生成されるテーブル名

  • events_YYYYMMDD

(例)

  • 2022年3月1日の日中はテーブルなし
  • 2022年3月2日の日中は
    • events_20220301: 2022年3月1日の全データ(完全)
  • 2022年3月3日の日中は
    • events_20220301: 2022年3月1日の全データ(完全)
    • events_20220302: 2022年3月2日の全データ(完全)

というテーブルが存在することになる。

ニアリアルタイム+1日1回再計算

生成されるテーブル

  • 当日→events_intraday_YYYYMMDD
  • 前日まで→events_YYYYMMDD

(例)

  • 2022年3月1日の日中は
    • events_intraday_20220301: 2022年3月1日のリアルタイムデータ
  • 2022年3月2日の日中は
    • events_20220301: 2022年3月1日の全データ(完全)
    • events_intraday_20220302: 2022年3月2日のリアルタイムデータ
  • 2022年3月3日の日中は
    • events_20220301: 2022年3月1日の全データ(完全)
    • events_20220302: 2022年3月2日の全データ(完全)
    • events_intraday_20220303: 2022年3月3日のリアルタイムデータ

というテーブルが存在することになる。
前日までのリアルタイムデータが消去されている。

無料版と有料版の違い

GA4の無料版と有料版とで機能にいくつか違いはあるが、BigQueryエクスポートに関わるところでは以下の2点が挙げられる。

  • 1イベントで送れるカスタムパラメータが25個まで
  • 無料版では1日のエクスポートが100万イベント(行)まで

https://support.google.com/analytics/answer/9826983

前者は以前はカスタムパラメータ数は無制限でカスタムディメンションとして設定できるものが25個だったが、2021年を通じて計測できるパラメータ数自体が減少した。以下はとあるプロパティでページビューに対して計測できた(BigQueryにエクスポートできた)ユニークなカスタムパラメータ数の履歴である。

2020年の12月には設定したすべてのパラメータを計測できていたが、2021年は年間を通じて50個となり、2022年に最終的に32個になった。デフォルトで計測されるパラメータ7個に加えて25個だけが記録されるようになったのである。

後者は上で説明した1日1回の再計算エクスポートである。1日だけこれを超過しても問題ないが、継続的に超過するとそのプロパティでの毎日エクスポートは停止される。リアルタイムのエクスポートについては無料版・有料版ともに制限はない。
有料版を検討する一つの材料としてどうぞ

※筆者が自分で調査したものであり、GA360のサポートとは関係ない情報です

[公開日:2022年3月23日] [更新日:2024年11月5日]

アクセス解析 の記事一覧