コンテンツに​進む

新しい​ Google 広告アカウントを​作成しますか?

新しい​ Google 広告アカウントを​作成しようと​しています。​新しい​アカウントを​作成しなくても、​1 つの​アカウントで​複数の​キャンペーンを​作成できます。

新しい​ Google 広告アカウントを​作成しますか?

新しい​ Google 広告アカウントを​作成しようと​しています。​新しい​アカウントを​作成しなくても、​1 つの​アカウントで​複数の​キャンペーンを​作成できます。

効果測定に​潜むバイアスを​避けるには?​ 広告を​正しく​評価する​ための​ 4 条件

ミン グエン

Social Module

共有

これからの​広告が​どのような​役割を​果た​すべきなのか、​さらに​広告の​効果測定方​法に​存在する​バイアスを​明らかにし、​その​バイアスを​取り除く​方​法とは​何か——。​広告の​効果測定を​テーマに、​Google の​事例を​もとにして、​Google の​ミン・グエン​(コンシューマー&マーケットインサイト・マーケティングリサーチマネージャー)が​解説します(*1)

さて、​今回は​ちょっとした​架​空の​物語から​話を​始めましょう。

意思決定を​惑わす 2​ つの​バイアス​「ビジター」と​「トレンド」


舞台は​数年後の​世界——。​ミン青年は​自分の​アパレル店を​開業しました。​より​多くの​顧客を​獲得する​ために、​彼は​営業アシスタントを​雇おうと​しています。​彼が​アシスタント候補者に​与えた​最初の​タスクは、​次の​通りです。

「入り口に​立ち、​顧客に​チラシを​配る​こと」

1 週間後、​彼は​顧客数が​ 10% 増加した​ことを​確認したので、​その​候補者を​雇うことにしました。


ここで​ちょっと​立ち止まってください。​この​ミン青年の​意思決定には​問題が​ありそうです。​いったい​何が​問題なのか​考えてみましょう。​アパレル店の​入り口に​いる​顧客は、​これから​お店に​入る​顧客です。​この​「すでに​お店に​入ろうと​決めている​顧客」に​対して、​ミンは​チラシを​配るよう指示しています。​つまり​「入り口に​男性を​立たせて​チラシを​配る」ことと​「お店に​入る​顧客数の​増加」との​間には​因果関係が​ありません。​これは​一種の​「ビジターバイアス」です。

では​正しく​評価するには、​どう​すれば​よいのでしょうか。

1 つの​案と​しては、​立つ場所を​「お店の​入り口」から​「お店の​最寄り駅」に​変更し、​「社員を​採用する​前と​採用した​後の​顧客数の​増加を​計測する」​ことです。​場所を​変更する​ことに​よって、​先ほどの​「ビジターバイアス」を​排除できる​可能性が​あります。


春夏ものの​季節が​やってきました。​ミン青年は​大量の​ T シャツと​ジーンズを​ストックしました。​彼は​新入社員に、​近隣地区すべての​家に​チラシを​配布するように​依頼しました。

商品の​販売から​ 1 カ月後、​店の​ T シャツと​ジーンズが​すべて​売り​切れ、​それらの​売上高は​前月比 300% 増と​なりました。​その​結果を​踏まえて、​彼は​新入社員を​昇進させる​ことを​決めました。


この​意思決定にも、​問題が​あります。​ミン青年は、​売上高の​増加に​おける​「季節性の​影響」と、​「店内プロモーションの​効果」を​無視してしまいました。​特に​前者を​「トレンドバイアスが​かかっている」と​言います。

この​場合の​解決方​法の​ 1​ つは、​「新入社員が​チラシを​配布せず、​かつ売上の​トレンド​(この​場合は​季節性)を​加味した​場合に​売上が​どうなるか」と​いう​予測モデルを​構築し、​その​予測と​実際の​差分で​社員を​評価する​ことです。

「バイアス」を​回避するには?

ここまでは、​日常に​存在する​「バイアス」に​ついて​見てきました。

先ほどの​事例で​説明した​「ビジター バイアス」と​「トレンドバイアス」は、​広告の​効果測定にも​存在します。​ここからは、​これらを​いかに​回避するかに​ついて​考えていきましょう。

効果測定方​法の​背後に​ある​バイアス

281_効果測定_02_1600_210323_ver2.png

過去に​その​広告を​見た​人​(接触者)と、​見たことがない​人​(非接触者)を​比較して、​ブランドの​認知や​購買意欲が​どのように​変化しているかを​測る​「ブランドリフト」は、​計測する​際に​ビジターバイアスが​かかる​可能性が​あります。

た​とえば、​過去に​商品の​ Web サイトを​訪問した​ことがある​人に​再度アプローチを​促す​「リマーケティング広告」を​想像してみてください。​「接触者」は​商品の​ Web サイトを​すでに​訪問した​ことがあるので、​広告を​見なくても​その​商品に​ついて​知っています。​ですから、​単純に​「接触者」と​「非接触者」の​認知度の​ブランドリフトを​比較すると、​ビジターバイアスが​かかるのです。

広告キャンペーン期間の​前後に​調査を​実施して、​その​回答差異を​分析する​「プレ/ポスト調査」でも、​バイアスが​生じる​ケースが​あります。

通常の​広告キャンペーンは、​1 年の​中で​顧客が​その​製品を​購入する​傾向に​ある​季節、​いわゆる​シーズナリティが​最も​高い​時期に​実施します。​その​ため、​キャンペーン前後の​ブランドリフトを​比較し、​それを​キャンペーンの​効果と​してしまうと、​意図せずに​「トレンドバイアス」が​かかった​結果に​なってしまうことがあるのです。

一方で、​「テスト/コントロール」の​調査設計には、​その​バイアスが​かかりません。​「コントロールグループ​(従来の​施策を​そのまま​実施する​グループ)」と​「テストグループ​(新たな​施策を​試すグループ)」は​無作為に​サンプリングしており、​ビジターの​割合や​トレンドの​影響は、​両者とも​まったく​同じ​な​ためです。

この​手法は、​もともと​新薬の​臨床検査などに​使われていました。​まず、​患者を​ランダムに​テストグループと​コントロールグループの​ 2​ つに​割り当てます。​テストグループ内では、​新しい​薬を​用いて​患者を​治療。​コントロールグループでは、​患者に​プラセボ​(有効成分を​含まず治療効果の​ない​薬)を​用います。​一定期間後、​2 つの​グループの​結果を​比較して​薬の​有効性を​測定し、​何度も​改善を​観察でき、​統計で​有意な​結果が​得られた​場合に、​新薬は​承認を​受けて​市場に​出回ります。​これは​「ランダム化比較試験​(Randomized Control Trial=RCT)」と​呼ばれる​手法です。

実際の​バイアスを​確認する​ために、​ある​実験を​してみましょう。​テスト方​法と​結果は​下図の​通りです。​図は​それぞれの​ブランドリフトの​平均と、​90% 信頼区間​(母集団の​平均が​ 90% の​確率で​その​範囲に​ある​区間)を​表しています。

281_効果測定_03_1600_210326_ver3.png

「非接触者/接触者」と​「プレ/ポスト」調査の​結果を​見ると、​それぞれ 7.4%、​9.4% と​なっており、​「テスト/コントロール」の​結果​(1.2%)とは​大きく差が​ある​ため、​バイアスの​存在が​確認できます。

しかし​実際には、​テストグループと​サンプルの​同質性を​担保した​コントロールグループを​作るのは​非常に​困難です。​「日本の​ほとんどの​テレビ番組で​流す CM」の​効果を​測定したい​場合に、​「その​ CM を​当てない​コントロールグループを​作る​こと」は、​とても​難しいでしょう。

また​調査会社は、​広告の​運用まで​担当しない​ことが​多いので、​そのような​場合は、​テスト設計の​背後に​ある​バイアスを​取り除く​ために、​統計手法を​使って​偏りを​調整する​「キャリブレーション​(校正)」も​必要です。

Google マップの​キャンペーンでは、​どうやって​ビジターバイアスを​排除した?

ここで、​傾向スコア(後述)を​使って、​ブランドリフトを​キャリブレーションする​ Google の​事例を​紹介します。​Google China は、​2019 年の​中国の​大型連休に、​日本を​訪れた​中国人旅行者を​対象に​「Google マップ」の​知名度、​好感度、​支持度を​上げる​ための​デジタルマーケティングキャンペーンを​実施しました。​下が​その​ときの​広告クリエイティブです。

281_Title_05_1600_210201_ver1.png

キャンペーンの​効果を​評価する​ために​調査を​実施。​しかし、​キャンペーンで​使用した​中国の​メディアチャネルは、​ランダム化比較試験を​サポートしていないため、​広告の​接触者と​非接触者で​ブランドリフトを​測ると、​ビジターバイアスが​かかります。​そこで​傾向スコアを​使って、​その​ビジターバイアスを​排除しました。

分析手順は​以下の​通りです。

傾向スコアマッチングの​手順

281_効果測定_06_1600_210323_ver2.png

・手順​ 1:​「性別」​「年齢」​「居住地」や​「旅行目的」などの​ロジスティック回帰モデルで​傾向スコアを​推定

・手順​ 2:接触者と​非接触者の​傾向スコアを​マッチング

・手順​ 3:マッチング後の​接触者と​非接触者グループの​傾向スコア分布が​同じ​ことを​確認

・手順​ 4:ブランドリフトを​再計算

・手順​ 5:マッチング前後の​ブランドリフトを​検証

「傾向スコア」とは​「施策群に​割り当てられる​確率」、​より​厳密に​いうと​「観測された​共変量の​ベクトルに​与えられた​条件付き確率」です。​今回の​事例で​いうと​「広告に​接触する​確率」が​該当します。

まず​手順 1で、​「性別」​「年齢」​「居住地」や​「旅行目的」などの​ロジスティック回帰モデルで、​この​傾向スコア(広告に​接触する​確率)を​推定する。

次に​手順 2 で、​「手順 1」で​推定した​傾向スコアが​同じ​「非接触」グループと​「接触」グループを​マッチングさせます。

281_Title_07_1600_210201_ver1.png

傾向スコアが​同じグループなので、​必然的に​ 2 つの​グループの​「性別」​「年齢」​「居住地」​「旅行目的」などは​バランスが​取れており、​手順 3 で​傾向スコアの​分布を​検証しても、​マッチング後の​非接触者と​接触者の​傾向スコアは​同じに​なります。

手順 4 と​手順 5 で、​傾向スコアマッチングの​前と​後の​ブランドリフトを​検証します。​結果は、​以下の​通りです。

ブランドリフトの​検証

281_効果測定_09_1600_210323_ver3.png

表の​中の​数字は、​Google マップの​知名度、​好感度、​支持度などと​いった、​今回の​キャンペーンの​ KPI です。​マッチング後の​ブランドリフトは、​マッチング前よりも​ 5 〜 7 ポイント低くなりました。​この​処理を​する​ことで​ビジターバイアスを​排除でき、​キャンペーンの​真の​効果測定が​可能に​なるのです。

広告の​効果測定は​「アカウンタビリティ」から​「インクリメンタリティ」へ

281_効果測定_10_1600_210326_ver2.png

広告の​効果測定は、​広告が​きちんと​機能している​ことを​証明する​「アカウンタビリティ​(説明責任)」だけでは​ありません。​ここから、​その​広告の​純増効果である​「インクリメンタリティ」を​計測し、​ビジネスを​成長させる​必要が​あります。

インクリメンタリティとは、​「広告施策を​実施しなければ​発生しなかったであろう、​一連の​マーケティング施策から​生じる​ビジネス成果」と​定義できます。​その​測定方​法に​ついて、​もう​ 1​ つ事例を​取り上げてみましょう。

2019 年の​下半期に​Googleは​「検索数」と​「検索利用者数」を​加速させる​キャンペーンを​実施しました。​その​効果を​測定する​ために、​いく​つかの​都道府県を​コントロールグループに​設定し、​残りの​都道府県で​メディアキャンペーンを​実施。​その​後​「Causal Impact」と​いう​統計分析の​ツールを​使って​検索数や​検索ユーザー数の​リフト​(施策の​実行に​よる​効果の​差分)を​測定しました。

CausalImpact とは、​Google が​開発した​「キャンペーンが​ KPI にもたらす因果的影響を​時系列から​推定する​ための​パッケージ」で、​GitHub でも​公開しています。​ビジネス応用例が​多いですが、​学術論文にも​多く​引用されています。

分析手順は​次の​通りです。

効果検証の​ワークフロー

・手順 1:コントロール地域を選択 ・手順 2:コントロール地域の選択にバイアスが入っていないか検証 ・手順 3:コントロール地域でキャンペーンを実施 ・手順 4:CausalImpact でキャンペーンの効果を測定 ・手順 5:測定結果を検証

手順 2 で​コントロール地域の​選択を​検証するには、​「キャンペーン前の​期間」に​おける​検索数の​時系列データを​ 2:1 の​比率に​分割し、​Causal Impact を​実施します。​その​期間中には​プロモーションキャンペーンが​なかった​ため、​リフトは​ないと​予想できます。

コントロール地域の​選択を​検証

281_効果測定_12_1600_210326_ver4.png

上段の​グラフは​「実際の​検索数」または​「検索ユーザー数」を​表しています。​黒の​実線は​実績値、​青の​点線は​テレビ CM を​放映しなかった​場合の​予測値です。​予測値は​コントロールグループの​時系列データから​構築した​モデルに​よって、​推定しました。​実績値と​予測値の​差分を​表しているのが​中央の​グラフで、​その​差分の​累積を​下段の​グラフで​表しています。​ご覧の​通り、​キャンペーン期間前には​検索数の​リフトが​見られませんでした。

もしこの​時点で​有意な​リフトが​確認できた​場合は、​手順 1 に​戻り、​コントロールグループの​選定条件を​厳しくして、​再び手順 2 で​検証します。

次に​手順 3 で​キャンペーンを​実施し、​手順 4 で​キャンペーン期間中と​期間後の​検索数の​リフトが​あったか​どうかを​検証します。​これは​ 5% の​有意水準に​おいて、​CausalImpact で​分析しました。

281_効果測定_13_1600_210326_ver4.png

グラフの​下段は​「検索数の​累積の​リフト」と​その​「信頼区間」を​表しており、​大幅な​リフトが​確認できます。​この​時、​p 値が​ 0.001 と​非常に​小さく、​プロモーションキャンペーンの​検索数に​リフト効果が​あると​言えるでしょう。

優れた​効果測定の​ 4 条件

281_Title_14_1600_210201_ver1.png

ここまで​見てきた​通り、​広告効果測定に​おいて​その​アカウンタビリティを​果たすだけではなく、​インクリメンタリティを​正確に​計測しビジネスの​成長を​後押ししたか​どうかが、​重要な​視点なのです。​それを​加味して、​「優れた​効果測定」とは​次の​ 4 条件を​満たさなければならないと​考えます。

条件 1:重要な​ものを​測定

リーチ、​ブランドへの​影響、​販売への​影響など、​企業の​ビジネスに​とって​本当に​重要な​ものを​測定します。

条件 2:すべてに​わたって​測定

クロスデバイス、​クロスメディア、​クロスパブリッシャーの​測定を​行います。

条件 3:日々の​マーケティングでの​テストと​学び

テストと​学びの​フレームワークで、​日々の​マーケティング活動を​測定します。

条件 4:方​法論の​重要性

正確な​インクリメンタリティを​測定する​ために、​厳密な​科学的方​法論を​用います。

また、​優れた​広告効果測定を​追求するには、​社内での​部門を​超えた​取り組みと、​業界全体での​取り組みが​必要です。​業界団体や​業界スタンダードも​大切で、​事業主や​調査会社、​広告メディア、​さらには​正確な​インクリメンタリティを​測定する​ための​厳密な​科学的方​法論を​用いる​学術研究機関が​一緒に​なって、​透明かつ​開放的な​効果測定の​場を​作っていく​必要が​あります。

281_効果測定_Author_220_210329_ver1.png

ミン グエン

APACコンシューマー&マーケットインサイト・シニアマーケティングリサーチマネージャー

出典 (2)

*1: 2020 年 11 月に​調査会社インテージが​主催した​「INTAGE FORUM 2020」での​講演内容を​一部​編集してお届けします。

同様の​内容は​ ESOMAR Insights Festival 2020 にも​発表されました。​英語の​論文に​ご興味ある方は​お問い​合わせください。

ページ​先頭に​戻る