认识Google Analytics的『取样数据』- 初学者篇

認識 Google Analytics的『取樣數據』- 初學者篇 "取樣數據"是為了能更快速地完成資料分析的工作,常用於資料過於龐大時,為了降低分析成本以及效率,我們可能會取其中一部份的樣本來進行分析,基本上只要取的樣本足夠代表整個資料群體,分析出來的結果就能夠有一定的參考價值。在台灣你常常能看到新聞說,此問卷樣本為xxx萬人、或是某市長的民調顯示xxx,這些都是取樣數據。     舉例來說,如果你想知道台灣人口的2300萬人的行為資料,但2300萬人的資料過於龐大、處理起來會花費更高的成本與時間,因此你取了20%的460萬人口來做分析、理解他們的行為,並用這20%的人口樣本做為參考來理解整個2300萬人,在概念上,20%的取樣必須包含所有可能影響到資料的族群特徵,比方說這20%的取樣裡面必須包含所有的年齡層、性別、生活型態,這就是所謂的取樣數據。   題外話:前幾個月因Harris在撰寫Google Analytics的書籍(預計2017年底前出版),所以文章有一段時間沒有更新,從九月初開始我將回來部落格繼續撰寫每週一篇的文章~,大家敬請期待。   目錄 Google Analytics的取樣數據可能對你的分析工作造成傷害 Google Analytics的取樣數據如何運作 甚麼樣的狀況Google Analytics可能會使用取樣數據? 如何解決Google Analytics的取樣數據問題? Google Analytics的取樣數據可能對你的分析工作造成傷害 Google Analytics裡面一樣會有取樣數據的狀況,雖然取樣數據能夠讓整個分析過程加速進行、並具備高效率的特徵,但取樣數據的問題在於,你所得到的資料並不會是絕對精準,有極大的可能你所看到的取樣資料,與沒有被取樣到的資料具備著完全不同的特徵與結果。   如下圖,從Google Analytics報表的右上方我們可以看到該報表是否有被取樣(幾乎所有的報表右上方都會有這個欄位),上面會顯示“這份報表是以xx%的工作階段來計算,只要這裡顯示的不是以100%的工作階段來計算,就代表你當下正在看的報表,是有取樣數據的問題。     在網站分析上取樣數據並不是一件有正面影響的事情,因為這代表你看到的資料並不精準,尤其當你要計算網站收益、廣告成效這些重要指標時,取樣數據更可能錯誤的影響你的決策。   Google Analytics的取樣數據如何運作 Google Analytics在收集資料時,會先將資料整理、運算好,並預先儲存到資料庫裡面,當你在使用預設報表時(像是目標對象、客戶開發裡的預設標準報表),Google Analytics因為已經把這些資料提前運算並整理好,所以你可以在很短的時間內看到數據報表(Google Analytics的數據這麼龐大,但還能一點報表就立刻跑出數據,就是這個原因)。   但如果你今天使用了次要維度、或進階區隔來篩選出客製化的資料,因為Google Analytics並沒有預先把你要的資料運算好,為了加速報表呈現給你的速度,它就會取樣部分的資料來運算你的需求給你,這當然也是為了更快地呈現出報表。   甚麼樣的狀況Google Analytics可能會使用取樣數據? 當資料太龐大、或你提出客製化的資料需求時(比方說進階區隔或是次要維度),Google Analytics會先檢視這些資料條件是否需要取樣,如果Google Analytics判定需要,它會為了加快給你數據報表的時間,採用取樣數據,這些特定狀況如下:   在指定日期範圍中,資源層級的工作階段量超過 500,000個。

\"\"

"取样数据"是为了能更快速地完成资料分析的工作,常用于资料过于庞大时,为了降低分析成本以及效率,我们可能会取其中一部份的样本来进行分析,基本上只要取的样本足够代表整个资料群体,分析出来的结果就能够有一定的参考价值。在台湾你常常能看到新闻说,此问卷样本为xxx万人、或是某市长的民调显示xxx,这些都是取样数据。

 

 

举例来说,如果你想知道台湾人口的2300万人的行为资料,但2300万人的资料过于庞大、处理起来会花费更高的成本与时间,因此你取了20%的460万人口来做分析、理解他们的行为,并用这20%的人口样本做为参考来理解整个2300万人,在概念上,20%的取样必须包含所有可能影响到资料的族群特征,比方说这20%的取样里面必须包含所有的年龄层、性别、生活型态,这就是所谓的取样数据。

 

题外话:前几个月因Harris在撰写Google Analytics的书籍(预计2017年底前出版),所以文章有一段时间没有更新,从九月初开始我将回来部落格继续撰写每周一篇的文章~,大家敬请期待。

 

目录

 

  • Google Analytics的取样数据可能对你的分析工作造成伤害
  • Google Analytics的取样数据如何运作
  • 什么样的状况Google Analytics可能会使用取样数据?
  • 如何解决Google Analytics的取样数据问题?

Google Analytics的取样数据可能对你的分析工作造成伤害

Google Analytics里面一样会有取样数据的状况,虽然取样数据能够让整个分析过程加速进行、并具备高效率的特征,但取样数据的问题在于,你所得到的资料并不会是绝对精准,有极大的可能你所看到的取样资料,与没有被取样到的资料具备着完全不同的特征与结果。

 

如下图,从Google Analytics报表的右上方我们可以看到该报表是否有被取样(几乎所有的报表右上方都会有这个栏位),上面会显示“这份报表是以xx%的工作阶段来计算,只要这里显示的不是以100%的工作阶段来计算,就代表你当下正在看的报表,是有取样数据的问题。

 

\"\"

 

在网站分析上取样数据并不是一件有正面影响的事情,因为这代表你看到的资料并不精准,尤其当你要计算网站收益、广告成效这些重要指标时,取样数据更可能错误的影响你的决策。

 

Google Analytics的取样数据如何运作

Google Analytics在收集资料时,会先将资料整理、运算好,并预先储存到资料库里面,当你在使用预设报表时(像是目标对象、客户开发里的预设标准报表),Google Analytics因为已经把这些资料提前运算并整理好,所以你可以在很短的时间内看到数据报表(Google Analytics的数据这么庞大,但还能一点报表就立刻跑出数据,就是这个原因)。

 

但如果你今天使用了次要维度、或进阶区隔来筛选出客制化的资料,因为Google Analytics并没有预先把你要的资料运算好,为了加速报表呈现给你的速度,它就会取样部分的资料来运算你的需求给你,这当然也是为了更快地呈现出报表。

 

什么样的状况Google Analytics可能会使用取样数据?

当资料太庞大、或你提出客制化的资料需求时(比方说进阶区隔或是次要维度),Google Analytics会先检视这些资料条件是否需要取样,如果Google Analytics判定需要,它会为了加快给你数据报表的时间,采用取样数据,这些特定状况如下:

 

  • 在指定日期范围中,资源层级的工作阶段量超过500,000个。
  • 你在预设的报表内使用了客制化的进阶区隔、或次要维度。
  • 在自订报表内的筛选器使用了客制化的筛选条件。
  • 在多管道程序报表中,你所选取的指定日期范围中,超过一百万个转换。
  • 在行为流程报表中,你所选取的指定日期范围中,超过十万个工作阶段。

 

如何解决Google Analytics的取样数据问题?

 

取样数据并不能完整地被解决,这是Google Analytics的缺陷之一,但你可以用以下的方式来稍微改善取样数据的问题:

 

1.调整取样数据的设定

 

在报表的右上方,如果你看到数据并不是来自于100%,你可以选择“精准度更高"来降低取样的状况,假设你原先设定为“回应速度更快",并且取样为1%的工作阶段,在你更改为精准度更高之后,Google Analytics会根据你的需求,花上更多时间运算,并把取样的比例调高到4%。基本上取样的比例越高,数据会越精准,若没有赶时间的话,我建议你都选取“精准度更高"来给Google Analytics多一点时间运算、并观察取样比例较高的数据资料。

\"\"

 

2. 缩短观察的时间比例

 

有时候取样数据会发生在你所选取的时间范围太长,假设你一次选取了一整年的数据资料来观察,因资料过于庞大,Google Analytics为了加快运算,会用取样数据,我建议你不妨把观察的时间范围缩短,来减少资料量、并取得更精准的数据。

 

3. 尽量使用预设报表

 

如果你的需求都能被预设报表满足的话,你可以尽量只使用预设报表来减少数据取样的发生状况。

 

无论如何,在使用Google Analytics时,你一定要注意取样的问题,尤其如果部门在计算KPI、ROI、各个流量管道成效时,取样更有可能伤害到你的指标计算,如果你的网站流量很大,更会提高数据取样的机率,因此你一定要注意。

热点资讯

购物车
首页
学堂
建站
外链
SEO
DTC出海
关于我
Scroll to Top