您的位置： 首页 > 软件测试技术 > 其他相关 > 正文

深入了解技术交易中最强大的工具：A/B测试是如何工作的？

发表于：2020-08-19 作者：读芯术来源：读芯术

A/B测试，简而言之就是通过创建可信的克隆来研究因果关系，即两个相同的项目(或者更典型的是两个统计上完全相同的组)，然后观察不同处理它们的效果。

两个相同的项目不是仅仅相似的就可以了，我的意思是比下面图片上的两只猫还要相同，关键是找到“可信的克隆体”，或者让随机化和大样本量为你创建出来。

科学的、受控的实验是极佳的工具：它允许人们讨论原理和成因。如果没有它们，那么人们了解的只是相关性，这通常对决策没有什么帮助。可以说，实验是在文明对话中使用“因为”一词的许可证。

但令人痛心的是，贪恋结果而不愿付出、对推理的质量自欺欺人、在没有做适当实验就声称自己是科学实验的情况是很普遍的。如果出现不确定的情况，除非存在以下所有三个原因，否则你所做的将不算实验：

· 运用了不同的方法

· 方法随机分配

· 经过科学检验的假设(查看我的解释：http://bit.ly/quaesita_damnedlies)

想要知道为什么实验被用作推断因果关系的工具，请看最简单的实验之一——A/B测试——背后的逻辑。

简要说明

如果不想阅读详细的示例，请查看此GIF，然后跳到最后一部分(“秘密在于随机性”)。

详细说明

想象一下，你的公司有灰色徽标已经用了好几年了。现在，你的所有竞争对手也都使用了灰色徽标(模仿是最真诚的奉承)，你的高管坚持要求将品牌重塑为更明亮的颜色……但是，换成什么颜色的呢?

虽然你的用户看到的徽标是灰色的，但这即将改变。

在仔细评估了贵公司网站配色方案的实用性之后，你的设计团队确定了仅有的两个可行的候选颜色：蓝色和橙色。

CEO最喜欢的颜色是蓝色，因此她选择批准蓝色作为默认方案。换句话说，她认为如果没有其他原因的话，她很乐意偏向选择蓝色。但幸运的是，她是一位由数据驱动的强大领导者，并且愿意在数据驱动下将她的想法变为橙色。

但CEO要看到切实的数据才愿意妥协，她要求提供证据表明橙色徽标在当前的用户群体中，可以使网站的特定部分产生更多的点击量(相对于蓝色)。

你是公司的高级数据科学家，到你搬砖的时刻了，你立即确定CEO的决策方法符合频率统计中的框架。在仔细听了她的话之后，你确定了她的零假设和备择假设与因果关系有关，这意味着需要做个实验。总结一下她告诉你的内容：

默认方案：批准蓝色徽标。
替代方案：批准橙色徽标。
零假设：橙色徽标不会比蓝色徽标多点击至少10%。
备择假设：橙色徽标的点击率至少比蓝色徽标高10%。

对于这样的设置，A/ B测试是理想的实验设计。(对于其他因果决策，可能需要其他设计。尽管在这里我仅介绍A/B测试，但更复杂的设计背后的逻辑是相似的。)

实时交通实验

有多种方法可以运行A/B测试。在心理学实验室(和焦点小组研究)中，我们看到的往往是邀请人们走到街上，向不同的人随机展示不同的刺激因素，然后向他们提问。

但是CEO想要的东西难度更大。她的问题只能通过实时流量实验来回答：当不同的用户在你网站上进行日常业务时，为他们提供不同版本的徽标。

实验基础架构

如果想进行实时流量实验，那么你需要一些特殊的基础架构。与工程师合作，建立为不同用户随机提供不同待遇的能力，以及根据待遇条件跟踪CEO期望指标(某些网站元素的点击率)的能力。

为什么人们不常做实时流量实验，答案通常与高昂前期成本有关。就像Google甚至在我们不知道要进行哪些实验之前，就和在我们的大多数系统中构建实验基础架构一样，传统公司可能一开始会忘记添加此功能，进而会发现自己落后于更懂技术的竞争对手。但要注意，如果你想进入应用的ML /AI游戏，那么就必须具备实验基础架构。

示例

你非常谨慎，不想因为突然出现新徽标而吓到用户。更明智的做法是对一部分用户进行实验抽样，然后进行逐步部署(如果更改造成无法预料的坏结果，那么可以选择将其还原为灰色)。

控制

如果想了解用户对新奇事物的反应(他们是否会因为徽标的更改而点击更多)可以将灰色徽标处理用作对照组。但这不是的CEO想要回答的答案，她的关注点在于单独的橙色相对于蓝色的因果影响，因此，考虑到她制定决策的方式，对照组应该是显示蓝色徽标的用户。

首先，你的系统尝试将蓝色徽标基准应用于样本中的所有用户。

但是，在系统实际向用户显示蓝色徽标之前，实验基础架构会翻转虚拟硬币，以随机将一些用户重新分配给橙色处理，向他们显示橙色。

然后随机向某一些户显示橙色版本，而不向其他用户显示。

如果随后观察到橙色版本的平均点击率较高，则可以说是橙色方案导致了行为上的差异。如果统计上的差异高于10%，那么CEO会很乐意按照她的承诺改成橙色。如果没有，那么她会选择蓝色。

为什么是10%?因为这是CEO愿意接受的最小效应量。如果决策者关心效应量，那么应该将其纳入假设检验中。检验“无差异”的零假设是一个明确的陈述，即你不会对效果大小有所怀疑。

如果处于橙色处理状态的用户对控制条件的反应不同，那么可以说显示橙色版本导致点击次数多于蓝色版本。

秘密在于随机性

如果不是随机执行此操作，例如，如果向所有登录用户提供了橙色方案，同时向其他所有人(游客)显示蓝色方案，那么就不能说是橙色方案导致了区别。因为不管使用哪种颜色的徽标，也许登录的用户对你们公司的忠诚度更高也更喜欢你们的产品。无论以何种颜色显示，登录的用户都可能有较高的点击倾向。

随机化是关键，是让你得出因果关系的结论，这就是为什么随机性如此重要的原因。样本量大(没有大量统计能力的情况下无法进行实验)，随机选择会创建差异较大的组。从统计学上讲，两组是彼此可信的克隆体。

决策标准越直接，样本量越大，实验设计就越不需要复杂。A/B测试很棒，但是更多的高级实验设计使你可以明确控制一些混杂因素(例如2x2设计，可以将已登录的用户与未登录的用户分开，并在每个组中运行微型A/B测试，以让随机性为你处理其余的工作)。当你很想知道橙色徽标对登录用户的影响有何不同，并且希望将其纳入决策时，这个功能特别有用。无论哪种方式，随机选择都是必须的。

依靠随机选择，A/B测试的蓝色和橙色条件下的用户组在所有方面都一直相似(总体而言)，传统上人们会考虑挑选参与者以平衡他们的研究：如性别、种族、年龄、受教育程度、政治观点、宗教信仰等。

但我们通常难以控制的其他方面，随机选择会使它们也保持相似：如喜欢猫的人、喝茶的人、游戏玩家、哥特人，高尔夫球手、拥有尤克里里的人、慷慨给予的人、游泳好的人、暗中讨厌配偶的人、几天没有洗澡的人、对橙子过敏而又没有意识到的人，等等。

这就是大样本量加上随机选择的优点，不必依靠自己的聪明才智来考虑要控制的正确混杂因素。当使用随机数创建两个大组时，你将获得一个统计空白的画布——两个组在统计上都是相同的，唯一的不同是将要对它们进行的操作。

如果观察到两组结果之间存在实质性差异，那么你就可以说发生的差异正是由于你的操作造成的，这就是实验的惊人力量!

探究因果关系是一场挑剔的游戏——这是科学家们也会做的事，如果提出两个伪劣的“克隆体”，并试图将不同的结果归咎于不同的方案方法，如果没有大样本，你怎么知道影响结果的不是它们鼻子下方(这两只小猫咪)的小斑点呢?

本文转载自微信公众号「读芯术」，可以通过以下二维码关注。转载本文请联系读芯术公众号。

周排行
月排行

软件测试技术

软件测试工具

软件测试管理

软件开发专栏

深入了解技术交易中最强大的工具：A/B测试是如何工作的？

热门标签

软件测试技术

软件测试工具

软件测试管理

软件开发专栏

深入了解技术交易中最强大的工具：A/B测试是如何工作的？

相关文章

热门标签