AB测试为什么有效


1606235-da912bc861830a51.jpg

照片来自Pexels的Mark Neal

在监督学习算法的开发中,我们可以将数据集划分为训练集,验证集,测试集,并通过训练集和验证集找到最优算法。算法在测试集上的性能基本上是我们验证集的性能。类似。

也就是说,我们可以粗略估计算法进入生产后的实际效果。这在很大程度上是因为测试集不受我们算法的影响,即样本的结果与我们的算法无关。

定量投资也是类似的情况。由于市场流动性高,单一公司的资本运作不会影响市场,因此开发了量化投资算法,市场表现独立。

但是,在推荐的字段中,算法和用户的性能密切相关。因为向用户公开的产品是您的算法建议的结果。

就像搜索医院的用户一样,用户只能看到搜索引擎返回的结果,并且这些结果会影响用户的行为。

除了推荐之外,另一个重要的例子是产品优化。在添加或更改功能时,无论您在上网之前的想法如何,在发布之前可能都没有您想到的效果。

正是这种不确定性经常被看到所有各方都在讨论功能是否应该在线,并且该算法不应该通过该方法进行优化。这个讨论最后可能不会得出结论。

在解决问题之前,如果有多个选项可供选择,则每个选项可能都有原因和支持性语音,原因是严格和完整,语音功能强大。如果你跟自己说话,你总能证明自己是正确的。但是,评估决策的最终标准不应该是这些原因和声音,而是实际结果。 [1]

可以科学地评估实际效果的方法是AB测试。用户分为A组和B组。新方案用于A组用户,B组保持不变,新方案的性能由AB组后的性能差异评估。

无论是同比还是环比,它都或多或少受到趋势和环境的影响,因此不准确。

事实上,在医学领域,已经使用了AB测试的原理。医学领域的名称是一项大型随机双盲实验。

在中学科学教科书中,我们学习了对照实验的概念。它是通过观察由单个变量的变化引起的实验结果的变化来维持其他变量并评估该变量的影响。

大型随机双盲实验和AB试验均为科学对照实验。

件。

一个是大样本。

您的数据量应足够大。数据量=每日活动*每位用户每天生成的数据量*实验持续时间。

由于大公司的日常生活很大,实验的持续时间短意味着更快的优化。因此,大公司在算法优化方面具有优势。

其次,样本应该是随机的。

件。

例如,我们不是随机分割,性别是男性方案A,而其他人使用文本B.因为两组人自己有差异,通常女性的购物欲望更强,实验将偏向方案A.

为了随机,每个用户需要生成随机非重复id,然后根据一些规则划分用户。

如果我想做多个实验怎么办?公司很有可能同时进行多个实验,如何确保多个实验不会相互影响。

一种方法是获取用户ID +实验名称的哈希值。只要两个实验的名称不同,生成的哈希值就彼此独立,这可以确保实验不会相互影响。

有一种方法可以验证独立性。假设实验x和y,每个都采取相同的用户进行实验,如果你想彼此独立,那么实验x A/B组将有50%的每个y A/B组用户。

总结

所有的AB测试都很有用,一个是实现随机性,因此实验结果只受单个变量的影响;第二种是使用大样本来消除小样本引起的波动。

[1]我认为A/B测试给了我哲学灵感

“俞渝思想”是一个个人号码,但只用心去做创意,不虚张声,不混淆,没有节奏,力求定期更新,只是为了与你共同探讨世界,分享中平河的意见。

1606235-4a2a41b824225b71.jpg

我以为

96

学习技巧

2019.08.03 10: 54

字数1328

1606235-da912bc861830a51.jpg

照片来自Pexels的Mark Neal

在监督学习算法的开发中,我们可以将数据集划分为训练集,验证集,测试集,并通过训练集和验证集找到最优算法。算法在测试集上的性能基本上是我们验证集的性能。类似。

也就是说,我们可以粗略估计算法进入生产后的实际效果。这在很大程度上是因为测试集不受我们算法的影响,即样本的结果与我们的算法无关。

定量投资也是类似的情况。由于市场流动性高,单一公司的资本运作不会影响市场,因此开发了量化投资算法,市场表现独立。

但是,在推荐的字段中,算法和用户的性能密切相关。因为向用户公开的产品是您的算法建议的结果。

就像搜索医院的用户一样,用户只能看到搜索引擎返回的结果,并且这些结果会影响用户的行为。

除了推荐之外,另一个重要的例子是产品优化。在添加或更改功能时,无论您在上网之前的想法如何,在发布之前可能都没有您想到的效果。

正是这种不确定性经常被看到所有各方都在讨论功能是否应该在线,并且该算法不应该通过该方法进行优化。这个讨论最后可能不会得出结论。

在解决问题之前,如果有多个选项可供选择,则每个选项可能都有原因和支持性语音,原因是严格和完整,语音功能强大。如果你跟自己说话,你总能证明自己是正确的。但是,评估决策的最终标准不应该是这些原因和声音,而是实际结果。 [1]

可以科学地评估实际效果的方法是AB测试。用户分为A组和B组。新方案用于A组用户,B组保持不变,新方案的性能由AB组后的性能差异评估。

无论是同比还是环比,它都或多或少受到趋势和环境的影响,因此不准确。

事实上,在医学领域,已经使用了AB测试的原理。医学领域的名称是一项大型随机双盲实验。

在中学科学教科书中,我们学习了对照实验的概念。它是通过观察由单个变量的变化引起的实验结果的变化来维持其他变量并评估该变量的影响。

大型随机双盲实验和AB试验均为科学对照实验。

件。

一个是大样本。

您的数据量应足够大。数据量=每日活动*每位用户每天生成的数据量*实验持续时间。

由于大公司的日常生活很大,实验的持续时间短意味着更快的优化。因此,大公司在算法优化方面具有优势。

其次,样本应该是随机的。

件。

例如,我们不是随机分割,性别是男性方案A,而其他人使用文本B.因为两组人自己有差异,通常女性的购物欲望更强,实验将偏向方案A.

为了随机,每个用户需要生成随机非重复id,然后根据一些规则划分用户。

如果我想做多个实验怎么办?公司很有可能同时进行多个实验,如何确保多个实验不会相互影响。

一种方法是获取用户ID +实验名称的哈希值。只要两个实验的名称不同,生成的哈希值就彼此独立,这可以确保实验不会相互影响。

有一种方法可以验证独立性。假设实验x和y,每个都采取相同的用户进行实验,如果你想彼此独立,那么实验x A/B组将有50%的每个y A/B组用户。

总结

所有的AB测试都很有用,一个是实现随机性,因此实验结果只受单个变量的影响;第二种是使用大样本来消除小样本引起的波动。

[1]我认为A/B测试给了我哲学灵感

“俞渝思想”是一个个人号码,但只用心去做创意,不虚张声,不混淆,没有节奏,力求定期更新,只是为了与你共同探讨世界,分享中平河的意见。

1606235-4a2a41b824225b71.jpg

我以为

1606235-da912bc861830a51.jpg

照片来自Pexels的Mark Neal

在监督学习算法的开发中,我们可以将数据集划分为训练集,验证集,测试集,并通过训练集和验证集找到最优算法。算法在测试集上的性能基本上是我们验证集的性能。类似。

也就是说,我们可以粗略估计算法进入生产后的实际效果。这在很大程度上是因为测试集不受我们算法的影响,即样本的结果与我们的算法无关。

定量投资也是类似的情况。由于市场流动性高,单一公司的资本运作不会影响市场,因此开发了量化投资算法,市场表现独立。

但是,在推荐的字段中,算法和用户的性能密切相关。因为向用户公开的产品是您的算法建议的结果。

就像搜索医院的用户一样,用户只能看到搜索引擎返回的结果,并且这些结果会影响用户的行为。

除了推荐之外,另一个重要的例子是产品优化。在添加或更改功能时,无论您在上网之前的想法如何,在发布之前可能都没有您想到的效果。

正是这种不确定性经常被看到所有各方都在讨论功能是否应该在线,并且该算法不应该通过该方法进行优化。这个讨论最后可能不会得出结论。

在解决问题之前,如果有多个选项可供选择,则每个选项可能都有原因和支持性语音,原因是严格和完整,语音功能强大。如果你跟自己说话,你总能证明自己是正确的。但是,评估决策的最终标准不应该是这些原因和声音,而是实际结果。 [1]

可以科学地评估实际效果的方法是AB测试。用户分为A组和B组。新方案用于A组用户,B组保持不变,新方案的性能由AB组后的性能差异评估。

无论是同比还是环比,它都或多或少受到趋势和环境的影响,因此不准确。

事实上,在医学领域,已经使用了AB测试的原理。医学领域的名称是一项大型随机双盲实验。

在中学科学教科书中,我们学习了对照实验的概念。它是通过观察由单个变量的变化引起的实验结果的变化来维持其他变量并评估该变量的影响。

大型随机双盲实验和AB试验均为科学对照实验。

件。

一个是大样本。

您的数据量应足够大。数据量=每日活动*每位用户每天生成的数据量*实验持续时间。

由于大公司的日常生活很大,实验的持续时间短意味着更快的优化。因此,大公司在算法优化方面具有优势。

其次,样本应该是随机的。

件。

例如,我们不是随机分割,性别是男性方案A,而其他人使用文本B.因为两组人自己有差异,通常女性的购物欲望更强,实验将偏向方案A.

为了随机,每个用户需要生成随机非重复id,然后根据一些规则划分用户。

如果我想做多个实验怎么办?公司很有可能同时进行多个实验,如何确保多个实验不会相互影响。

一种方法是获取用户ID +实验名称的哈希值。只要两个实验的名称不同,生成的哈希值就彼此独立,这可以确保实验不会相互影响。

有一种方法可以验证独立性。假设实验x和y,每个都采取相同的用户进行实验,如果你想彼此独立,那么实验x A/B组将有50%的每个y A/B组用户。

总结

所有的AB测试都很有用,一个是实现随机性,因此实验结果只受单个变量的影响;第二种是使用大样本来消除小样本引起的波动。

[1]我认为A/B测试给了我哲学灵感

“俞渝思想”是一个个人号码,但只用心去做创意,不虚张声,不混淆,没有节奏,力求定期更新,只是为了与你共同探讨世界,分享中平河的意见。

1606235-4a2a41b824225b71.jpg

我以为