培训讲师谈管理：商业实验5法则

吉宁博士 2015年12月12日培训讲师谈管理

2011年，罗恩·约翰森辞去苹果高级副总裁一职，成为零售商杰西潘尼（J.C. Penney）的CEO。不久后，他的团队开展了大刀阔斧的改革，取消了优惠券和折扣专区，引入品牌专卖店，并用先进技术取代了店内所有收银员、收银机和收银台。但仅17个月后，杰西潘尼销售下滑、亏损严重，约翰森为此丢了工作，公司也恢复了原来的经营模式。

为何杰西潘尼会做出如此严重的误判？难道公司庞大的交易数据还不足以反映顾客的口味和偏好吗？

公司不会不清楚这点，但问题是，大数据反映的是顾客过去的行为习惯，并不能判断顾客对未来激进变化的反应。一旦涉及创新，大多数管理者都要在数据不足的情况下作出决策。因此，他们的决策通常依靠经验或直觉。但真正能重塑行业的创新思想，往往和高管们的经验以及传统观念相左。

然而，管理者可以通过精准测试，检验新产品或商业项目能否成功。比如，一家药物公司欲推出新药，必须先根据标准科学流程进行实验。（美国食品药品管理局（FDA）也要求进行大量临床实验）。很多公司在采纳新商业模式或推行新概念时也会先进行测试。如果杰西潘尼在CEO推行改革前，充分进行实验，公司或许能及时发现顾客并不喜欢他们要做的改变。

为什么在进行高风险改革和采用昂贵方案前进行实验的公司并不多？因为多数公司不愿在商业实验上投入成本，而且执行起来也很困难。尽管看似简单，但由于组织和技术上的重重挑战，实验流程操作起来异常艰难。这是我们依据40多年来实施和研究的商业实验所得出的结论，这些商业实践涉及公司包括美国银行、宝马、希尔顿酒店、卡夫食品、Petco宠物用品超市、史泰博文具、赛百味和沃尔玛。

通过网络这样的直接渠道进行标准的A/B对照测试，相对容易。例如，用一个世纪前发明的数学方法，就可以完成比较网页版本A和版本B的反应速度。但超过90％的消费行业具有更复杂的分销系统，比如门店网络、销售区域、银行分行、快餐连锁店等。要对此类环境下的商业实验进行分析很不容易。最重要的一点是，实验通常取样范围太小，无法得出有效结论。而一家大型网上零售商很容易就能随机挑选5万名消费者，并得到他们对某一实验产品的反馈。但哪怕是规模最大的实体零售店，也很难随机抽取5万家门店实验新的促销活动。对实体店而言，充其量只能在几十家门店实验，很难扩展到几千家。而且我们还发现，多数新的消费者项目实验远不够规范，没有按经过证实的科学和统计方法进行。高管因此将数据噪音错认为主因，错下结论。

理想的实验情况是，试验者将自变量（预设原因）和因变量（观察到的结果）分开，并保持其他因素恒定不变，然后通过改变自变量，来观察因变量发生的变化。然后通过仔细观察和分析，归纳出因果联系，将之在其他场合应用和测试。

为获得此类信息，并保证商业实验的成本和努力物有所值，公司需自问几个关键问题：此实验是否目的明确？利益相关方是否能保证按实验客观结果行事？实验可操作性如何？我们如何能保证其结果可靠？我们是否确保实验发挥最大效果？（详见“商业实验自检清单”）尽管这些问题看似寻常，但很多公司在进行实验时并没考虑周全。

实验是否目的明确？

要想解决某些具体的管理行为问题，唯一现实的方法就是实验。这是公司必须进行实验的情况之一。

以大型零售商科尔士百货公司（Kohl’s）为例。科尔士在2013年寻求裁减运营成本的方法。建议之一是：将周一到周六的开张时间推后一小时。有人认为，此举会使销量骤降，其他人则觉得对销量影响不大。平息争议的惟一方法就是进行有效实验。一项在100家门店开展的实验证明，推后开张一小时不会对销量造成重大影响。

决定是否需要进行实验时，管理者首先要明确他们到底想通过实验了解什么，这样才能决定实验是否是最佳选择；如果答案肯定，就要确定实验范围大小。科尔士的例子中，需要验证的假设十分明确：推迟一小时开张以节约运营成本，不会对销量造成任何严重影响。然而很多时候，公司想验证的假设并没有一定之规，造成实验目的不清；产生大量不必要的花费；更有甚者，根本没能有效解决现存问题。诸如“我们的品牌能打入高端市场”此类的模糊假设根本没有具体自变量和因变量，也就谈不上应该支持还是反对。好的假设一定能够明确界定这些变量。

很多情况下，高管不仅需要关注实验的直接效果，还需要研究其间接影响。例如，当连锁超市Family Dollar考虑是否投资购买冷柜，用于销售蛋奶等生鲜食品时，发现了一个重要的间接作用。由于生鲜商品吸引了额外顾客，店内原来其他食品的销量也增加了，而后者带来了更多的利润。

当然也会出现消极的间接影响。几年前，位于美国中大西洋地区的连锁便利店Wawa想引进一款在试点项目中表现不错的卷饼类早点。但该计划在执行前还是被叫停。因为在通过对照组和实验组进行详细商业实验后，回归分析显示新产品可能会影响其他利润率更高的同类产品销量。

利益相关方是否能保证按客观实验结果行事？

在进行任何实验前，利益相关方必须事先约定，实验结束后下一步如何进行。他们应确保综合考虑所有实验结果，而非片面挑选支持某一观点的部分数据。最重要的是，如果客观数据不支持该项目，他们必须放弃。

科尔士曾考虑增加家具类产品，很多高层十分看好该提议，认为这会是一大新的利润增长点。但经过70家门店6个月的实验，数据显示，净收入下滑。这是因为为了给家具腾出店面，其他产品的展示空间变小，销量随之减少，且造成科尔士顾客全面流失。负面结果让曾经支持这一提议的人非常失望，但最终该项目还是被放弃。科尔氏的例子强调了一点——对实验必须进行公正评判，哪怕是高层曾特别看好这些项目。

当然，当实验数据并不能支持预期效益时，支持者仍可能会找到其他适当的理由继续推进该项目，比如尽管数据显示销量没有明显提高，但却能有助于建立必要的顾客忠实度。但既然已经决议推进该项目，当初又何必要花时间和财力做实验呢？

因此必须建立起机制，即使结果与高管预期或直觉相违背，也要保证实验结果不被忽略。美国东南部的连锁超市 Publix（大众超级市场公司）所有的大型零售项目（特别是投入大的项目），必须经过正规实验认可才被放行。所有此类项目都要经过筛查，第一步就是进行财务分析，判断该项目的实验是否值得一做。

对于那些过了第一关的项目，分析专家会设计出实验方案，并提交给包括财务副总在内的委员会审议。经委员会批准的实验才可进行，并受到内部测试小组监督。财务部门只会将大笔开支批给那些合规且取得积极实验结果的项目。“一旦收到了我们的实验报告，项目能更快被审核和批准，研究过程也不那么繁琐了。”Publix的业务分析高级经理弗兰克·马吉奥（Frank Maggio）如是说。

在构建和执行筛查过程中，需要记住的一点是，实验应属于公司总体学习计划的一部分，支持公司的组织优先事项。Petco的每一项实验都需要说明，该实验将如何革新公司的总体战略。过去，Petco每年约进行100项实验，但如今这一数字减为75。很多实验提议被驳回，原因有二：公司曾做过类似的实验，或者其改变并不值得公司投资测试（比如某商品价格从2.79美元提高到2.89美元）。曾任该公司零售分析总监的约翰·罗德斯（John Rhoades）说：“我们需要的是促进业务增长的实验，我们必须尝试新概念和新创意。”

实验可操作性如何？

实验的预期结果必须可被证实。由于商业环境中变量的“因果密度（Causal Density）”高，变量和变量之间的互动关系都非常复杂，判断因果关系极其困难。和分离及改变自变量，观察因变量变化相比，从商业实验中归纳有效信息更加困难。环境总在变化，影响公司绩效的潜在原因也很难确定，；因此，它们之间的联系通常也十分复杂，不易把握。

假设某零售连锁店有1万家门店，其中8000家名为QwikMart，2000家名为FastMart。Qwikmart门店年销售额100万美元，FastMart为110万美元。一位高管问了一个看似简单的问题：“把QwikMart改名为FastMart，年度总销售额能否增加8亿美元？”显然，影响销售额的因素很多，比如门店面积、一定范围内居民数量及其收入，每周门店营业时间，门店经理的经验，附近竞争对手数量等。但该高管只对门店名字这一个变量感兴趣。

最明显的解决办法是进行实验，比如把10家QwikMart名字改成FastMart，看看会产生什么变化。但即使改名的决定也大有学问，因为很多其他变量也可能随之而变。比如，其中4家门店的天气情况变糟；一家门店的经理正好换人；另一家门店附近一栋居民楼刚好开盘；还有一家附近的竞争对手开始大搞宣传。除非公司能保证将店名之外的变量恒定不变，否则高管还是无法确定改名到底对业绩影响是好是坏。

在因果密度高的环境中，只有实验样本足够大，才能抵消其他变量的影响，公司要考虑这样做是否现实。遗憾的是，这种实验往往很难实现。选取足够样本所需的高昂成本难以承受，或是改变操作干扰太大。我们后面会具体讨论如何应对这类难题，高管有时可以利用复杂的分析技巧，比如大数据，使实验的统计结果更加真实有效。

即使如此，很多时候管理者还错误地认为，样本越大，数据越有效。诚然，一项实验包含很多个结果，但如果这些结果高度集中，或密切相关，那么很可能说明实验的有效样本太少。比如，当公司采取分销而非直销方式时，顾客数据势必关联性强。合适的样本大小取决于预期效果的规模。如果公司希望变量（改变店名）产生较大效果（销量大增），可选择较小样本。如果预期效果比较小，取样应比较大。这似乎听起来有悖常理，但请试想：预期效果越小，实验结果的干扰就越多，分析起来也越复杂，也需要更充分的统计数据支持。

选择合适的样本大小不仅可以保证结果的统计数据有效，还能让公司降低实验成本并有助于创新。现在有软件程序可以帮助公司选择理想的样本大小。（吉姆·曼齐的应用预测技术公司就出售的软件Test & Learn就能满足这一需求）

如何保证实验结果可靠？

前文中我们描述了商业实验的基本原则。但现实中，公司往往要在可靠性、成本、时间和其他实际问题间寻找平衡。三种方法可以帮助公司减少取舍，从而增强结果可靠性。

使现场测试更随机。医学研究中所谓的随机很简单：把一组具有同样属性和疾患的个体随机分为两小组，只治疗其中一个小组，然后密切监督所有个体的健康状况。如果治疗（实验）组在统计上比未治疗（对照）组状况要好，那么该疗法被认为有效。类似地，随机进行现场实验能帮助公司决定：某些具体变化能否改进绩效。

金融服务公司第一资本（Capital One）长期利用精确实验测试最细微的变化。比如通过随机现场测试，第一资本可以检测出客户对不同颜色信封的反应（装有同样产品信息，一批信封为测试颜色，另一批为白色）。

随机性的意义很重要，它能防止有意或无意间产生的系统偏差对实验产生影响；还能将任何潜在（未知）影响测试的因素平均分配给实验组和对照组。但随机现场测试并非全无风险，为获得有效结果，一定要保证其数据统计方法严谨可靠。

有时管理者也会犯错，他们没有找到具有同样属性的实验对象并将之分成两组，而是直接选择实验组（比如连锁店中的一组门店），然后将其他所有部分（连锁店剩下的门店）作为对照组。或者他们选择实验组和对照组时出现纰漏，让实验产生偏差。Petco曾在实验中选择了30家业绩最好的门店作为实验组，选择了另外30家业绩最差的门店作为对照组。这种实验让被测项目的实验结果非常成功，但实际应用后却惨遭失败。

现在Petco将一系列因素纳入考量：门店大小、顾客人口特点、附近竞争对手情况等，并使对照组和实验组的各项因素相匹配（Publix也这么做）。因此，实验结果变得更可靠。

盲样测试（无偏差测试）。为将偏差降到最低，防止“霍桑效应”（指那些意识到自己正在参与实验的受试者具有改变行为的倾向），Petco和Publix都进行过盲样测试。在Petco，实验组的员工完全不知道他们在参与实验；而Publix则可以在任何时间进行盲测，因为Publix门店价格经常更新，所以调价等简单实验可以随时进行盲测，因为操作起来和普通运营流程并无二致。

但盲测流程并非总是有效。在测试新设备或工作方法时，Publix通常会事先通知被选为实验组的门店。（注：还可利用标准更高的“双盲实验”，其中执行实验者和受试者都不知道哪些人属于实验组，哪些人属于对照组。双盲实验广泛用于医学研究，但在商业实验中尚不普遍。）

大数据。在线上或其他直接渠道，对精确随机实验的数学要求已广为人知。但正如我们前文所述，大多数其他消费业务交易渠道，比如实体零售店的取样数量往往无法超过100，因此达不到很多统计方法的标准。为尽可能避免这一局限，公司可以利用专业算法配合多套大数据进行实验（详见“大数据助力商业实验”）。

例如，一家大型零售商考虑重新设计1300家门店的店面，共需5亿美元。作为尝试，零售商先重新设计了20家店面，然后跟踪结果。财务团队分析数据得出结论：店面升级后销量仅增加了0.5％，投资回报率较差。而根据营销团队单独进行的分析，重新设计店面会带来销量增加5％的积极回报。

事实上，财务团队将试点门店和其他面积相近、顾客收入相似的门店作比较，但地理区域不尽相同；在时间上，使用是重新设计前6个月和后6个月的数据。而营销团队比较的则是同样地理区域，重新设计前后12个月的数据。为了确定哪个团队的判断更准确，公司引入了大数据，包括交易数据（门店货品、交易发生时间、价格），门店属性数据以及门店周围环境数据。如此一来，公司选择的对照组门店和实验门店更匹配，确保了小样本统计的有效性。然后，公司利用客观的统计方法再次比较两个团队的判断：营销团队的结论更准确。

即使公司无法按照精确的测试准则进行实验，大数据分析也能识别和纠正某些偏差、随机化中的问题及其他实验瑕疵。常见的一种情况是，公司的实验部门收到进行非随机自然实验的要求，比如运营副总裁想知道覆盖了10％公司市场的新员工培训项目，是否比老项目更有效。事实上，用来解决小样本或联系紧密样本等问题的算法和成套大数据，也适用于此类非随机情况，可以去芜存菁，提取有价值信息，最小化结果中的不确定性。然后大数据分析可以此为基础，为实验者设计出真正的随机现场测试，进一步确定和精炼实验结果。特别是在实验结果和人们预期相反，或需要做出涉及利益较大决定的时候。

可重复操作是任何实验的金科玉律之一，也就是说，其他人做同样的实验，应该也能得出类似结果。现实中，反复操作成本昂贵的实验往往不够实际，但公司仍有其他方式验证实验结果。对于重大项目，Petco有时会先在小范围进行预演，确定结果后才在全公司范围内施行。Publix可以跟踪实验结果，将实际情况和预计效果作对比。

我们是否确保实验能发挥最大效果？

很多公司的实验投入很大，却没能对结果善加利用。为避免这一误区，高管应该考虑到预期实验结果对不同顾客、市场、部门的影响，将投入集中在回报潜力最大的领域。因此正确的提问不是什么有效？而是在哪里有效？

在实验后，Petco通常只选择那些和效果最佳的试点门店条件最类似的门店开展创新项目。这样做不仅节约了开支，而且避免了在不适合的门店开展新项目可能带来的消极影响。有针对性地开展创新项目，让Petco的预期收益提高了一倍。

“价值工程（value engineering）”是另一种有效策略。创新项目由不同元素组成，总有一些元素的投资回报率偏低，而另一些部分偏高。如能找到诀窍，只施行投资回报率高的部分，则效果最为理想。举个简单例子，某零售商实验中，八折促销可使销量提高5％。折扣本身，引导顾客发现折扣的广告宣传和门店员工培训，三者对销量提高的贡献各占多少比重？经过此类分析，公司能够尝试组合不同的实验元素（提供折扣和促销广告，但没有配套员工培训），分析实验结果，让高管放弃那些投资回报率低甚至为负值的元素（比如配套员工培训），使性价比最大化。

此外，严谨的实验数据分析可以让公司对运营理解更透彻，让公司更精确地测试出变量对应的因果关系。大数据最重要的用武之地是发现各种关联。比如，销售某种产品可能和销售其他产品产生冲突。但商业实验能让公司更进一步，在关联之外发现因果关系，比如使销量增加或降低的因素。这类基本的因果关系至关重要。不能把握这点，高管们只能看到所在行业的冰山一角，从而做出极易令人后悔的决定。

美国南方主题连锁餐厅Cracker Barrel Old Country Store就是否要把白炽灯变为LED灯进行实验。结果高管们发现，换上了LED灯的餐厅客流量反而减小了。关于换灯的实验原本可以到此结束，但公司继续深入发掘个中原因。原来LED灯让餐厅入口的门廊变暗了，导致很多顾客误以为餐厅已经打烊。这点正是费解之处：LED灯光应该让门廊变的更亮才对。经过进一步调查，高管们发现，症结在于餐厅经理在换灯前就没有按照公司的照明标准办事，自作主张增加了门廊的照明。所以当遵循了新的LED灯照明标准后，就比以前变暗了。如果不经调查，公司就会得出LED灯对餐厅生意不利的结论，但进一步实验则揭示了真正原因。

没有充分弄清因果关系，公司就容易铸成大错。回到前文科尔氏推迟营业时间的例子，在实验期间，最初销售额出现了下滑。当时高管本可以放弃这一提案，但分析表明，顾客交易数量并未发生变化，问题出在每笔交易中的货品数量减少了。最终，每笔交易中的货品数量复原，销售额也恢复到了正常水平。尽管科尔氏没有完全解释清楚最初的下滑，但高管没有急于归咎推迟开张时间，避免了过早误判因果关系。

因此重要一点是，很多公司都意识到，进行商业试验仅仅是个开始。实验真正的价值来自于分析和充分利用所得数据。过去Publix80％的实验时间用于收集数据，20％的时间用于分析数据；现在该公司希望对调这一比率。

挑战传统观念

通过关注样本大小、对照组、随机情况和其他因素，公司能保证实验结果有效。实验结果越经得起推敲，可重复性越强，就越能说服来自公司内部的反对声音。尤其是当实验结果和业内积习与传统观念相悖的时候更是如此。

当Petco高管决定给一种按重量出售的产品定价时，实验结果十分清晰。该产品最好按0.25磅为单位定价，而且价格以0.25美元结尾。但这一结果与零售业传统定价规则大相迳庭，通常零售价格以9结尾，比如4.99美元或2.49美元。“此举打破了零售业不能有“难看”价格的规律。“罗德斯说。起初Petco高管对实验结果持怀疑态度，但因为实验严格按规定进行，他们最终决定试用新的价格。试点项目确认了实验有效，6个月后，销量提高了超过24％。

由此可见，商业实验不仅能找到更好的办事方法，还能让公司有信心扭转错误的传统观念，甚至改变公司内部经验丰富高管的成见，最终带来更明智的决策和更优秀的业绩。

如果当年杰西潘尼在创新之前进行了精确实验，是否能挽回颓势？现已无从查考。但有一点可以肯定：在实施如此激进的创新项目之前，公司不能凭直觉，而需要真凭实据来进行决策。(刘铮筝 | 译　安健 | 校　钮键军 | 编辑)

斯蒂芬·汤姆克是哈佛商学院William Barclay Harding管理学教授。

吉姆·曼齐是应用预测技术公司（Applied Predictive Technologies）创始人兼董事长。

吉宁博士观点

培训讲师谈管理：商业实验5法则

About 吉宁博士

讲师推荐

培训讲师谈管理：商业实验5法则

About 吉宁博士

讲师推荐

经典创业书籍推荐

创业者和企业家必备的三本书籍推荐

财务人员必看的四本书，你读过哪些？