当前位置:首页 期刊杂志

A/B测试原理在新闻生产中的运用及其对新闻业融合转型的潜在影响*

时间:2024-09-03

□文│张梓轩 王 冰

随着软件开发技术的发展,对用户进行数据挖掘与分析,已有相关的应用在市场上不断出现,生产机构自身或第三方机构均可使用,以对信息的生产或发布环节提供数据指导。A/B测试的出现,便是将用户行为分析与新闻网页设计、新闻内容编辑等生产环节直接对应,以测试数据直接指导生产环节。其核心是“确定两个元素或版本(A和B)哪个版本更好,需要同时实验两个版本,最后,选择最好的版本使用。网络上的A/B测试,即所设计的页面有两个版本(A和B),A为现行的设计,B是新的设计,比较这两个版本之间测试者所关心的数据(转化率,业绩,跳出率等),最后选择效果最好的版本。”[1]

美国著名的新闻博客网站赫芬顿邮报在其网站上测试头条新闻的标题写法,使用的就是A/B测试的方法。当用户的请求到达服务器时,通过服务器端的自动“分流”环节,服务器可给点击阅读该新闻的不同读者分配不同的版本,同时对阅读行为数据进行记录。也就是说,同一条新闻内容有两个标题文本,参与到测试中的网站读者随机看到其中的一个标题版本,一定时间段内点击量最大的标题则将会成为这条新闻最终的标题。

虽然A/B测试作为测试方法具有很大的优点,但A/B测试的结果,具有一次性适用性,其使用跨度存在局限,新闻生产者仅通过实施某一次测试,虽然可以调整版面或内容,对短期的情况做出改善,但在进行长期的、持续性的测试方面,A/B测试存在潜在的成本。[2]面对这样的情况,为降低反复测试、动态测试中的大量人力成本、时间成本,并且提高测试的准确性,结合人工智能的A/B测试(AB Testing Combined With Artificial Intelligence),在实践中得到应用。在帮助测试者创建高效的分组测试、收集和分析用户行为数据、将操作过程自动化等各个方面,人工智能对A/B测试进行了有效的辅助。

一、理论概述:A/B测试的原理及人工智能的结合

A/B测试的具体实施方式有很多种,网站、桌面应用、手机应用等对应不同的实施方式,但均是将选定的用户分为两组,一组使用旧版本,一组使用新版本,对试验中收集到的效果指标数据,应用统计学上的方法进行验证,选择效果最好的版本正式上线推广。

1.A/B测试的基本原理

A/B测试的实质,是对照实验法在线上的实施,是与控制组、实验组的自然科学实验一脉相承的,其原理应用的是统计学上的一种假设检验(显著性检验)。在这一过程中,“假设检验是先对总体的参数提出某种假设(比如说转化率的平均值),然后利用样本数据判断假设是否成立的过程。逻辑上采用反证法,先提出假设,再计算该假设可能性的大小。……由于统计得出的结果来自于随机样本的数据,结论不可能为绝对的,所以只能根据概率上的一些依据进行相关的判断。依据小概率思想(即显著性水平p<0.05的小概率事件在一次试验中基本上不会发生),也就是说当原假设的可能性小于认定的某一标准的话,则拒绝原假设(认为这个假设是不成立的),反之则接受原假设。”[3]

具体到A/B测试里的假设检验,试验的目的就在于推翻“A/B两个版本无差异”的原假设,验证“A/B两个版本有差异”的备择假设。最终,通过比较A/B两个版本样本数据的相关参数,来决定最终投放使用的版本采用哪一个。

进行A/B测试时,测试用户的选取是十分关键的环节,为保证试验结果的准确性,一是要保证一定的样本数量,二是要考虑用户细分。“在A/B测试的实验中,需要保证小流量的实验具备代表性,也就是说1%的流量做出来的实验结果,可以推广到100%的用户,为了保证这一点,需要保证1%的流量的样本特征与100%流量的样本特征具备相似性。”[4]具体来讲,要将在某一特征上具有相似性的用户聚为一类,再将其随机分为控制组与实验组,如果“所有用户杂糅在一起,导致即使我们做了A/B测试,也得不出有效结果。所以,我们需要按用户群体细分去做A/B测试,高质量用户、留存用户、低质量用户、不活跃用户,它们的行为是怎么样的,这才是有效A/B测试的关键。”[5]

具体的用户细分,要根据不同的测试目的来区分,但通常比较关键的用户特征有这几种区分,新、老用户的区分,用户流量来源(自然流量、付费流量、推荐流量、Email流量、社交媒体流量)的区分,主页访问、内部访问的区分,首次购买、反复购买的区分等等。不同细分用户的行为分别是怎样的,是进行有效A/B测试的关键。脸书(Facebook)、推特(Twitter)等公司在分析用户行为时,会通过数据分析工具筛选出不同的用户分类,再通过用户行为跟踪,分别查看各类用户独特的具体行为,这样在分类中发掘出可以进一步实现用户增长的空间。

2.结合人工智能的A/B测试

法国国家科学研究中心的数据科学家巴拉兹·克格利(Balázs Kégl)认为,对于A/B测试这样一种对控制变量进行重复实验的方法,人工智能未来可将整个过程实现自动化操作。[6]结合人工智能的A/B测试,其强大的功能在于“不仅可以提高测试的准确度及转化率,自动化的操作过程还能节省大量的时间成本”。[7]

A/B测试的实现过程涉及四个关键角色、三种访问形式及五个环节,其中很多环节可实现自动化操作。四个关键角色为“客户端(Client)、服务器(Server)、数据层(Data)、数据仓库(Data Warehouse)。三种访问形式即无A/B测试的普通访问流程(Non AB test)、基于后端的A/B测试访问流程(Back-end AB test)和基于前端的A/B测试访问流程(Front-end AB test)。用户在一次浏览中,会从客户端(Client)发起一个请求,请求被传到服务器(Server),服务器的后台程序根据计算得出要给用户返回的内容(Data),并向数据仓库(Data Warehouse)添加一条相应的打点信息记录本次访问的相关信息,数据仓库收集到足够的数据之后,就可以开始进行分析了。”[8]基于前端的A/B测试一般来说只是UI(用户界面)上的测试,比如页面展示端的策略方案测试。而基于后端的A/B测试是对返回给客户一端的数据的内容做试验,比如对推荐的策略、对订单列表等方面进行测试。

在这样一种测试流程中,结合人工智能的A/B测试,其首先能够自动地根据多个参数细分用户,因为它能高效地区分出自然搜索、付费搜索的流量或任何其他流量。[9]这种对受众群体细分的自动实现,帮助测试者创建有效的分组方式,事实上实现了根据特定用户群体来测试不同目标网页配置的有效性,提高了测试的准确度,这是实现转化率提高的重要基础。

在接下来的环节中,“人工智能的应用程序随机地将不同的用户分放在不同的测试版本中,并运行A/B测试。初始阶段,该程序收集关于每个版本的信息,这一阶段为探索期。然后,在达到预定的统计阈值后,需要一个人力分析师根据测试结果,对人工智能应用程序的行动选择策略进行相应调整。分析师会选择出用户体验较好的测试版本作为‘胜者’,并删除其余的版本,在这一阶段,人工智能的应用程序正在利用整个过程进行学习,以获知如何提供最佳的用户体验。……在采取进一步的操作时,人工智能的应用程序则可自动化上述过程,以消除人类直接参与的需要,人类只需要审查进度即可。这其实属于自适应动态编程或增强学习。”[10]

3.A/B测试的内容分类

尽管每一次A/B测试的内容都是独一无二的,但通常A/B测试会对下列内容进行测试: “行动按钮的措辞、大小、颜色和位置,标题或产品说明,表单的数量和字段类型,网站的布局和风格,登录和产品页面上的图片,页面上文字的长度”,[11]等等。一些工具如Google Website Optimizer或者Visual Website Optimizer、Vertster,SiteSpect等,可以省时省力地进行网页的A/B测试。

在移动终端可以进行A/B测试的内容更加丰富,不只是测试用户界面元素设计的变化。通常来说,移动端可进行的A/B测试包括:UI设计、内容以及渠道。UI设计又可以细分为“按钮、文本、图片、隐藏元素、应用逻辑”。内容方面包括“用户细分、时间、信息渠道、入门教程、深度链接、权限获取”等,例如推送内容的时间,入门教程的哪些内容需要进行改善,链接到哪些进一步解释的相关内容等等。渠道方面包括“信息推送、内置消息、邮件”等,例如信息通过哪些平台进行推送效果会更好,页面可以内置哪些信息,邮件推送给用户哪些信息,等等。[12]

对于基于移动智能终端的一些应用,若想通过A/B测试实现内容优化、转化率提升,那么对每个变量进行测试都是有意义的。因为对于版本更新这一行为而言,有可能新版本会给用户带来不好的体验,甚至导致用户对软件的卸载,因此,要确保版本的更新与转变不对用户体验造成负面影响,“对消极和积极影响的权衡评估,也就是‘双边测试’,对积极的改变跟消极的改变同时观测,是A/B测试的重要测试环节。具有双边测试功能的A/B测试,会根据得到的全面的数据来权衡决策,不必担心增加打开率的同时出现增加卸载率的问题”。[13]

二、实践应用:新闻领域的A/B测试与最新发展

A/B测试一般用于做网站解析和搜索引擎优化,以此来判断哪种页面组合办法对网站用户更有吸引力。随着软件技术的发展,在包括网站设计、APP开发、广告投放、新闻发布等在内的诸多领域,A/B测试已得到了一定程度的应用。通常情况下,创业公司、营销人员、新闻编辑等,为深入了解用户的行为模式,通过采用A/B测试的方法,可找出提高转化率的最佳办法。

新闻领域使用A/B测试已有先例,A/B测试可以通过跟踪同一篇新闻,测试使用不同标题、报道结构、新闻配图等对流量产生的影响,从而实现新闻内容的优化,再以测试出的最优组合来发布新闻报道。使用A/B测试可以依据真实的传播数据,指导新闻生产环节的改造,从而进一步引发传播效果的提升。

1.经典的A/B测试内容

华盛顿邮报在纸媒时代一直具有较大的传播力和影响力。然而,进入数字时代后,读者阅读新闻的方式发生了改变,造成传统的纸质报纸广告收入和读者量急剧下降。像许多传统媒体一样,华盛顿邮报也在进行新媒体时代的转型,其策略之一就是使用A/B测试进行新闻报道的内容优化。华盛顿邮报使用一款名为“PageBuilder”的软件对新闻报道进行实时的内容测试,“这款工具可以让该报的新闻编辑更加轻松地对新闻报道的内容进行调整,实时在网站上添加或者强调一些内容”。[14]

在互联网转型中,卫报采取“数字第一”的理念和“数据驱动”的文化。自2012年初以来,卫报与Optimizely合作,来增长其网络读者,并且使用A/B测试做网页和性能测试。卫报的产品经理克斯廷·埃克斯纳(Kerstin Exner)表示,只要可能都应该对内容进行A/B测试。其业务和产品开发总监奈杰尔·比克内尔(Nigel Bicknell)则提到,“对于做大大小小的设计决策,A/B测试都很重要。从页面布局的细节到按钮的措辞、链接等许多变量,卫报都会进行测试,因为通常一些细小的变化就能带来很大的转变”。[15]

卫报使用A/B测试进行内容优化主要体现在对其推出的一款名为“Soulmates(知音)”的社交网站上,该网站获得利润的方式是订阅用户按月支付订阅费。A/B测试被应用于对不同的页面布局进行测试,监测布局更改之后是否会使转化率发生变化,在一段时间内,他们对四种不同的页面布局进行了测试,测试结束后,得出的最佳页面布局带来的就业申请率增加了8%;再例如,网站导航菜单上的用词也会使用A/B测试的办法决定,他们通过对“sector insight”(行业洞察力)、“sector advice”(部门意见)、“industry analysis”(行业分析)、“insight from your sector”(从你的角度来洞察)等多个不同选项进行测试,最终选定“insight from your sector”的导航菜单,使点击率增加了224%。[16]

2.动态随机最优化范式

在A/B测试的基础上,“MAB(multi-armed bandit)是一种动态随机最优化的范畴,是特殊类型的动态随机控制模型,用于处理如何最优地进行稀缺资源的分配。”[17]相比原有的A/B测试,MAB测试更加灵活,在测试运行过程中可以增加或者删减变量。因此,MAB范式既符合做内容测试的基本要求,特别是在做网站优化的时候,同时,它又符合对网站的多个变量进行快速跟踪测试的要求。“每次测试可以有多个变量,每个变量被视为一个臂(arm),首先对全部的变量进行整体的测量,并监测读者对于每一个变量的反馈,每个变量的次数送达和读者点击数,用来计算该变量与读者之间的啮合程度。读者的实时反馈用来衡量是否已经达到了最佳的变量组合,因为并没有明确的标准来衡量测试何时结束,所以这是一个完全自动化的测量过程,直到达到最佳变量组合。”[18]MAB测试可以用来测试标题、图片缩略图、视频、推荐文章、热门文章等等。

近来,华盛顿邮报在原有的“PageBuilder”的基础上,增加了基于MAB范式的对网站内容进行实时测试的功能,推出了“Bandito”测试工具,“旨在通过实时监测发现读者对于那些内容反应更加积极。当编辑添加一个变量到PageBuilder网站的模块并对网页进行发布时,MAB测试的算法会自动注册一个有关新变量与默认变量的新测试,同时也会发布到网站页面上,该算法开始在测试页上跟踪与测试相关的读者反映。根据读者的实时反馈,算法选择出最佳的变量。”[19]这种最新的测试方法的优势不仅在于变量的组合能够最大限度地引起读者的参与,并且能够花费最少的成本探索出最佳的变量组合。

华盛顿邮报的数据科学家认为,网站内容优化具有重要性,抓取和分析读者的实时反馈可以帮助有效地进行内容的优化,并提供了基于MAB的具体测试案例,如下图所示:最开始测试不同标题对于读者的影响,即test 1和test 2版本之间的测量,在该变量测试活跃一段时间后,收集相关的数据得出最合适的新闻标题为test 2版本,则可以添加另一变量,即新闻配图,即test 2与test 3版本之间的测量对比——MAB测试的最终测试结果会反馈出三种变量组合的点击率,分别为3.3%、3.9%和4.8%,通过比较和分析反馈的数据,最终呈现在网页上的版本则选定为test 3版本。[20]

三、A/B测试对我国新闻业融合变革的潜在影响

A/B测试是西方主流新闻媒体以及包括谷歌、脸书在内的大型平台型媒体正在采纳的一种前沿模式,在国内,其在商业传播领域的应用已经崭露头角,在新闻、资讯等的信息发布领域,已被“今日头条”这一以智能分发平台为定位的产品所采纳。“今日头条”为入驻其平台开设“头条号”的部分资质较高的新闻媒体机构和自媒体运营者,开发并授权使用A/B测试,应用于标题测试、封面配图测试等环节,并对传播效果的提升,带来显著的效果。随着这一应用及其背后所代表的逻辑与理念被越来越多的媒体机构及新闻生产者所认可与熟悉,其对我国新闻业在融合时代的变革,具有一系列潜在的影响。

1.传者思维到用户思维的真正落实

目前在国内,A/B测试已在原生广告的传播效果测试领域得到应用,而新闻媒体对A/B测试的应用还未普及,一个重要原因是,新闻从业者对于“以用户为中心”的落实,仍然停留在较为模糊而笼统的理念层面,对于如何才是真正实现“以用户为中心”,这需要新闻媒体在融合转型中首先对这一理念做出明确而充分的认知。A/B测试的逻辑,是以用户为中心的逻辑,或者说用户思维的逻辑,它使得发布者不是仅凭经验性的判断将自己想象为用户、替代用户去做出内容编辑方式的选择,而是使其具备相应的技术素养,通过采纳这一应用,为明确了解用户需求、满足用户需求获得有效的数据支持,这是传者思维到用户思维的真正落实。

2.海量内容与海量用户的有效对接

在信息传播的整个生态中观察A/B测试,会发现技术实现了海量内容与海量人的高效对接。结合人工智能的A/B测试,其核心是为了更好地理解内容、理解用户,通过程序的运行,把二者有机地融为一体。基于技术的这一连通机制,它一方面为用户推荐相对而言更为合适的内容,同时因为回收大量的线上测试的用户行为数据,可以智能地理解用户的行为与意图,将用户的喜好通过数据的方式与内容产生互动,优化、激发内容创作的创造力,提升内容生产方的传播效果。同时,通过人工智能解放出的人力,可以更好地投入到更有创造力的内容生产环节,从而更好地为用户提供服务。

3.移动优先战略下实现深度融合的巨大优势

2017年1月,刘奇葆同志在出席推进媒体深度融合工作座谈会时,强调要深入贯彻落实***总书记系列重要讲话精神,明确提出要确立移动优先战略,推进传统媒体和新兴媒体深度融合。不同于PC端的使用特点,移动端的使用与每一个更为固定而明确的用户个体直接对接,这为媒体的内容发布带来重大的机遇。由于移动终端固有的特性,A/B测试在移动互联网时代有了新的发展。一些新开发的A/B测试工具,可充分结合移动设备的特点,对移动用户的使用行为做出充分分析。APP开发者在APP中嵌入A/B测试的代码后,就可以收集用户使用手机进行的交互活动,然后建立针对该用户的数据,并以可视化功能,提供视觉密度地图,用户在内容使用、地理位置、时间等各个方面做出交叉分析。这一系列功能,将更加准确的在用户与内容之间架起桥梁,进而为媒体基于移动优先战略实现融合转型带来巨大优势。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!