卖家内在因素对问卷调研有效响应的影响研究
Q2季度淘宝网用户研究部门、阿里巴巴集团研究部与北京大学社会学系联合发起了“谁在开网店”的研究,近期北大项目组已经产出了研究报告,本研究采用了科学严谨的抽样方法进行研究。作为项目的延展,笔者对整个调研的样本回收情况做了较为深入的研究,探讨卖家内在因素对网络问卷调研有效响应率的影响。
项目抽样与投放规则说明
本项目的抽样分为两阶段:第一阶段,以“地级市”为初级抽样单位。参考所有个体店家的地域分布,按照所属地级市划分为不同群体,对于个体店家数量较小的城市采用链接到周边邻近城市的方法。第二阶段,在地市级样本中,再抽取个体店家。在每个抽中的地级市内,以主营类目为分层变量,以卖家规模为排序变量,采用等距抽样的方法抽取个体店家6万家,进行投放。(抽样方案详见研究报告《谁在开网店?——淘宝个体店家的社会与执业特征研究》)
本项目的问卷共进行了7次投放,前6次分别采用了Email(3次)、旺旺浮起(2次)、站内信(1次)等方式交叉进行,最后一次采用了电话外呼的方式。为了研究常规网络投放前提下,问卷有效响应的影响因素;同时,本项目的电话外呼时间距离最后一次常规网络投放已经10天之久,网络投放的效果已经衰减殆尽。所以本篇文章将数据回收截止时间定为电话外呼前,以前6次投放的数据回收情况作为分析的基础。
本篇文章主要分析未打开问卷、打开问卷未完整填答、打开问卷完整填答的卖家之间存在哪些差异,从而探讨卖家的哪些内在因素会对网络调研问卷的有效响应有较大影响。需要指出的是,本文只是从样本的内在因素来研究对有效响应的影响,并未涉及到其他外在因素对有效响应的影响,比如淘宝是否有活动、问卷的标题是否吸引人、填答奖励是否吸引人等。
分析数据的前期处理
首先,从后台匹配了6万投放样本更为详尽的经营数据,包括商品信息(在线商品总数、商品均价、主营类目商品占比等)、旺旺响应信息、交易信息(日均交易、成交率、客单价等)、浏览信息(日均PV、UV、IPV、转化率等)、评价信息(好评率、动态评分、店铺评分等)、营销推广状况(淘客、直通车、VIP、促销工具使用情况等)、消保情况(消保范围数、是否七天无理由退换货等)、处罚情况(投诉率、维权率、退款率、处罚扣分率等);
由于本项目的投放周期比较长,在投放期间已经有部分样本出现违规关店和炒作嫌疑,因此,匹配后台数据后,删除了状态不正常的卖家,最终分析样本为57618个。其中未打开问卷的样本56213个、打开问卷未完整填答的样本187个、打开问卷完整填答的样本1218个。
未打开问卷的样本占了分析样本的97.6%,占绝对优势,做群体间差异分析的时候会影响分析结果,需要对其进行拆分,以便更真实地反映差异。所以,将未打开问卷的样本按照本项目第二阶段的抽样原则,将其等分成30组,每组1873或1874个样本,从中抽取4个组,分别与打开问卷未完整填答样本、打开问卷完整填答样本进行差异分析,确保未打开问卷样本的分析量级与打开问卷完整填答的样本量近似。
需要说明的是,未打开问卷的样本等分成30组,最理想状态是组间不能在分析变量上存在差异,因此对30组进行方差分析并两两检验,结果如下:
*卖家规模指按日均支付宝成交额的0%,20%,80%,99%,100%划分成小、中、大、超大卖家4种规模;
*卖家层级指将每个规模按照成交额最小20%,中间70%,和最大10%划分出差、中、好3个层级卖家。
经分析可知,30组样本在分析变量上不存在显著差异,当两两检验时,发现个别组与其他组存在一定程度的差异。综合来看,第5组、18组、19组、26组代表总体更为合适,因为他们与其他组不存在较大差异。
群体间的方差分析检验
将未打开问卷的样本第5组、18组、19组、26组重新命名为第1、2、3、4群,打开问卷未完整填答的样本为第5群,打开问卷完整填答的样本为第6群。对这六群样本做方差分析,并两两检验,考察他们在分析变量上的差异,结果如下:
从数据结果来看,
- 卖家规模越大、卖家层级越高,打开问卷的积极性越大,且完整填答的可能越大;
- 商品发往的省份越多的卖家,打开问卷的积极性越大;
- 旺旺响应率越高的卖家,打开问卷的积极性越大;
- 有交易的卖家,打开问卷的积极性越大;
- 人均ipv越高的卖家,打开问卷的积极性越大;
- DSR动态评分越高的卖家,打开问卷的积极性越大;
- 店铺评价得分越高的卖家,打开问卷的积极性越大;
- 旺铺卖家,打开问卷的积极性越大;
- 使用满就减、满就包邮、限时打折、信用卡、货到付款、营销工具的卖家,打开问卷的积极性越大;
- 设置淘客的卖家,打开问卷的积极性越大,且完整填答的可能性越大;
- 参加消保、消保范围广、参加七天退换货的卖家,打开问卷的积极性越大。
综合而言,经营状况越好、经营思路越活跃、越诚信经营、越受买家欢迎的卖家,打开问卷的积极性越高。
分析变量的回归分析
从单变量方差分析的结果并不能看出多个变量共同作用下,是如何影响有效响应的,所以将未打开问卷的4组样本分别跟打开问卷未完整填答的样本、打开问卷完整填答的样本生成四个因变量,0代表未打开、1代表打开未完整填答、2代表打开完整填答,分析变量作为自变量,分别作逐步回归分析,得到结果如下:
从回归的结果来看,自变量并不稳定,其中旺旺响应率、店铺服务水平得分、第一主营二级类目商品占比、卖家星级、是否设置淘客、是否淘宝VIP、是否满就免邮、是否信用卡等变量始终影响着有效响应;
各分析变量综合作用下,旺旺响应率和店铺服务水平得分对样本有效响应的影响最大,旺旺响应越快、店铺服务水平得分越高,卖家有效响应的可能性越大;
同时,第一主营二级类目商品占比越高、卖家星级越高,卖家有效响应的可能性越小;这与单因素方差分析得到的结论不同,也正说明了,分析变量综合作用下,个别变量的影响会发生变化,所以单个变量逐个分析影响未必适合。
另外,还有22个分析变量分别在不同组中影响着有效响应,但影响不稳定。需要转换分析思路,对分析变量做因子分析,将其降维再进行分析。
分析变量的因子分析
对分析变量进行因子分析,经多次尝试,去掉被解释比例较低的变量,最终保留了51个变量,萃取出15个因子:服务能力、销售能力、经营意识、客单价、成交率、浏览转化率、消保意识、满就送、纠纷率、维权率、购买转化率、遵守规则、旺旺响应、退款率、主营占比,最后一个因子只有一个变量,未作删除处理,主要考虑这个变量在前述研究中,是非常重要的影响因素。最终结果如下:
因子分析的结果,不论从统计意义,还是从业务角度都能得到较好的解释,可以继续进行后续研究。
公因子的回归分析
以公因子为自变量,与上文提到的四个因变量进行逐步回归分析,所得结果如下:
从回归的结果来看,公因子的影响稳定性较强,其中销售能力、成交率、浏览转化率、纠纷率、维权率、购买转化率、退款率的影响较弱;
- 服务能力的影响最大,服务能力越强,卖家有效响应的可能性越大;
- 卖家越遵守规则,有效响应的可能性越小;
- 卖家主营类目的商品占总商品的比例越高,有效响应的可能性越小;
- 卖家的消保意识越强,有效响应的可能性越大;
- 卖家的经营意识越强,有效响应的可能性越大;
- 卖家旺旺响应越快速,有效响应的可能性越大;
- 卖家使用满就送的积极性越高,有效响应的可能性越大;
- 卖家的客单价越高,有效响应的可能性越小;
综上所诉,卖家的服务意识、经营意识、消保意识等对网络问卷的有效响应有积极影响,这类卖家在淘宝属于优质卖家,卖家问卷调研更能够触及到这部分卖家,研究结果更有价值。
小结:
1、本研究只涉及到了卖家的内在因素,并未考察外部因素,投放问卷时,仍然需要考虑外部因素,以便得到更高的有效响应率;
2、在多变量共同作用下,群体间在单个变量上的差异,可能会发生变化,此时需要尝试不同的分析方法考察差异;
3、整篇文章的分析思路如下:拆分大样本的群,以便能与小样本的群做差异性分析——通过方差分析,分析群间在分析变量上的差异——通过回归分析,考察分析变量在综合作用下的影响——当分析变量较多时,直接做回归不稳定,需要对分析变量做因子分析——通过回归分析,考察各公因子综合作用下的影响;
4、本研究后续可以通过结构方程式,来研究各类因素的影响。