在线问卷样本库的三代进化，未来方向在哪儿？

2019-11-13

从在线问卷样本库的发展进程看，每一代都在解决上一代的短板、痛点与局限。

编者按：本文来源创业邦专栏王新喜。

沉寂已久的在线问卷行业，今年的资本动向颇为明显，今年8月，问卷星完成8.27亿人民币的战略投资，投资方为有才天下猎聘，持股 66.6%，从投资方持股比例来看，相当于战略收购了。问卷网也完成1.4亿元C轮融资。

如果我们梳理国内在线问卷的历史脉络，会发现这个行业经历了三代样本库的进化。

第一代问卷带动行业起步：但样本采集、结果分析难有质的突破

在线问卷于2000年前后在国外萌芽，SurveyMonkey是典型的成长性巨头：该公司成立于1999年Dot.com泡沫期间，逐渐建立了616,000付费用户的基础，去年估值达20亿美元。今天SurveyMonkey、wufoo，google form已横扫海外调研市场。

在国内，在线问卷市场主流企业有问卷网、问卷星、腾讯问卷、乐调查、金数据、麦客、番茄表单等，基本都做到了丰富的题型，海量模板，强大的扩展性功能，能满足普通受众的需求。

长沙冉星信息科技有限公司旗下问卷星创立于2007年，是国内最早的在线问卷调查、考试和投票平台，它更倾向于学生市场，问卷星也提供付费模式的样本服务，为高校教师、科研团队的课题和企业的市场调查提供数据支持。

在第一代企业问卷星身上，其样本库有多个特征:

其一，更聚焦学生考试市场调研，不像后来者（腾讯问卷、金数据等）扩充到企业级市场等更多行业市场。

其二，样本库范围局限于自身的平台——针对平均每天超过100万人在问卷星平台上填写的问卷，260万样本库成员，问卷星将随机邀请其中部分人群加入样本库。

其三：企业需要付费才可以使用到平台的样本服务。其官网显示，它可以通过性别、年龄、用户地域、身份这几个样本属性，去定位目标人群。

虽然针对百万级别的用户样本进行问卷调研，依然也具备一定的精准投放和效果跟踪能力，但受样本规模所限，取样范围狭窄，对不同行业没有明显区分，不同企业需求也无法得到针对性体现，服务质量不可控。当然，问卷星依然采取了样本质量控制的手段来防御虚假用户与样本质量。

问卷星控制样本质量的做法是四个步骤：

1. 针对符合要求的人群发放问卷；

2. 在填写的过程中控制设定各种规则——A. 自动筛选规则：支持多种无效答卷筛选；B. 选项配额规则：对任意单选题的选项都可以设置配额；C.答题时间控制：设置最短答题时间或最长答题时间；D：随机调整顺序：支持随机调整题目或选项的顺序；E.同一个IP地址、同一台电脑、同一用户名都只能填写一次。

3. 系统筛选；

4. 人工筛选，最终形成有效样本。

图片1.png

但在样本规模偏少的情况下，针对不同行业的问卷调研难以做到更高精准度。在样本质量的控制流程上，也难以看到精准的抽样条件。

总体来看，以问卷星为代表的第一代企业是国内在线问卷的先行者，它带动了国内数据调研的起步，但基于用户体量与模式、技术的限制，它在调研过程中的样本采集、结果分析难以带来质的提升，这背后也面临着模型建立和技术积累的问题。

第二代的突破与进化：但样本库的质量短板犹存

随着时间的推移，在线问卷行业迎来了第二代选手：问卷网、乐调查、金数据、麦客等。

问卷网、乐调查是第二代的典型企业。乐调查于2014年3月正式上线，是市场调查和数据采集的一站式平台。而问卷网成立于2013年，用户超600万，今年完成1.4亿元C轮融资，由方广资本、元禾控股、中亿明源联合投资。

相对于第一代样本库受平台规模所限，样本面狭窄，第二代问卷平台开始通过自建样本库与第三方合作的模式来扩充数据样本库。

问卷网的样本库是自建+第三方合作的模式，它与今日头条、华为合作，样本来源比第一代更为广泛，样本收集的目标群体包括地区、性别、家庭、年龄、职业、学历、收入、地区等，用户维度上得到了扩充。随着样本来源与规模扩大，能覆盖到更多领域的问卷用户。

乐调查的是通过线上定向邀请问卷，实现精准抽样，也是自建+第三方合作的样本库模式。当前乐调查与京东达成合作，实现消费行为分析+调研访问数据的结合，样本收集主要针对消费者的浏览偏好、网购人群行为特征、搜索偏好来定位目标用户。

其用户属性标签大致是：年轻辣妈、忠实果粉或者口红收割机、戴森真爱粉等类型。乐调查的优势是针对电商网购消费者的样本颇为丰富，但针对其他领域的样本偏少。

乐调查也通过招募资源引入更多的渠道来源，确保样本的真实性与广泛性。其官网数据显示，网易等主流门户合作占总量10%，百度搜索引擎占比10%、各应用商店渠道占比10%、以及支付宝旗下站点，中国电信渠道占总量30%。其每年执行的样本总量达到300万+。

此外，第二代问卷平台开始引入奖励机制：比如说乐调查是物质与非物质激励并存。问卷网曾经于2014年针对学生开展赠送调查券活动，为学生免费提供样本服务，但问卷填写者仅获赠2个积分，也造成大量乱填现象，暴露了当时样本库在成员筛选和质量控制上的短板。

在当时填写问卷奖励的激励下，主动参与问卷的用户往往有意识去成为"演员"，成为问卷需要的人。第二代问卷平台由于筛选机制不足，依然难以获得接近更加真实的数据。

第二代在线问卷平台也在发力解决样本库的质量短板与局限。

问卷网主要从数据品控（筛选答题时间过短的问卷）、数据追踪（问卷链接增加追踪参数、转发、充填无效，每个IP只能回答一次）、数据来源（数据主要来自于样本库爱调研）三个层面去严控质量。

图片4.png

在样本质量控制方面，乐调查是通过四个步骤来严控样本质量与品质：1、访问控制（电脑去重、IP检查、答题时长检测等）——2、数据清理（题型逻辑检查）——3、panel维护（定期更新个人信息与诚信管理体系）——4、panel募集（IP与地址匹配、移除多次注册、机器注册自动检测）。本质上，它通过技术手段排除重复作答、独有的陷阱题库体系甄选出不认真受访者。

图片5.png

此外，无论是问卷网还是乐调查，用户都需要通过填写付费样本需求进行在线估价，或进行人工报价。

第二代问卷平台相对第一代，进化颇为明显：其一，引入第三方平台扩充样本库规模，打破了第一代问卷取样范围狭窄的短板；引入更多渠道来源，确保样本的真实性与广泛性。其二：在目标用户维度上更为细分；其三是，引入了奖励机制来带动用户参与问卷的积极性。

但问题依然存在，其一是问卷奖励刺激用户主动性颇为合理，但缺失了对用户答题的前置审核；其二，投放者成本居高不下，投放者即要根据付费样本需求在线估价，又要对答题用户进行奖金刺激，需要双重付费。

其三，在样本的质量控制上，无论是电脑去重，还是题型的逻辑检查、记录答题时间，虽然有效，但这种传统手段难以保证问卷"演员或羊毛党"的刷量的行为，这是影响问卷真实性的重要环节。其四：样本源局限问题依然存在，比如乐调查更聚焦于电商网购领域的样本收集，对于不同行业企业、学校的问卷调研需求，可能会有点有心无力。

第三代在线问卷：从付费到免费，从传统识别到AI+传统双重甄别

作为问卷调研市场的后来者，腾讯问卷是在腾讯内部专业用户研究工具UR问卷系统的基础上诞生的，2014年面世，形成了完善的问卷模板，囊括客户满意度，产品测试，市场调查，互联网、生活商业、娱乐等领域，目前已有2.8亿用户。

之所以将腾讯问卷划归为第三代问卷平台，一方面是相对老牌厂商来说，它没有商业盈利诉求，问卷调查是B端刚需，腾讯的To B战略又是做各行业的'数字化助手'。腾讯问卷可以说是腾讯开放战略与To B战略下的一环，对腾讯而言，它更在意的是如何做大用户价值与问卷调研的大数据服务价值，更好的服务并赢得企业级市场。

但其他厂商短期内不能盈利是比较严重的问题，问卷是服务型较强的行业，盈利模式与用户体验会产生直接的冲突，正因如此，腾讯在其他玩家的收费业务上做到了免费。

另一方面，它在某种程度上解决了第一代与第二代的样本库的局限。

腾讯问卷的样本库是基于"腾讯问卷回答小组"为核心运转：问卷创建者通过用户提供的基础属性和兴趣标签实现问卷的精准投放，通过红包或甜圈发起调研，回答者获得红包或甜圈奖励。问卷的创建者可以在腾讯问卷的投放页选择希望投放的人群属性以及兴趣标签，以实现问卷的精准投放。

腾讯问卷与第二代按样本需求付费不同的是，它是0服务费，平台充当免佣金的桥梁，对接投放者与回答者，投放者的奖励全部投入给答题用户，支持最低2元、最高8元的红包和甜圈。

相对来说，腾讯问卷在成本投入上要更低——前两代样本库使用是付费，而腾讯问卷做到了免费，节省了投放者高额的样本服务费。

其次是，腾讯问卷在用户甄选维度上要比前二代更为细分与精细化。它有四大属性分类（人口、兴趣、设备、行为），20多个细分维度筛选。第一代与第二代是聚焦于用户地域、年龄、性别、职业、学历等维度，主要以人口属性的标签为主。

而腾讯问卷在前代的基础上，对兴趣标签进行了扩充（汽车、数码、游戏、旅游、理财、美食等）、并扩展了设备、行为属性等细分维度。

微信图片_20191113102234.png

一个特点是，腾讯的数据标签是由用户主动标记提供的，也有通过数据挖掘的。比如用户可以自己选择汽车、旅游、数码等相关标签，平台再通过数据挖掘等操作对热门标签进行补充——用户标记+数据挖掘的结合，整体的用户标签更为全面与丰富。

从特点来看，腾讯回答小组都是用户主动申请，它也明显更注重样本库成员的运营，而不是只有答题的时候才关注样本，精细化的重样本运营有两大好处：

其一，基础属性外，它能够获取更多维度的其他样本标签数据；

其二，可以更精准的去投放问卷，服务价值更明显。而一二代老牌的样本库目前还处于扩充样本库来源、确保标签的真实性阶段，还看不到在样本库成员运营层面的发力。但从趋势来看，问卷调查的服务属性凸显，将越来越注重样本库成员的精细化运营。

腾讯问卷背靠微信、QQ的海量用户数据库与画像，它有着其他问卷平台所没有覆盖到的细分维度的用户样本，相对比前二代百万量级的用户，腾讯问卷用户是亿级别的，可以实现更细化、多维度的用户定位与覆盖与更精准的目标用户锁定。

也因此，腾讯问卷的回收速度更快，采用了全程自主选择属性、标签投放，全自动化处理，1天内能达到约90%的目标回收量，缩短了调研项目的周期。

前面提到，第二代新增了奖励手段去激励用户答题的主动性，但难免会引来羊毛党，为求省事胡乱答题导致问卷质量堪忧，而第二代在样本质量控制上采取的是传统的剔除、甄别手段——即聚焦于答题逻辑、时长与IP地址去重等手段去甄别。

与第二代相比，腾讯问卷也采用了奖励手段，但腾讯采用了两种手段来严控质量，剔除羊毛党等无效样本。

其一是传统识别与AI技术识别相结合：传统识别针对有效时长、逻辑筛选、IP分析、渠道做有效甄别，并研发自动识别标记无效问卷(胡乱、伪装作答)程序，通过跟踪用户全程的答题行为时间分布，结合AI技术依靠用户行为序列进行筛选，确保回收问卷的有效性以及填填圈样本的质量。而AI技术可以识别用户、问卷特征、答题行为，两方面数据实现交叉验证。

微信图片_20191113102234.png

相对于前代，它增设AI识别流程，对问卷样本的质量把控更高。

其二：它通过回答问卷审核机制来严控质量，问卷默认开启了审核回答后发放红包。对于不符合答题要求或者随意乱填的答卷可以标记无效，相应的答题者也将无法获得红包或甜圈。由此避免了问卷奖励机制下"演员"的出没。

相对来看，无论是目标用户细分维度扩充，还是从付费到免费的过度，以及通过AI+传统识别双重手段对样本质量的控制、对有效样本的甄别，都在前一代基础上更进一步。发展到今天，问卷调研在样本获取的便利性与样本质量方面都在快速提升。