第十四章 数据迷局,灯下苦攻坚(1/3)

    第三卷 锋芒初绽·潮起京华

    第十四章 数据迷局,灯下苦攻坚

    春风日复一日浸润着整个校园,道路两侧的玉兰花彻底盛放,层层叠叠的白色花瓣缀满枝头,一阵微风拂过,细碎的花瓣随风飘落,铺满了蜿蜒的林荫小道。白日里暖阳和煦,可一旦暮色降临,晚风裹挟着湿润的凉意,穿过教学楼之间的巷道,依旧带着料峭的春寒。

    自课题组第一次会议结束之后,整整三天,云浅的生活彻底进入了高强度运转的状态。白天紧凑的专业课一节接着一节,中级财会的合并报表,计量经济学繁杂的公式推演,每一门课程都需要时刻集中全部精神。下课之后,别人放松闲聊的间隙,她要快速整理课堂笔记,紧接着奔赴图书馆,处理课题组分配的任务。寝室、教学楼、图书馆三点一线,日复一日,连吃饭的时间都被压缩得十分紧凑。

    傍晚六点,夕阳向西边缓缓下沉,橘红色的余晖穿过图书馆巨大的落地窗,斜斜投射在长长的阅览桌上。云浅习惯性坐在三楼靠窗的固定座位,桌面上摊开厚厚的资料。一边是城郊社区回收的上千份纸质调查问卷,另一边是整理出来的电子表格数据,笔记本电脑屏幕上密密麻麻的数据表格看得人眼花缭乱。

    按照分工,她主要负责低收入群体消费板块的案例剖析以及样本核对。最开始整理数据的时候,她并没有察觉到异常,只是按照常规流程,将问卷上的信息逐一录入系统。直到她将前两周线上投放问卷以及实地走访收集的数据整合完毕,准备做基础的相关性分析时,诡异的问题接二连三地暴露出来。

    屏幕上的统计图表呈现出明显不合理的走向。按照常识来讲,老年独居群体,日常餐饮支出占比偏高,文娱消费占比极低。可是这批数据显示,不少高龄受访者的娱乐消费数值异常偏高,医疗开销反而远远低于正常水平。部分务工家庭的收支逻辑完全颠倒,每月收入微薄,各项消费支出却远超收入,储蓄数据全部为负数。更棘手的是,有一部分问卷前后答案自相矛盾,前面填写家中无稳定就业人员,后面却出现了高额的职业技能培训开销。

    云浅指尖捏着一支黑色水笔,眉头缓缓蹙起。她挺直脊背,身子微微前倾,目光死死盯着屏幕上跳动的数字,心头渐渐沉了下去。

    起初她以为只是自己录入的时候粗心,复制粘贴时出现了失误。她耐着性子,逐行核对电子表格和原始问卷,一张一张比对。窗外的落日慢慢隐没在楼宇后方,暖调的天光褪去,室内的灯光次第亮起。周围的学生来来去去,交谈声、翻书声、挪动椅子的声响断断续续,可云浅仿佛隔绝在了喧嚣之外,全部注意力都集中在眼前枯燥的数据之中。

    两个小时过去了,核对完毕一半样本,她心底最后一丝侥幸彻底消散。问题并不是录入失误,而是采集到的原始样本本身就存在严重偏差。线上投放的问卷,有不少是学生随意填写,应付式勾选选项,部分问卷集中在同一时间段提交,IP地址高度重合;线下走访时,两名负责发放问卷的新生组员,为了尽快完成任务,就近在商业街找人填写,采集到的人群大多是逛街的年轻上班族,并不是课题需要的低保户、留守老人、外来务工家庭。样本群体错位,再加上大量无效问卷,直接导致整套数据逻辑混乱,根本无法用来支撑课题分析。

    手机震动,课题组的微信群弹出消息。秦副教授询问现阶段的数据整理进度,三天之后就要上交第一版数据初稿。另外几名组员陆续发言,两名大三学长已经完成政策文献的整理,负责线上问卷投放的两个新生只简单说了一句数据基本收集完成,丝毫没有提及样本失真这件事。

    云浅盯着屏幕上的对话,指尖微微收紧。这件事如果现在上报,整个课题组前期的工作全部作废,剩余的时间十分紧张,重新开展调研,时间极其仓促。组员之间难免产生矛盾,大家都会面临任务延期被导师批评的风险。若是刻意隐瞒,等到后续报告成型,导师审核数据的时候依旧会暴露问题,到时候整个课题都会受到重创。

    犹豫片刻,她在群里客观说明了数据出现的问题,并且附上了几组矛盾的数据截图。消息发送出去之后,群内瞬间陷入沉默。过了许久,那两名负责问卷收集的新生开始解释,说近期课业压力太大,时间有限,不得已才快速完成问卷采集,言语之间,隐隐带

本章未完,请点击下一页继续阅读》》