背景
2020年的年中,除了还在全球肆虐的“新冠病毒”,就要算被爆出的一系列学籍造假新闻事件最引人关注,从 “仝卓学籍造假”、“西南交大保研造假”到“山东学籍顶替” 等事件,这一系列的造假不知是小概率的个案,还是舞弊案的“冰山一角”,这还需要相关部门彻查清楚后,才有定论。出于职业敏感,我更关注这些事件背后所隐藏的系统性和结构性问题,以及是否有更好的解决方案。出于此目的,笔者对已经完成调查并公示的几起学籍造假案进行了深入的调研,对目前的学籍管理现状做了大量系统性摸底。总结了一些学籍管理中存在的问题和漏洞,并提出一套用区块链技术实现的“教育学籍链”方案,“抛砖引玉”,希望有更多的人专注教育学籍的重要性,加入到完善目前教育公正性的事业中来。
国内学籍管理现状
目前在全国范围内学籍管理主要由“全国中小学学籍信息管理系统(中小学学籍系统)”和“中国高等教育学生信息网(学信网)”及其子系统“学籍学历信息管理平台”两大平台构成。已实现基础教育,高等教育的全国联网式统一管理。下面我们分别看看这两大系统的情况:
中国高等教育学生信息网(学信网)建设情况
学信网由全国高等学校学生信息咨询与就业指导中心(以下简称“中心”)于2002年5月注册并开通,2004年7月教育部发布教学[2004]25号公告,把学信网作为中国高等教育学历证书查询指定的唯一网站。
2006年1月又开通了中国高等教育学籍学历信息管理平台,该平台是教育部高校学生司,学籍学历电子注册工作的政务平台。平台将高校新生学籍电子注册、在校生学年电子注册和毕业生学历证书电子注册管理等功能结合在一起,实现高校学生全程网络化管理。平台用户包括高校、省级、教育部三级学籍学历管理部门,每级包含研究生、普通本专科、成人本专科、网络教育四种类型的管理用户。
全国中小学学籍信息管理系统建设情况
2013年教育部印发《中小学生学籍管理办法》的通知,要求建立统一规范的学籍信息管理制度,要求加快建设全国中小学生学籍信息管理系统,建立全国统一、规范的学籍信息管理制度,提高学籍管理服务工作水平。2014年开始全国联网试运行“全国中小学生学籍信息管理系统”,目前以实现全国范围内的中小学学籍的统一管理,系统覆盖教育部和全国所以省、市、县教育行政部门,以及全国所有中小学校。
“全国中小学生学籍信息管理系统”的系统结构在逻辑上支持教育部、省、地市、县/区、学校的5级分级管理模式;在物理部署上属于:中央和省级两级部署管理模式,省级系统由各省自主运营管理,各省级系统通过数据交换平台实现教育部、省两级数据的交换和共享。
系统中全国联网的电子学籍号是学生的个人标识码(19位),是教育系统人员基础信息统一编码,由类型码(1位)及公民身份号码(18位)或个人标识自编码(18位)构成。个人标识自编码(18位)是在教育个人暂无公民身份号码(第二代)或原公民身份号码不可用时,由教育部依据本规则赋予教育个人的教育身份号码。电子学籍号是每位学生终身唯一编号(一人一生一号),支撑学生正常变动(升级、升学、毕业等)、学籍异动(转学、出境学习、休学、复学、留级、跳级、辍学、死亡等)的管理工作。
一个自然人从小学入学到大学毕业就业至少跨度16年的大尺度教育历程来看,学籍管理主要还是在基础教育学籍、高考考籍和高校学籍三个相对独立的阶段,借助各自的平台分别管理。
如下图:
三阶段教育学籍管理示意图
基础教育管理阶段:目前全国基础教育的学籍管理由省和国家两级建设的“全国中小学学籍信息管理系统”管理,建立了已电子学籍号为唯一识别码的学籍档案管理体系,从小学入学到高中毕业,实现了从学籍正常变动(升级、升学、毕业等)、学籍异动(转学、出境学习、休学、复学、留级、跳级、辍学、死亡等)的全国联网。
高考考籍管理阶段:由考生通过省级教育考试院的相关考试招生系统完成对考生报名,建档,审核,提档等一系列档案管理功能。这里要指出的是:目前“考试招生系统”和“全国中小学学籍信息管理系统”并未联网,当地招生办,档案审核人员是通过两个系统之间的档案人工比对,实现考籍的审核工作。一旦考生被高校录取,考生的电子档案将通过数据库文件方式提档到录取高校,而纸质档案袋由当地招生办、学校邮寄到录取高校,特殊情况考生也可以自提档案到高校。
高校学籍管理阶段:高校在提调录取考生电子档案后,对考生档案做一次审核,并挑选出最后录取考生,不满足条件的档案就会被退回。考生携带录取通知书在高校办理入学手续,高校将再次人工审核考生外貌、纸质考籍档案和提档的电子档案,人工比对一致性后办理入学手续。高校的学习历程数据主要在各自高校学生信息系统中管理,只是在入学和学期结束时,将学籍状态导入或更新到学信网下的“学历学籍信息管理平台”。
从以上三阶段的学籍管理现状来看,目前的学籍管理还是在教育部基础教育一司、各省教育考试院、各高校和全国高等学校学生信息咨询与就业指导中心的下独立运营,学籍数据并未实现在各自系统中数字化的实时在线连接,有限的数据交付主要还是以离线数据为主。
存在问题分析
虽说我国在2014年联网运行了“全国中小学生学籍信息管理系统”后,实现了全国范围内的中小学学生学籍统一管理。同时通过“中国高等教育学籍学历信息管理平台”实现高校新生学籍电子注册、在校生学年电子注册和毕业生学历证书电子注册管理功能,并通过“学信网” 面向学生和社会提供查询服务,从宏观算基本实现基础教育、高等教育和部分成人教育的学籍电子化管理。
但笔者通过对以上系统实际调研发现,由于全国中小学学籍信息管理系统(教育部基础教育一司、教育管理信息中心)、省级招生考试系统(省教育考试院)、高校信息管理系统(各高校)、高等教育学籍学历信息管理平台(全国高等学校学生信息咨询与就业指导中心)是分属于不同的行政单位,设立系统的初衷也不尽相同,所以这四大系统并未正在实现学生学籍、学历全生命周期的统一管理。具体问题如下:
1、目前学生学籍档案各阶段依然处于分散管理,并未形成统一的学籍学历追溯体系。
目前“全国中小学学籍信息管理系统”负责中小学的学籍档案管理;“省级考试招生系统”负责考生考籍档案管理;“高校信息管理系统”负责高校内部信息化档案管理;“高等教育学籍学历信息管理平台”负责高等教育的学籍档案管理(高校信息管理系统是高校自建系统,所以数量众多,这里统一简称为高校信息管理系统)。由于这四套系统是完全独立运营的,虽存在部分的数据传递,如:省级考试招生系统会用向高校投送考生电子档案,但投送后的数据无法保证前后的一致性,也缺乏跨行政实体的统一协调管理机制。
2、对学籍真实性验证只作档案单验证,无多重溯源验证。
目前学生学籍管理从小学入学到大学毕业就业,分别是:中小学学籍注册的身份证验证、学籍查重、档案变更审核;高考档案一致性验证;高校入学档案一致性验证;就业学历真实性验证四个阶段性验证。主要以人工验证为主,且验证都采用单验证模式,既:只验证自己这个阶段的档案一致性。如:高校入学档案一致性验证,主要验证:学生入学递交的纸质考生档案和提调的考生电子档案是否一致,而并不验证中小学的学籍档案一致性。所以实际上只要在档案验证的上一个环节造假,即可是使后续环节验证失真。
3、实现了信息化管理,但缺少数字化管理。
从以上学籍管理相关系统现状上可以看出,我国从学籍管理上以实现了数据存储和传递的信息化,但还没有深入采用数字化手段实现数据在多方实体间的整合、流动和共享。“全国中小学学籍信息管理系统”、“省级招生考试系统”、“ 高校信息管理系统”、“高等教育学籍学历信息管理平台”都各自管理自己的数据,只对自己的数据负责。缺少技术手段将学籍数据形成数字化个人资产,贯穿整个人教育的完整一生。
4、学籍、学历档案管理还未涉及职业技术培训、第三方专业技能认证等成人再教育阶段。
目前的学籍、学历档案管理只涉及了基础教育、高等教育等,教育部直接行政管理的教育阶段,对于职业技术培训、专业技能认证等,还未实现“一人一生一号”的统一档案管理。由于职业技术培训、专业技能认证、就业再教育等涉及更多、更复杂的社会商业实体的参与,以目前的学籍、学历档案管理的技术路线,很难实现统一的“终身学习”轨迹的安全记录和查询。
5、学籍档案从机理上并未消除数据篡改的可能性。
虽然目前在基础教育的“全国中小学学籍信息管理系统”采用了国家和省中心两级数据中心管理学籍档案;在考试招生的“招生考试系统”采用了省级数据平台存储考籍档案;在高等教育的“高等教育学籍学历信息管理平台”,采用国家级数据中心管理学籍、学历注册和认证。但从数据管理上依然采用关系型数据库明文方式直接存储,从防篡改特性看,只是从数据权限级别上提高了档案数据篡改的难度,并未从数据存储机理上彻底消除篡改的潜在风险。
从技术上看,采用传统信息化系统管理的学籍、学历档案,只是提高了档案篡改的难度和权限,由原来区、县、市一级,提升到了省级或国家级。从近期频繁爆出的“山东学籍顶替” 、“仝卓学籍造假”、“西南交大保研造假”事件来看,有部分造假确实发生在学籍信息化系统还未全国联网的十几年前,而有些也就发生在当下。学籍顶替、造假对于全国教育公平性而言,可谓有“蚁穴溃堤”的风险,只有从制度和技术条件上彻底消除学籍、学历、考试弄虚作假可能,才能杜绝此类事件不会再现。
在目前分布式的教育资源环境下,形成以“人为本”的“一人一生一号”学籍编码体系,具备数据彻底防篡改特性,多重溯源验证能力的全生命周期学籍、学历档案管理,区块链技术是一种可行方案。
建设基于区块链技术的教育学籍链网络
利用区块链技术分布式协调机制在中小学学籍管理机构、考籍管理机构、高校、全国高等教育学籍学历管理机构、社会培训机构、就业指导中心、事业和企业单位等分布式实体之间,建立自动化协调一致性的“一人一生一号”学籍学历档案管理体系;利用区块链技术的数据防篡改特性,从数据结构上彻底解决学籍档案篡改问题;利用区块链交易全网、多重、交叉溯源验证特性,从源头上提高造假难度。采用区块链技术与《“十三五”国家信息化规划》明确指出,要构建数据统一共享交换平台,推进数据资源共享共用的要求是有机契合的,也是符合目前教育资源分散的时代特性。
教育学籍链结构示意图
教育学籍链从网络构成上看,是由各省建设的省级教育学籍链组成,学籍的跨省数据同步通过国家级中小学学籍数据中心和全国高等教育学籍信息平台构成的跨链节点完成,由于教育学籍链是一条国家主权区块链,所以跨链机制采用受信任的教育部直属节点完成,国家级中小学学籍数据中心和全国高等教育学籍信息平台担任跨链数据公证人角色。省级教育学籍链中主要由共识全节点,验证轻节点和查询验证的DAPP(分布式应用)构成。
从节点组成上看,由省级中小学学籍数据中心、省级考试招生数据中心、省级人社数据中心和国家级中小学学籍数据中心、全国高等教育学籍信息平台构成共识全节点,各共识全节点将会自动同步省级学籍全量密文和HASH数据,通过PBFT实用拜占庭容错共识协议保证数据的一致性和防恶意攻击能力。省内各大学、社会教育和培训机构构成验证轻节点,轻节点不用同步全量学籍数据,只同步具有本校学籍的学籍数据,同步数据用于本校快速验证本校学生学籍的真伪。人社网、考试院、基础教育网、学信网的学历学籍验证应用构成教育学籍链DAPP,这里指的DAPP并不是指将原有Web应用系统全部改为基于区块链的分布式应用,而是特指这些平台或网站对于学籍验证查询服务采用基于区块链智能合约的方式,构成分布式、防篡改、可溯源的真伪验证服务。
从全网数据安全传输来看,由于教育学籍链的建设意义主要是形成真实、可信、防篡改、可溯源和可以多重验证的全生命周期的学籍验证网络,所以全网没有特殊需求可用明文存储,主要存储数据密文和HASH数据,结合参与单位和个人的分布式数字身份签名,保障学籍、考籍这类国家机密数据的安全性。
具体教育学籍链还具备以下特性和能力:
-
采用双层(省、国家)分布式共识协议整合分散的教育学籍数据中心,实现全国范围内数据一致性的学籍管理。
可采用PBFT拜占庭容错共识算法,在分散的学籍数据中心之间自动实现学籍同步数据的一致性,利用3f+1的容错特性,可实现f=( n-1)/3 的抗恶意攻击能力(f是恶意造假节点、n是总节点数), PBFT实用拜占庭容错共识算法是目前在解决在不同行政管理实体之间搭建分布式的可信数据同步网络的高性能方案,目前根据实际性能测试,在10个节点内的数据同步性能可在1000 TPS以上,足以满足学籍数据的注册、状态更新、注销、验证、查询等日常业务需求。
同时充分利用教育部直属“全国中小学学籍管理数据中心”和全国高等学校学生信息咨询与就业指导中心下的“全国高等教育学籍学历信息平台”作为高可信的公证人跨链节点,在参与各省级教育学籍链数据同时,形成国家级数据中心共识网络,实现全国范围内的数据一致性同步。
-
采用有限同步和密文共享机制,充分保障学籍机密数据的安全。
个人学籍、考籍数据属于个人隐私和国家机密数据,无限制的在跨省节点或者不相干节点中全量同步,存在数据安全风险,也无业务必要性。充分考虑教育学籍的应用范围,采用类似R3 Corda的业务同步策略,既:在省级教育学籍链中全省学籍数据只在省级中小学学籍数据中心、省级考试招生数据中心、省级人社数据中心、国家级中小学学籍数据中心和全国高等教育学籍信息平台全量同步。如果出现学生跨省转校等业务时,才在相关省级教育学籍链之间同步数据。而在全国范围内只有国家级中小学学籍数据中心和全国高等教育学籍信息平台拥有完整的全国数据。有限的学籍数据同步策略有助于在数据安全性和数据完整性之间取得平衡。
另外,由于教育学籍链并不是代替现有的学籍信息管理系统、考试招生系统等业务支撑系统,而是在这些现有的分布式教育学籍数据中心之间建立具备分布式数据一致性的学籍验证网络,所以无特殊需求,节点并不存储明文数据,而是采用非对称加密数据和HASH数据实现学籍资料的前后历史一致性验证,通过密钥交换算法,在取得数据管理单位或学籍主体人的同意下可以解密数据。由于HASH验证数据的一致性并不需要明文,同时还可通过同态加密实现学籍档案密文多项式的验证,所以使安全数据传输成为可能。
-
采用区块链链式数据结构,实现全生命周期的学籍溯源和防篡改能力。
比特币网络通过链式区块数据结构存储,解决了在分布式开放环境下,在无中心化机构协调下数字资产的安全转移,而数字资产在历史区块的重复Hash计算和链接下保证了资产几乎不可篡改。同样在,学籍管理中,学籍具有在多行政实体之间,多阶段、多形式的转移和升级特性,例如:正常变动(升级、升学、毕业等)、学籍异动(转学、出境学习、休学、复学、留级、跳级、辍学、死亡等)。通过将这些学籍状态的变化当做分布式交易处理,利用类似比特币的区块链存储结构,实现教育学籍的变迁链式防篡改能力,并且建立具备数学自恰验证能力的学籍溯源模型,实现快速的历史溯源校验。目前基于比特币的链式存储结构是各类区块链技术的主流结构,已经通过比特币网络充分证明了其防篡改的安全性。
-
利用区块链交易全网历史溯源机制,实现学籍多重交叉验证能力。
由于比特币网络对于每次交易资产都采用基于UTXO的回溯性资产验证,避免了双重支付和伪造资产现象的出现。可以说在分布式交易环境下,没有历史回溯性交叉多重验证,无疑是在交易裸奔。而从上面我国教育学籍管理现状分析不难发现,从终身学习这个大尺度时间范围来看,教育学籍管理,本质上也是在不同的分布式行政主体之间实现学籍数据传递,如果只采用单验证模式,既:只对学籍上一个环节进行验证,无疑给造假之徒留下可乘之机。而采用类似UTXO的学籍溯源模型可在大尺度的学籍学历变化历程中,对每次学籍变化都采用全网学籍学历溯源验证,从入学到当前学籍状态做全量多重验证。同时由于在PBFT共识策略中,将随机选取区块打包验证节点,从而实现具备一定随机性的节点交叉验证。多重交叉验证溯源验证,将极大提高学籍造假成本,对学籍历史数据的造假将只存在理论可能性上。
-
利用区块链开放性的网络结构,将职业培训、技术认证等成人再教育的过程记录在链。
教育学籍链将采用基于非对称加密体系下的分布式数字身份认证网络,以开放式的网络结构接入高校、职业技术培训机构和专业技能认证机构等,这些教育机构将以区块链轻节点的形式接入网络,这些节点并不参与全网共识,只是向区块链网络密文提交自己学生的教育历程,同时验证学生教育学历学籍是否真实。由于轻节点不参与全网共识,所以可以支撑大量的社会教育培训机构,用人单位和人社机构参与其中,除了为学籍主体人提供“终身学习”的学习历程证明以外,还为教育机构、用人单位和人社部门提供低成本的安全学籍学历验证功能。在学籍主体人授权下可以获取明文学籍学历数据,为利用可信教育数据,活跃教育市场,提供基础环境保障。
总结与展望
本文是利用区块链技术特性,结合当前国家教育学籍学历管理现状,尝试的一种分布式融合解决方案的大胆设想。希望通过区块链分布式共识协议、区块数据链式存储结构、加密算法和网络开放的特性,整合目前相对独立的基础教育学籍管理、考籍管理、高等教育学籍管理、成人再教育机构和技能培训机构,形成“一人一生一号”的终身学习历程的记录证明,为人员教育、就业、评级、人力资源管理、社会福利保障等社会治理性需求,提供高可信的验证服务。
“山东学籍顶替”事件虽然目前还未完全彻查清楚,通过目前公布的部分案例处置结果可以看出,违法之徒是利用高校在考生考籍、学籍验证过程中的管理漏洞,通过篡改考籍、户籍资料达到“狸猫换太子”的目的,而高校只采用单验证手段,既:只人工验证电子调档记录、纸质档案和学生照片的一致性,完全靠人为管理很难从根本上杜绝此类事件的再次发生。可以相信这不是只有山东一省才有的现象,也不会是最后一例事件。“高考弊案”放在历朝历代都是大案,相关教育部门如何在此类弊案事件发生之后,重获公众对教育公正性的信任将是一个全新课题,本文可能是一种技术性解决方案。
原标题:从“山东学籍顶替” 事件看:分布式学籍一致性问题