大家都在探索大数据。其实有时候很复杂,有时候没那么复杂。举个很简单的例子,比如教育大数据,留守儿童,我们现在有全国中小学非常准确的学习信息。比如我们有公安部各地暂住证信息,劳动部人事就业信息,卫生计生委人口信息,基本就能判断哪些学生是留守儿童。
你父母在广东工作,你孩子在贵州上学,都是留守儿童。这是基本减法。我们知道他父母的信息和孩子的信息,所以这是一个典型的跨境大数据应用。
曾德华教育部教育管理信息中心副主任
许多大数据应用程序是非结构化的,并且更加复杂。在这里,我将着重从教育管理信息中心的角度,探讨如何在国家层面推进大数据的数据体系建设。如果没有数据,大数据就是空。我分三个层次给你介绍。前两个侧重于数据系统,下一个侧重于应用哪些字段。
先说数据。大数据一般分为几个系统。我来说说我们国家层面的基础数据体系。虽然大数据的部分数据来源于网上注册信息和网络访问信息,但基础数据信息是基本框架。没有这一块,大数据很难相对细化和准确应用。
教育的基础数据可以分为四个方面,一是教育的统计数据。我们整理了1949年到2016年的数据,特别是近十年来,教育的基础统计已经逐渐准确。我们得到每个办学单位,也就是教育机构的准确数据。本来是按区县统计的,现在基本准确到每所学校,教师人数,男女生比例等。
各地有3700个指标,都是具体值。然后是教育经费的统计,包括财政预算和季度、月度、年度报告,尤其是专项经费的统计非常准确。然后就是高等教育,比如实验室资料之类的。
第二块是基础数据。基础数据是最基础、最核心的数据。我们现在不是很全面。目前明确的是教育机构的数据,比如30多万幼儿园,全国20多万中小学等。这些基础数据都在我们的平台上。每所学校的基本状态,如办学性质、公立还是私立、地处贫困地区还是城乡结合部等,形成了一校一院(含地理信息)全覆盖。
然后就是学生信息。大概有3100万,统计4000多万,具体到每个学生的个人信息。小学初中高中有2.2亿学生,每个学生都有个人信息,非常具体。像中等职业学校的学生信息,在校学生1000多万,高等教育3200万,而成人教育的信息相对缺乏。除了学生个人信息,家庭信息,学籍信息,还有一些业务信息。教师信息,包括中小学、中专、普通高等院校所有学生的具体信息,有200多项指标。我只能打发时间关系。
其次,教育资源的信息化。我理解所有与教育相关的资源信息都是统计的,比如教室,中小学2200万的建筑,设备信息,比如学校的重要设备和实验室,其他书籍,体育场馆等。,都是教育资源信息,这一块空比较短。
第四块是业务数据。教学过程的数据有一些具体的信息,比如财务和财务信息,贵州和华中师范大学都做过。我们的具体点是资金信息,基本涵盖了全部。还有学生流动、省内流动、全国流动、跨省流动、学生辍学情况等等。
主要问题是什么?现在有些数据失真了。比如历史上的一些统计信息与个人信息、基础信息不同,存在一些失真;另外,数据覆盖不全。比如学籍数据一年产生1.6亿,但不全覆盖大、中、小学,短缺1.2亿。还有一些信息丢失。这些基础数据是大数据的结构化数据,结构化信息在大数据应用中非常重要。
2015年我们参观国家大数据中心的时候,他们做了很多大数据应用。其中有一个很大的应用与教育。2015年,国家发改委获得了高校就业学生的信息,然后有针对性地进行了分析。他们的结果非常粗略。与2015年的求职相比,2015年大学生的平均求职量增加了154%,表明学生就业非常困难。
然后南部地区就业平均增长170%,所以存在地区差异。然而,一些更精细的信息和结构化的信息没有被使用。如果有一些学生的IP地址,可以准确到哪个学校,哪个专业。众所周知,在互联网上搜索时,每一条信息都会被记录下来。如果我们知道每个学校的IP地址,那么我们都知道所有大学的IP地址。华中师范大学有多少个IP地址?这是一个非常固定的值。知道IP地址就知道北大清华之类的搜索状态。它有一个精确的区域,精确到每个大学,每个人。可以分析哪些专业不好找,哪些专业相对好找。因此,结构化基础数据是大数据应用非常重要的支撑。
第二个问题,大家都在说大数据的应用。如何建立国家级的数据资源体系?如果没有数据资源系统,大数据就是一个字空。在国家层面,应建立国家教育大数据资源系统。有六个问题。第一个问题是开发教育大数据的资源系统。我们最初假设,关于教育大数据和基础数据需要什么,至少有四个方面。第一个是基础数据,就是刚刚介绍的数据,需要在此基础上进行扩展和完善。哪些基础数据和结构化数据是我们最基础的数据?如果需要一些数据,应该通过国家教育管理信息系统收集。
第二个是教育行业的数据。从教育部来说,国家大数据资源中心不会管区县,但是我们需要做相关的资源目录,哪些学校应该有什么数据,我们需要用它们来做以后的收集、收集和分析。比如我们要监控全国学生质量体系,可能需要全国中考的数据。中央要收集全国中考的数据,但要对整个全国中考进行评估验证,就要收集。这个系统非常详细具体。今后,我们将逐步与区、县和中等职业学校一起制定这些制度。
三是国家相关部门的资源共享目录。国家办公厅下发了《教育资源共享目录》文件,政府部门的教育信息要与资源共享,向社会开放。哪些信息可以打开,哪些可以在一定条件下共享,未来大数据分析可以共享和使用大量数据。
第四是与社会教育相关的资源目录。比如教育类网站,比如腾讯、阿里巴巴,都有一些信息,至少可以先做一个资源目录。他们有一些信息可以向社会公开提供服务。比如导航,三大运营商都提供手机信息做的logo。现在不管政府部门,企业互联网公司都提供一些资源和服务。
这是资源目录。需要从国家层面梳理资源目录,未来会用到哪些数据。
二是标准体系制定和数据治理框架。有些数据已经是国家标准,或者有些数据已经成为事实上的标准,但是其他的数据,比如学生访问网站的日均数据,并没有标准化。企业、学校、教育部都有自己的标准。我们应该共同努力制定标准。当我们需要收集它们时,我们可以取样并转移它们。
此外,除了标准体系外,还要进行数据治理的框架,如开放信息的标准规范、数据应用的管理方法、开放平台的管理和治理等。这些是收集数据、管理数据和使用数据的一些基本规则。
此外,教育部还可能与一些组织合作,构建大数据技术环境和工具。如计算与存储、数据管理、建模工具、可视化工具等。
以上都是为数据服务的,教育部会形成大数据平台。除了基础数据、管理数据、教学数据等业务数据,还有国家共享的数据、社会专业数据、互联网数据。什么数据可以共享就会形成一个系统。未来,这些数据不仅将被教育部和部长们用于决策,还将与大学、地方教育部门和学校机构共享,为地方大数据提供横向分析和应用支持。
第五个方面是建立教育大数据专业机构、专业团队和合作伙伴。大数据真的很难。从信息中心的角度来说,更重要的是提供一个技术环节和大数据环境,为大家提供服务。要真正做到这一点,我们需要专业机构的支持和服务。比如教育模式的研究,可能是很多大学和科研机构为各级政府部门提供的。专业机构和专家团队合作伙伴方面,包括专业科研机构、学校、企业、第三方互联网公司。最后,教育大数据利用和培训。概念很热,但是真正能解释清楚的人很少。懂大数据的政府管理者真的很少。很多思想宣传和技术培训都是靠这个体系。
最后,我们来谈谈推动大数据在教育中应用的重点领域。至少在2017年,有几个关键领域,包括教育准则的评估和监测以及教育政策的评估。
近期想探索几个方面:第一,贵阳有很好的利用大数据提高教育质量的基础。我觉得其他地方可能会有案例,我们会收集一些好案例给大家交流。然后,我们应该在宏观层面上评估和监测教育质量。
然后就是就业和招生。我只是举了个例子。为什么以此为例?有两个因素:大学生就业本身就是一个政治问题。每年约有一百万大学毕业生,中国每年约有一千六百万人出生,占总就业人口的50%。因此,这些学生不就业是社会稳定的一个非常重要的问题。大数据在这方面可以做很多具体的工作。
还有一个因素就是高校的招生计划。目前,高校的招生计划虽然学校有很大的自主权,但是根据学生的就业情况制定的。这方面怎么调整很重要。据我们统计,发改委做的就业形势预测和经济形势预测,大概是两到三个月。第三个方面是从一个企业整理一些数据。
最后是教育管理和教育治理。记得90年代中央查数据要做报告,我们花了一个星期从基层上传。所有的决定都是基于数字,包括政策评估、通过互联网的评估和反馈,以及来自每个人的反馈。也就是说,教育治理还有很多工作要做。
内容是从贵阳的直播组织的。com。
稿件来源:贵阳市教育局
页面编辑:/负责编辑:崔
1.《曾德华 曾德华:公共服务平台建设数据如何支持地方服务》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《曾德华 曾德华:公共服务平台建设数据如何支持地方服务》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/fangchan/1473465.html