"> 决策树与学生成绩管理系统论文 - 历史学论文范文 - 400期刊网专业论文投稿机构

决策树与学生成绩管理系统论文

时间:2017-01-23 15:00:03 来源:论文投稿

1数据准备

学生的基本情况,包括学号、姓名、性别、专业等,可从教务处获得学生的学习情况,包括基础知识掌握程度、上机时间等,可设计一张调查表对学生进行问卷调查获得学生的成绩情况,包括学号、姓名、性别、专业、课程名称、成绩等,可从教务处获得。

2数据预处理

此过程一般要经过数据集成、清理、转换、归约这四个步骤。为了建立决策树模型,本例中选择性别、基础知识掌握程度、上机时间这三个与成绩相关性较大的属性作为建立决策树模型的依据。本例中收集了2011级电子信息工程专业的320条学生成绩信息来建立决策树模型,其中三分之二数据作为训练集,三分之一数据作为测试集。其中,基础知识掌握程度分为:不好、一般、好;一周上机时间经过离散化处理后分为:少于2小时为<2,2到4小时位2—4,多于4小时为>4;分类属性为:成绩<60的为不及格,成绩60—80的为良好,成绩>80的为优秀。

3构建决策树的计算过程

以学生成绩的不及格、良好以及优秀为例说明构造决策树的计算过程:首先,计算成绩为不及格、良好、优秀的分类所需的信息熵的值为1.1101582067719973。然后以“基础知识掌握程度”决策属性为例,按照以上公式可计算它为“好、一般、不好”这三个类别时的信息熵分别为:0.11023523512325469、3342393443232003、0.26626684897980446。按照属性基础知识掌握程度划分S后样本子集的信息熵为0.7107414284262594。信息增益值Gain(基础知识掌握程度)的值为0.39941677834573786。分裂信息SplitE(基础知识掌握程度)的值为1.2686583529964333。则基础知识掌握程度属性列的信息增益率的值为0.31483399561620257。同理,可得出决策属性为上机时间信息增益率和性别的信息增益率分别为0.38135113259381354、0.016149189936541544。通过比较,我们可以发现信息增益率最大的是“上机时间”决策属性,所以我们应该把“上机时间”决策属性作为根节点,按照以上计算方法,依据比较信息增益率的大小,再对每个分支的节点属性进行确定。

4决策树规则提取

由以上计算过程,我们可以得到一个完整的决策树,但为了消除噪声数据和异常点,我们对决策树采取剪枝策略。剪枝后生成的决策树可以直接从中提取决策规则。

5总结

通过对模型的测试,我们发现学生成绩绝大多数情况与实际情况是相符合的,并且准确率超过了预定的阂值,因此,该决策树模型能够满足用户的需求。C4.5算法是一个十分经典的决策树算法,虽然属性信息增益率计算量大,花的时间多,但产生的分类规则易于理解,准确率高,并在系统应用中取得了良好的效果,为下一步教学工作提供有力的指导,从而提高教学质量。

作者:王芷若 胡云琴 单位:公安海警学院


更多历史学论文详细信息: 决策树与学生成绩管理系统论文 论文代写
http://m.400qikan.com/lw-110856 论文代发

相关专题:企业会计准则第21号 医院会计制度

相关论文
相关学术期刊
《热电技术》 《浙江农林大学学报》 《文科爱好者》 《中国耳鼻咽喉头颈外科》 《四川党史》 《中国与世界经济》 《水泥工程》 《火柴工业》 《茶.健康天地》 《四川预算与会计》

< 返回首页