智慧教学:教师与家长、管理者共同设计课程,学生对学习内容、方式(小组学习、自主学习)、测试形式、学习进度、学习路径、评价进行选择,课程符合个体需求,适应个性化发展。课堂中,教学内容并不是一成不变的,教师要随着时代发展,更改教学内容、测试内容,课程内容也可以由学生讨论生成的,让学生从内容的消费者变为创造者。学习资源自适应,全面支持移动泛在学习,既服务于在校学生,又支持社会学习者,支持学分银行。借助网络平台,充分表现社会性、实践性、现实性;采用视真手段,基于真实的课堂、场景、活动、竞赛,将教育与社会实践以新的形式相结合。全面支持学习者的研究和创造。 评价: 课堂中,通过智慧教室的摄像设备,录制课堂学生的状态,针对视频,用滞后序列分析,分析学生的行为,进行过程性评价。通过学生使用的点阵笔和纸,记录学生思考和学习的过程,进行数据分析评价。在平台中,通过学生访问各个模块的数据,依据学生的认知风格的不同,进行个性化评价,过程性评价与总结性评价相结合。
2、回归
定义:
回归是研究一个因变量与一组自变量之间的关系。即用一个或多个预测变量(自变量或解释变量)预测响应变量(因变量)的方法。回归分析可以生成一个等式,通过解释变量来预刚响应变量。
思想:
根据自变量的值预测因变量的均值
回归诊断:
线性:拟合值与残差图,分布在y=0的上下,对称分布,比较好
正态性:如果满足正态假设,那么图上的点应该落在呈45度的直线上,否则违反正态分布。
同方差性:在水平线上随机分布,则满足同方差性
残差与杠杆图:寻找以下三种类型点 离群点:y轴距离较远的点 杠杆点:x轴距离较远的点
强影响点:去掉之后系数变动很大的点 异常点的改进办法: 删除观测点 变量变换
添加或删除变量 使用其他回归方法 回归数据分析
Residuals (残差)对残差求一下最大值和最小值 Coefficients 系数 Intercept 截距
RunSize 斜率
看一下p值(图中pr的值)有三个*,代表显著(比较好) Residual standard 标准差(越小越好)(自由度,样本数-参数 = 自由度) Multiple R-squared 代表R平方(越趋向于1越好) Adjusted R-squared 调整的R平方值(考虑自由度) F-statistic (F检验)对整个式子进行检验 p-value: 1.615e-06 小于0.05代表显著 T检验用来检验各个参数的显著性 F检验用来检验整个回归关系的显著性
拟合残差图是抛物线形状,那么需要二次项
在p<0.001水平下,回归系数都非常显著。模型的方差结实率已经增加到了99.9%。二次项的显著性(t=13., p<0.001)表明包含二次项提高了模型的拟合度。
逻辑斯蒂回归
Y=1就是这个式子,y=0是1减去这个式子
这个式子计算Y取1的概率,式子结果>0.5取1,反之,取0 训练集,训练一个模型 测试集,测试训练集的模型 glm()广义线性模型
model <- glm(formula = churn ~ ., data =train, family = 'binomial') summary(model)
因变量churn,自变量 . ,表示所有自变量
3、聚类 思想:
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。 聚类分析的目标就是在相似的基础上收集数据来分类。 流程:
数据要满足:高类聚,低耦合 欧拉距离(两点之间) 曼哈顿距离(每一维度) 明考斯基距离 划分聚类:
聚类算法 k-means 不存在三个中心点
选距离作为数据样本间相似性度量 选择评价聚类性能的准则函数 组间聚类越大,聚类越好 K-中心点聚类 存在的三个中心点
层次聚类
group_k3=cutree(fit_hc,k=3) 分成3类
str(as.dendrogram(fit_hc)) 文本的形式打印这棵树
sapply(unique(group_k3),function(g)countries$country[group_k3==g]) 查看k=3的聚类结果中各类别样本
4、关联规则 思想:
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。 流程:
关联规则可以用两个指标来判定:支持度与可信度 支持度:X商品交易量/总的交易量
可信度:同时包含X、Y的交易量/包含X的交易量 提升度:XY可信度/Y支持度(>1比较好)
只有支持度和可信度较高的关联规则才是用户感兴趣的。 关联规则挖掘主要有两个问题:
1. 找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集。(支持度不小
于最小支持阈值的项集称为频繁集)
2. 利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度筛选出强关联规
则。
关联规则的操作过程:
先计算出支持度与可信度,然后运用apriori函数 apriori关联算法函数调用 groceryrules = apriori(groceries, parameter=list(support=0.006, confidence = 0.25, minlen = 2)) 可视化显示 5、分类 思想:
决策树顾名思义就是以建立一个树形结构模型,通过一系列规则对数据进行分类的过程。决策树采用递归分类的方式,一步步的把数据分成子集(divide and conquer)。从根节点开始,算法会选择一个最能预测目标类的属性来把数据分成多个子集,由此形成了几个树的分支,接下来算法再对每个分支进行递归处理,继续选择最适合的属性来进行分类,直到满足: + 剩下的样本都是同一类或者 + 没有备选属性了
+ 树已经达到了预先定义的大小
6、主成分因子分析 主成分(数据降维):主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。 因子分析(发现潜在结构):因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。
主要分析步骤: (1) 数据预处理。
(2) 选择因子模型。
(3) 判断要选择的主成分/因子数目。 (4) 选择主成分/因子。
(5) 旋转主成分/因子。
主成分旋转:正交旋转(使选择的成分保持不相关)与斜交旋转(使选择的成分变得相关)
(6) 解释结果。
(7) 计算主成分或因子得分。
PCA中需要多少个主成分
根据先验经验和理论知识判断主成分数;
根据要解释变量方差的积累值的阈值来判断需要的主成分数; 通过检查变量间k × k的相关系数矩阵来判断保留的主成分数。
Cattell碎石检验则绘制了特征值与主成分数的图形。
这类图形可以清晰地展示图形弯曲状况,在图形变化最大处之上的主成分都可保留。最后,你还可以进行模拟,依据与初始矩阵相同大小的随机数据矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值,那么该主成分可以保留。
代码生成图形见图14-2,展示了基于观测特征值的碎石检验(由线段和x符号组成) 、根据100个随机数据矩阵推导出来的特征值均值(虚线),以及大于1的特征值准则(y=1的水平线)。
之前已经介绍过, principal()函数可以根据原始数据矩阵或者相关系数矩阵做主成分分 析。格式为: 其中:
r是相关系数矩阵或原始数据矩阵; nfactors设定主成分数(默认为1);
rotate指定旋转的方法[默认最大方差旋转(varimax),见14.2.3节]。 scores设定是否需要计算主成分得分(默认不需要)。
1、 选主成分数目
有几个差代表几个特征值
红色虚线代表随机矩组的平均值 红线,代表特征值为1的
2、 提取主成分 principal()函数可根据原始数据矩阵或相关系数矩阵做主成分分析 u2 = 1 – h2 SS loadings行包含了主成分相关联的特征值,指的是与特定主成分相关联的标准化后的方差值。 Proportion Var 0.92 Proportin Var行表示的是每个主成分对整个数据集的解释程度。
3、 主成分旋转
方差极大旋转
4、 获取主成分得分
利用principal()函数,很容易获得每个调查对象在该主成分上的得分。 5、
探索性因子分析
大于0的参数 公共因子2个
正交旋转法 因子之间 斜交旋转法 因子之间有关系 7、教育数据挖掘流程 数据采集 聚类、回归、 课前学习活动 讨论互动 数据清洗 分类、关联规 测试 数据转化 则、主成分因 教师评价 混合存储系统 子分析……. 数据获取 数据处理 数据分析 可视化数据 教师 诊断性评价 干预 学生 教师 过程性评价 终结性评价 数据与教学评价结合
8、教育数据挖掘
教育数据挖掘致力于开发出一系列数据挖掘方法,将这些方法运用于挖掘来自教育系统的独特数据,能够更好地理解学生及其所在的教育系统。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务