1课程基本信息
大数据技术入门-
课程中文名称: 课程代码: 课程类别: 考核性质: 先修课程:
专业基础课 考试
Java语言 Hadoop+Spark
课程英文名称: 学时/学分: 课程性质:
Big Data Technology and
Practice
后续课程: 开课学期:
适用专业:
开课单位:
课程团队负责人:
2教学目标
成员:
2.1课程教学目标
教学目标1:掌握大数据的基本概念,
了解大数据技术发展历程、技术体系及应用领域。
教学目标2:理解大数据存储的基本原理,掌握大数据存储的基本技术,能够应用常用的大数据存储 系统进行数据存取及管理。
教学目标3:理解大数据处理的基本原理,掌握大数据处理的基本编程模型并能够进行初级实践。 教学目标4: 了解大数据技术的发展趋势,认识到大数据技术的发展及应用对社会发展的影响。 教学目标5:理解大数据应用需求及技术环境的多样性,认识到自我学习的必要性。
2.2课程教学目标与毕业要求的关系矩阵
课程教学目标与毕业要求的关系矩阵见表1。
表1课程教学目标与毕业要求的关系矩阵
业要求 毕业要求指标点6-2 了解计算机应用\\ 相关度 教学目 毕业要求指标点12-1 领域新知识、新 技术及发展趋势,能对于自我探索和学习的必要性有止确的 认够客观评价 计算机科学与技术的发展识,理解技术环境的多样化、技术应用 发展及应用 对社会、健康、安全、法律以和技术进步对于知识和能力的影响 和要求。 及 文化的影响。 目标1 • • 目标2 目标3 • • 目标4 目标5 • 注:•相关程度大;O表示有相关。
3课程基本内容和学时安排 3.1 教学单元1:大数据概述
教学单元1-1研究背景和意义 教学单元1-2数据定义及其技术持点
教学单元1-3大数据处理的主要技术特点与难点 教学单元1-4研究大数据的意义 重点:数据定义及其技术持点
难点:3大数据处理的主要技术特点与难点
3.2 教学单元2: Hadoop简介及安装部署
教学单元2-1 Hadoop简介及生态体系 教学单元2-1 Hadoop集群架构
教学单元2-1 Hadoop集群运行环境搭建 重点:Hadoop简介及生态体系 难点:Hadoop集群运行环境搭建
3. 3教学单元3: HDFS分布式文件系统
教学单元3-1相关基本概念 教学单元3-2 HDFS存储架构 教学单元3-3 HDFS的特点 教学单元3-4 HDFS常用Shell命令 教学单元3-5 HDFS的Java API 重点:HDFS存储架构
难点:HDFS 常用 Shell 命令、HDFS 的 Java API
3. 4教学单元4: MapReduce计算框架
教学单元4-1 MapReduce核心思想 教学单元4-2 MapReduce的工作原理 教学单元4-3 M叩Reduce的运行机制 教学单元4-4 MapReduce数据本地化 教学单元4-5 MapReduce编程 教学单元4-6 MapReduce编程示例 重点:MapReduce核心思想
难点:MapReduce的工作原理、运行机制
3. 5教学单元5: Hive数据仓库
教学单元5-1 Hive概述
教学单元5-2 Hive安装
教学单元5-3 Hive数据库相关操作
重点:Hive安装
难点:Hive数据库相关操作
3. 6教学单元6: HBase分布式数据库
教学单元5-1 HBase的概述 教学单元5-2 HBase安装 教学单元5-3 HBase数据模型 教学单元5-4 HBase的Shell操作
教学单元5-5 Hbase常用Java API及示例程序 重点:HBase安装 难点:HBase的Shell操作
3. 7教学单元7: Spark基础
教学单元7-1 Spark概述 教学单元7-2 Spark的安装
教学单元7-3 Spark运行架构与原理 教学单元7-4 Spark运行基本流程 重点:Spark运行架构与原理 难点:Spark运行基本流程
3.8教学单元8: Spark RDD弹性分布式数据集
教学单元8-1 RDD的设计与运行原理 教学单元8-2 RDD创建 教学单元8-3 RDD操作
教学单元8-4程序示例:倒排索引 重点:RDD的设计与运行原理 难点:RDD操作
4. 9 教学单元9: spark SQL
教学单元9-1 spark SQL概述 教学单元9-2 DataFrame 教学单元9-3 Dataset 教学单元9-4 Spark SQL编程 重点:DataFrame 难点:Spark SQL编程
5. 10教学单元10: Spark Streaming实时计算框架
教学单元10-1 Spark Streaming概述 教学单元10-2 DStream编程模型 教学单元10-3 DStream编程模型示例 重点:DStream编程模型
难点:DStream编程模型示例
6. 11 教学单元11: Spark Streaming与Flume、Kafka的整合
教学单元11-1 Flume简介及安装 教学单元11-2 kafka简介及其安装 教学单元11-3 Flume> Kafka区别和侧重点
教学单元11-4 Spark Streaming与Flume> Kafka整合与开发 重点:Flume、Kafka区别和侧重点
难点:Spark Streaming 与 Flume> Kafka 整合与开发
3. 12教学单元12: Spark MLlib机器学习
教学单元12-1机器学习概念 教学单元12-2 MLlib的简介 教学单元12-3 SparkMLlib数据类型 教学单元12-4 SparkMLlib机器学习示例 重点:SparkMLlib数据类型 难点:SparkMLlib机器学习示例
3.13实战案例-分布式优惠券后台应用系统
教学单元13-1系统简介 教学单元13-1系统整体架构 教学单元13-1表结构设计 教学单元13-1系统实现 教学单元13-1系统运行测试 重点:系统整体架构 难点:系统实现、运行测试
4学时分配 4.1
学时分配
本课程共学时,其中课堂讲授38学时,上机实验26学时,具体的学时分配见表2。
表2课程学时分配表
课堂教学 教学内容 学时 讲授 自主学习 学时 资料 作业 实验 报告 收集 教学单元1 教学单元2 教学单元3 教学单元4 教学单元5 教学单元6 教学单元7 2 4 6 6 4 6 4 2 2 4 4 2 4 2 2 2 2 2 2 2 1 1.5 1 0.5 1 1 1 1 1.5 1 0.5 1 1 1 教学单元8
6 4 2 1.5 0.5 1 教学单元9 教学单元10 教学单元11 教学单元12 教学单元13 学时合计
4 8 4 6 4 2 4 2 4 2 38 2 4 2 2 2 26 1.5 0.5 1 1 1 1 1 1 1 1 14 2 1 12 4.2 实践性教学内容
课内实验内容及要求见表3。
表3课内实验内容及要求
序号 项目编号 项目名称 实验类型 学时 实验内容及基本要求 1、米用虚拟机或双系统方式女装Linux 后安装Hadoop,测试是否安装成功; 2、进行伪分布式配置,运行相同测试 程序,比较单机环境与伪分布式环境的 差异,认识分布式环境; 3、练习常用的Linux操作,练习常用的 Hadoop操作,了解Hadoop处理架构的 基本构成。 1、利用Hadoop提供的Shell命令完成 文件下载、文件输出、追加文件内容等 一些列指定任务,掌握分布式文件系统 HDFS的基本存取方法; 2、利用HDFS提供Java API编程实现 文件的读取与管理 1、编程实现文件合并和去重操作:对 于两个输入文件,即文件A和文件B, 编写M叩Reduce程序,对两个文件进行 合并,并剔除其中重复的内容,得到一 个新的输出文件C。 2、编写程序实现对输入文件的排序: 现在有多个输入文件,每个文件中的每 行内容均为一个整数。要求读取所有文 件中的整数,进行升序排序后,输出到 一个新的文件中,输出的数据格式为每 行两个整数,第一个数字为第二个整数 的排序位次,第二个整数为原待排列的 整数。 Hive安装及建表,查询,导入数据等操 作 1、安装Hbase并完成配置; 2、用Hadoop提供的HBase Shell命令 完成数据管理任务: 3、使用Hbase提供的Java API完成一 系列指定编程任务,实现应用程序对数 据的管理及存取。 Spark的安装 1 XM07YZ001 熟悉常用的Linux操作和 Hadoop操作 验证 2 2 XM07ZH002 熟悉常用的HDFS操作 综合性 2 3 XM07ZH003 MapReduce编程初级实践 综合性 2 4 XM07Z11004 Hive的安装及操作 验证 2 5 XM07ZH005 熟悉常用的HBase操作 综合性 2 6 XM07ZH006 Spark的安装 验证 2 7 8 9 10 11 12
Spark RDD弹性分布式数 据XM07ZH007 集API操作 XM07ZH008 XM07ZH009 Spark SQL 编程 DStream编程示例 综合性 综合性 综合性 综合性 综合性 综合性 2 2 4 2 2 2 利用Spark RDD实现倒排索引 DataFrame 操作、Spark SQL 读写 MySQL 数据库、Spark SQL 读写 Hive DStream编程基本步骤-文件流、无状态 转换操作、有状态转换操作、输出操作 Spark Streaming 与 Flume、Kafka 的整 合步骤及开发 特征抽取—TF-IDF,分类与回归—线 性回归、分类与回归一逻辑回归 商户投放子系统、用户消费子系统及系 统测试 XM07ZH010 Spark Streaming 与 Flume> Kafka 的整合 XM07ZH011 SparkMLlib机器学习 XM07ZH012 综合案例-分布式优惠券 后台应用系统 5教学方式方法 5.1教学方法
本课程是一门学时的专业必修课,课堂教学38学时,上机实验26学时。根据课程目标,设计课程教 学方法如下:
1、课堂讲授:以问题导入的方式,通过介绍当前应用环境的变化和需求引入大数据技术,概括介绍 大数据知
识体系,使学生对课程有一个初步的认识,进而详细介绍大数据存储和大数据处理两大核心技术。 采用多媒体与板书相结合的方式进行讲授,对于各章节的重点及难点,基于案例进行详细讲解,帮助学生 理解和掌握。每次开始授课之前,以提问的方式,帮助学生回顾课程内容、抓住知识重点。每章结束进行 章节总结,帮助学生梳理知识体系。授课过程中,以启发学生思维为核心,注重师生互动,调动学生的学 习主动性和积极性。
2、课内实验:采用课内实验辅助学生理解和掌握大数据技术的原理及应用方法,实验内容主要围绕 大数据存
储及大数据处理两大核心技术。实验指导书在每次实验之前提前发布,以便学生预习。实验课上 由教师布置实验任务并进行简单讲解,不宜讲解过细,应注重培养学生自我探索的能力。学生针对实验问 题进行分析、设计并完成上机实验、撰写实验报告。实验报告中除记录实验过程外,还要记录实验中遇到 的问题、解决办法,以及实验心得,以促进学生的思考与总结。
3、自主学习:为了充分调动学生的学习主动性和积极性,除课堂教学及实验教学外,加入11学时的 自主学习,
通过作业帮助学生理解并掌握各章节的重点内容;通过报告中的案例调研分析及课程总结展望, 培养自主学习和终身学习的意识,以及客观评价大数据技术的能力。
5. 2教学手段及措施
采取课堂讲授、实验、应用实例讲解等形式,结合课后自学进行教学。采用电子教案和板书相结合的 方式,提高讲课效果。在教学过程中,教师应对大数据的基本概念、技术体系、基本存储原理以及基本计 算模型进行详细讲解,并指出各教学内容的重点和难点部分。讲授中应以学生为中心,注重理论联系实际, 以及先进教学方法的使用C
6考核方式 6.1
考核方式说明
采用平时、实验,作业相结合的考核方式,注重实践环节的考核。各部分所占比重如下:
课堂出勤表现10% 平时作业成绩10% 实验报告成绩20% 期末考试成绩60%
6.2
考核权重分配
建议考核权重分配按表4进行,并可根据情况适当调整权重。
表4考核权重分配表
考核方式 平时表现 重 教学内容 教学单元1 教学单元2 教学单元3 教学单元4 教学单元5 教学单元6 教学单元7 教学单元8 教学单元9 教学单元10 教学单元11 教学单元12 教学单元13 10% 课后作业 10% 课内实验 20% 期末考试 备注 60% V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V J V V V V V V V V
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务