您的当前位置：首页大数据技术入门——Hadoop+Spark教学大纲

大数据技术入门——Hadoop+Spark教学大纲

来源：意榕旅游网

大数据技术入门 --- Hadoop+Spark教学大纲

1课程基本信息

大数据技术入门-

课程中文名称：课程代码：课程类别：考核性质：先修课程：

专业基础课考试

Java语言 Hadoop+Spark

课程英文名称: 学时/学分: 课程性质：

Big Data Technology and

Practice

后续课程: 开课学期:

适用专业：

开课单位：

课程团队负责人：

2教学目标

成员:

2.1课程教学目标

教学目标1：掌握大数据的基本概念,

了解大数据技术发展历程、技术体系及应用领域。

教学目标2：理解大数据存储的基本原理，掌握大数据存储的基本技术，能够应用常用的大数据存储系统进行数据存取及管理。

教学目标3：理解大数据处理的基本原理，掌握大数据处理的基本编程模型并能够进行初级实践。教学目标4：了解大数据技术的发展趋势，认识到大数据技术的发展及应用对社会发展的影响。教学目标5：理解大数据应用需求及技术环境的多样性，认识到自我学习的必要性。

2.2课程教学目标与毕业要求的关系矩阵

课程教学目标与毕业要求的关系矩阵见表1。

表1课程教学目标与毕业要求的关系矩阵

业要求毕业要求指标点6-2 了解计算机应用\\ 相关度教学目毕业要求指标点12-1 领域新知识、新技术及发展趋势，能对于自我探索和学习的必要性有止确的认够客观评价计算机科学与技术的发展识，理解技术环境的多样化、技术应用发展及应用对社会、健康、安全、法律以和技术进步对于知识和能力的影响和要求。及文化的影响。目标1 • • 目标2 目标3 • • 目标4 目标5 • 注：•相关程度大；O表示有相关。

3课程基本内容和学时安排 3.1 教学单元1：大数据概述

教学单元1-1研究背景和意义教学单元1-2数据定义及其技术持点

教学单元1-3大数据处理的主要技术特点与难点教学单元1-4研究大数据的意义重点：数据定义及其技术持点

难点：3大数据处理的主要技术特点与难点

3.2 教学单元2： Hadoop简介及安装部署

教学单元2-1 Hadoop简介及生态体系教学单元2-1 Hadoop集群架构

教学单元2-1 Hadoop集群运行环境搭建重点：Hadoop简介及生态体系难点：Hadoop集群运行环境搭建

3. 3教学单元3： HDFS分布式文件系统

教学单元3-1相关基本概念教学单元3-2 HDFS存储架构教学单元3-3 HDFS的特点教学单元3-4 HDFS常用Shell命令教学单元3-5 HDFS的Java API 重点：HDFS存储架构

难点：HDFS 常用 Shell 命令、HDFS 的 Java API

3. 4教学单元4： MapReduce计算框架

教学单元4-1 MapReduce核心思想教学单元4-2 MapReduce的工作原理教学单元4-3 M叩Reduce的运行机制教学单元4-4 MapReduce数据本地化教学单元4-5 MapReduce编程教学单元4-6 MapReduce编程示例重点：MapReduce核心思想

难点：MapReduce的工作原理、运行机制

3. 5教学单元5： Hive数据仓库

教学单元5-1 Hive概述

教学单元5-2 Hive安装

教学单元5-3 Hive数据库相关操作

重点：Hive安装

难点：Hive数据库相关操作

3. 6教学单元6： HBase分布式数据库

教学单元5-1 HBase的概述教学单元5-2 HBase安装教学单元5-3 HBase数据模型教学单元5-4 HBase的Shell操作

教学单元5-5 Hbase常用Java API及示例程序重点：HBase安装难点：HBase的Shell操作

3. 7教学单元7： Spark基础

教学单元7-1 Spark概述教学单元7-2 Spark的安装

教学单元7-3 Spark运行架构与原理教学单元7-4 Spark运行基本流程重点：Spark运行架构与原理难点：Spark运行基本流程

3.8教学单元8： Spark RDD弹性分布式数据集

教学单元8-1 RDD的设计与运行原理教学单元8-2 RDD创建教学单元8-3 RDD操作

教学单元8-4程序示例：倒排索引重点：RDD的设计与运行原理难点：RDD操作

4. 9 教学单元9： spark SQL

教学单元9-1 spark SQL概述教学单元9-2 DataFrame 教学单元9-3 Dataset 教学单元9-4 Spark SQL编程重点：DataFrame 难点：Spark SQL编程

5. 10教学单元10： Spark Streaming实时计算框架

教学单元10-1 Spark Streaming概述教学单元10-2 DStream编程模型教学单元10-3 DStream编程模型示例重点：DStream编程模型

难点：DStream编程模型示例

6. 11 教学单元11： Spark Streaming与Flume、Kafka的整合

教学单元11-1 Flume简介及安装教学单元11-2 kafka简介及其安装教学单元11-3 Flume> Kafka区别和侧重点

教学单元11-4 Spark Streaming与Flume> Kafka整合与开发重点：Flume、Kafka区别和侧重点

难点：Spark Streaming 与 Flume> Kafka 整合与开发

3. 12教学单元12： Spark MLlib机器学习

教学单元12-1机器学习概念教学单元12-2 MLlib的简介教学单元12-3 SparkMLlib数据类型教学单元12-4 SparkMLlib机器学习示例重点：SparkMLlib数据类型难点：SparkMLlib机器学习示例

3.13实战案例-分布式优惠券后台应用系统

教学单元13-1系统简介教学单元13-1系统整体架构教学单元13-1表结构设计教学单元13-1系统实现教学单元13-1系统运行测试重点：系统整体架构难点：系统实现、运行测试

4学时分配 4.1

学时分配

本课程共学时，其中课堂讲授38学时，上机实验26学时，具体的学时分配见表2。

表2课程学时分配表

课堂教学教学内容学时讲授自主学习学时资料作业实验报告收集教学单元1 教学单元2 教学单元3 教学单元4 教学单元5 教学单元6 教学单元7 2 4 6 6 4 6 4 2 2 4 4 2 4 2 2 2 2 2 2 2 1 1.5 1 0.5 1 1 1 1 1.5 1 0.5 1 1 1 教学单元8

6 4 2 1.5 0.5 1 教学单元9 教学单元10 教学单元11 教学单元12 教学单元13 学时合计

4 8 4 6 4 2 4 2 4 2 38 2 4 2 2 2 26 1.5 0.5 1 1 1 1 1 1 1 1 14 2 1 12 4.2 实践性教学内容

课内实验内容及要求见表3。

表3课内实验内容及要求

序号项目编号项目名称实验类型学时实验内容及基本要求 1、米用虚拟机或双系统方式女装Linux 后安装Hadoop,测试是否安装成功； 2、进行伪分布式配置，运行相同测试程序，比较单机环境与伪分布式环境的差异，认识分布式环境； 3、练习常用的Linux操作，练习常用的 Hadoop操作，了解Hadoop处理架构的基本构成。 1、利用Hadoop提供的Shell命令完成文件下载、文件输出、追加文件内容等一些列指定任务，掌握分布式文件系统 HDFS的基本存取方法； 2、利用HDFS提供Java API编程实现文件的读取与管理 1、编程实现文件合并和去重操作：对于两个输入文件，即文件A和文件B, 编写M叩Reduce程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新的输出文件C。 2、编写程序实现对输入文件的排序：现在有多个输入文件，每个文件中的每行内容均为一个整数。要求读取所有文件中的整数，进行升序排序后，输出到一个新的文件中，输出的数据格式为每行两个整数，第一个数字为第二个整数的排序位次，第二个整数为原待排列的整数。 Hive安装及建表，查询，导入数据等操作 1、安装Hbase并完成配置； 2、用Hadoop提供的HBase Shell命令完成数据管理任务： 3、使用Hbase提供的Java API完成一系列指定编程任务，实现应用程序对数据的管理及存取。 Spark的安装 1 XM07YZ001 熟悉常用的Linux操作和 Hadoop操作验证 2 2 XM07ZH002 熟悉常用的HDFS操作综合性 2 3 XM07ZH003 MapReduce编程初级实践综合性 2 4 XM07Z11004 Hive的安装及操作验证 2 5 XM07ZH005 熟悉常用的HBase操作综合性 2 6 XM07ZH006 Spark的安装验证 2 7 8 9 10 11 12

Spark RDD弹性分布式数据XM07ZH007 集API操作 XM07ZH008 XM07ZH009 Spark SQL 编程 DStream编程示例综合性综合性综合性综合性综合性综合性 2 2 4 2 2 2 利用Spark RDD实现倒排索引 DataFrame 操作、Spark SQL 读写 MySQL 数据库、Spark SQL 读写 Hive DStream编程基本步骤-文件流、无状态转换操作、有状态转换操作、输出操作 Spark Streaming 与 Flume、Kafka 的整合步骤及开发特征抽取—TF-IDF,分类与回归—线性回归、分类与回归一逻辑回归商户投放子系统、用户消费子系统及系统测试 XM07ZH010 Spark Streaming 与 Flume> Kafka 的整合 XM07ZH011 SparkMLlib机器学习 XM07ZH012 综合案例-分布式优惠券后台应用系统 5教学方式方法 5.1教学方法

本课程是一门学时的专业必修课，课堂教学38学时，上机实验26学时。根据课程目标，设计课程教学方法如下：

1、课堂讲授：以问题导入的方式，通过介绍当前应用环境的变化和需求引入大数据技术，概括介绍大数据知

识体系，使学生对课程有一个初步的认识，进而详细介绍大数据存储和大数据处理两大核心技术。采用多媒体与板书相结合的方式进行讲授，对于各章节的重点及难点，基于案例进行详细讲解，帮助学生理解和掌握。每次开始授课之前，以提问的方式，帮助学生回顾课程内容、抓住知识重点。每章结束进行章节总结，帮助学生梳理知识体系。授课过程中，以启发学生思维为核心，注重师生互动，调动学生的学习主动性和积极性。

2、课内实验：采用课内实验辅助学生理解和掌握大数据技术的原理及应用方法，实验内容主要围绕大数据存

储及大数据处理两大核心技术。实验指导书在每次实验之前提前发布，以便学生预习。实验课上由教师布置实验任务并进行简单讲解，不宜讲解过细，应注重培养学生自我探索的能力。学生针对实验问题进行分析、设计并完成上机实验、撰写实验报告。实验报告中除记录实验过程外，还要记录实验中遇到的问题、解决办法，以及实验心得，以促进学生的思考与总结。

3、自主学习：为了充分调动学生的学习主动性和积极性，除课堂教学及实验教学外，加入11学时的自主学习，

通过作业帮助学生理解并掌握各章节的重点内容；通过报告中的案例调研分析及课程总结展望, 培养自主学习和终身学习的意识，以及客观评价大数据技术的能力。

5. 2教学手段及措施

采取课堂讲授、实验、应用实例讲解等形式，结合课后自学进行教学。采用电子教案和板书相结合的方式，提高讲课效果。在教学过程中，教师应对大数据的基本概念、技术体系、基本存储原理以及基本计算模型进行详细讲解，并指出各教学内容的重点和难点部分。讲授中应以学生为中心，注重理论联系实际, 以及先进教学方法的使用C

6考核方式 6.1

考核方式说明

采用平时、实验，作业相结合的考核方式，注重实践环节的考核。各部分所占比重如下:

课堂出勤表现10% 平时作业成绩10% 实验报告成绩20% 期末考试成绩60%

6.2

考核权重分配

建议考核权重分配按表4进行，并可根据情况适当调整权重。

表4考核权重分配表

考核方式平时表现重教学内容教学单元1 教学单元2 教学单元3 教学单元4 教学单元5 教学单元6 教学单元7 教学单元8 教学单元9 教学单元10 教学单元11 教学单元12 教学单元13 10% 课后作业 10% 课内实验 20% 期末考试备注 60% V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V J V V V V V V V V

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文