搜索
您的当前位置:首页正文

能源大数据中心建设方案

来源:意榕旅游网
真诚为您提供优质参考资料,若有不当之处,请指正。

大数据实验室建设方案

1 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

目录

1

概述 ................................................................................................................................... 3 1.1 1.2 2

建设背景 .................................................................................................................... 3 建设现状 .................................................................................................................... 4

总体设计 ........................................................................................................................... 5 2.1 2.2

总体架构 .................................................................................................................... 5 分步实施方案 ............................................................................................................ 6

一期:实现大数据教学实验入口,建立稳定可靠的大数据实验平台......... 6 二期:基于大数据领域的深入拓展研究 ........................................................ 7

2.2.1 2.2.2 3

详细设计 ........................................................................................................................... 9 3.1

一期建设内容 ............................................................................................................ 9

机房装修建议方案 ............................................................................................ 9 云存储平台 ...................................................................................................... 28 大数据实验平台 .............................................................................................. 33 桌面虚拟化 .................................................................................................... 104 教学云盘 ........................................................................................................ 107

3.1.1 3.1.2 3.1.3 3.1.4 3.1.5 3.2

二期建设内容 ........................................................................................................ 117

深度学习平台 ................................................................................................ 117 数据立方大数据库 ........................................................................................ 123 数据挖掘平台 ................................................................................................ 129 数据可视化 .................................................................................................... 133 物联网智能硬件服务平台 ............................................................................ 139

3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 4 5

建设意义 ....................................................................................................................... 144 规格配置 ....................................................................................................................... 147

2 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

1 概述

1.1 建设背景

随着移动互联网、云计算、物联网的快速发展,特别是智能手机端博客、社交网络、位置服务(LBS)等信息发布方式的不断涌现,数据正以前所未有的速度在不断地增长和累积,全球在2010年正式进入ZB 时代,根据IDC监测,人类自有史以来所有数据量大约每 18 个月翻一番,意味着人类在最近18个月产生的数据量相当于之前产生的全部数据量,预计到 2020 年,全球将总共拥有 35ZB的数据量,是2010年的近30倍,大数据时代已经来到。

在海量数据面前,大数据人才无疑是其中最关键环节之一,然而,不论国内外,大数据人才却紧缺相当稀缺,在未来5-10年,我国大数据市场规模年均增速将超过30%,而大数据人才缺口将突破150万,目前大数据人才平均月薪达1.5万,在BAT发布的招聘职位中,大数据人才超过60%。我校为顺应新形式的发展,着手建立大数据学院,创建大数据实验室、大数据实验平台,开设大数据教学培训,实现我校教学科研一体化流程,将为我校增加学生就业机会和薪资水平,提高师资水平,逐步培养当今互联网时代IT行业的大数据人才起到至关重要的作用。

而大数据学科方向是一门交叉专业方向,与不同专业相结合可以发展成特定方向的专业或研究领域。经济金融学、应用数学、统计学、计算机科学等传统专业方向与大数据学科方向相结合表现出多样化的差异特征,包括专业研究方向与社会需求岗位在内。除了课堂学习,通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明,当前大数据涉及到很多内容,如大数据实验、数据分析、数据挖掘、数据可视化等,其中的很多实验,都无法在我校现有的实验室中完成。因此,我校建设专门的大数据实验室就显得非常重要。

3 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

1.2 建设现状

虽然目前我校也意识到开设大数据专业及相关课程,但是在专业课程开设的过程中也遇到了诸多问题,因此,我校着眼于未来,着手从全球的技术重点难点-大数据教学出发,拟打造高校大数据教学的标杆,建设新一代的大数据研究教学基地,建立一套具有高可靠、可在线弹性伸缩,提供数据内在关系和价值的大数据教学平台,目前我校大数据实验平台建设具体现状如下:

 基础实验环境薄弱,大数据实训开展难

目前我校的大数据教学大都卡在了实验环节,缺乏相应的基础实验环境,无法为每一个学生都提供一套实验集群,而虚拟化的网络配置与运维又十分复杂,同时大数据分布式软件系统安装、配置难度较大,在实验过程中很容易造成实验环境的破坏,实验数据、实验教案、实验手册缺乏,难以开展相关的实验教学。

 课程体系待完善,大数据教学科研入门难

当前我校的大数据专业处于起步阶段,人才培养课程体系缺乏系统性,大数据教学资源匮乏,可配置和指导实验环境的专业师资不足。

 项目实训缺失,教学效果与就业率打折扣

在大数据教学过程中,缺乏相应的实训项目,只有理论教育,难以培养实用型人才所需的专业项目能力,存在专业学习与实际应用脱轨的情况,使得教学效果与就业率打折扣。

4 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

2 总体设计

2.1 总体架构

大数据实验室总体架构主要包括四个层面:

(1)基础环境设施建设

大数据实验室基础环境建设主要是支撑实验室教学运行的基本环境配套建设,包括实验室机房装修、综合布线、网络通信、配电UPS、安防监控、实验室空调、学生实验桌椅、教学用投影音响器材等。通过这些基础支撑环境的建设,才能保证大数据实验室的建设提供基础。

(2)IT环境配套建设

在基础环境搭建完善的基础上,需要建设满足大数据实验平台的配套环境,主要包括:各类服务器、交换机、路由器、投影仪、终端电脑等。

5 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

(3)大数据实验平台层建设

在满足大数据平台层所需的IT环境配套资源之上,建设存储资源池和计算处理资源池,提供大数据实验平台和深度学习平台,供师生科研教学使用,建立在数据立方大数据库高速运算、秒级处理基础上,数据挖掘分析平台对现有数据进行智能分析,最终通过数据可视化能将数据以更加直观的方式展现出来,使获取的数据更加客观、更具说服力。

(4)服务层

大数据平台的最终目的是为学校、师生提供服务,因此利用平台搭建可供大量老师、学生完成大数据科研、教学实验的集成环境,该平台同步提供了配套的培训服务,对于科研教学组件的安装、配置,教材、实验手册等具体应用提供一站式服务,有助于高校更好地满足课程设计、课程上机实验、实习实训、科研训练等多方面需求,并在一定程度上缓解大数据师资不足的问题。对于各大高校而言,即使没有任何大数据实验基础,该平台也能助其轻松开展大数据的教学、实验与科研。

2.2 分步实施方案

我校大数据实验室建设的各个环节相互关联,在建设的过程中,需要有计划、有步骤地实施,以确保各项内容的协调发展;基于xxx股份有限公司在云计算、大数据领域积累的丰富经验并且结合学校的实际需求和业务特点,制定以下合理的分步实施方案。

本次方案主要围绕大数据专业课程的开展,搭建大数据实验相关的软硬件平台,分期进行建设。

2.2.1 一期:实现大数据教学实验入口,建立稳定可靠的大数据实验

平台

利用大数据、云计算技术构建统一的大数据实验平台,完善大数据教学课程

6 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

体系,培养大数据实战型人才。

主要建设内容如下: (1)云存储平台

提供一套存储资源管理系统,采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上;具有低功耗、超高性价比、高可靠、通用、免维护等优势。

(2)大数据实验平台

大数据实验平台通过应用容器技术,以少量机器虚拟大量实验集群,可供大量学生同时拥有多套集群进行Hadoop相关试验,而每个学生的实验环境不仅相互隔离,方便高效地完成实验,而且实验彼此不干扰,即使某个实验环境被破坏,对其他人也没有影响,一键重启就可以拥有一套新集群,大幅度节省了硬件和人员管理的投入成本。同时配套提供大数据实验教材、PPT、视频、操作手册、实验数据等配套资源。

(3)教学云盘

通过教学云盘为师生构建私有云平台,为用户提供了安全、稳定、高效、性价比高的数据管理服务。

(4)桌面虚拟化

针对学校日常办公、大数据教学等环境建立一体化桌面虚拟化解决方案,学生师生用户可跨平台、跨终端、跨协议按需弹性配置自己的桌面、应用和数据。具有高可靠、高安全、多兼容、易管理等优势。

2.2.2 二期:基于大数据领域的深入拓展研究

在一期大数据实验平台的建设基础上,突出大数据领域的多应用建设,进一步提升学校在大数据专业的核心竞争力和影响力。

主要建设内容如下:

7 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

(1)深度学习平台的建设

根据国家和地方社会经济发展需要,结合区域相关产业和行业特点,以我校优势学科和特色专业为基础,重点从图像处理、视频挖掘、生物识别和人工智能方面的创新实验、实习、实训以及深度学习为重点研究出发进行建设。提供一套涵盖大数据算法、接口、工具、平台等多方面内容,从大数据监测与收集、大数据存储与处理、大数据分析与挖掘直至大数据创新,帮助高校构建完善的大数据课程体系。

(2)数据挖掘及可视化分析

建立数据立方大数据库,实现EB级的数据能够秒级处理,支持数据仓库存储、数据深度挖掘和商业智能分析等业务。建立数据可视化,将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。

(3)物联网智能硬件平台

提供一个免费的物联网设备和应用的数据托管平台。学校现有的智能设备可使用多种协议轻松安全地向万物云提交所产生的设备数据,在服务平台上进行存储和处理,并通过数据应用编程接口向各种物联网应用提供可靠的跨平台的数据查询和调用服务。通过使用物联网智能硬件平台所提供的各项服务,学校可以收集、处理和分析互连智能设备生成的数据,在物联网应用中方便地调用这些设备数据,而无需投资,安装和管理任何基础设施,不仅大大降低了项目开发的技术门槛,缩短开发周期,而且研发和营运成本也成倍降低。

8 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3 详细设计

3.1 一期建设内容

3.1.1 机房装修建议方案

3.1.1.1 系统概述

3.1.1.1.1 机房环境特点

设计的机房参数如下:

 温度:21℃--25℃,最佳为23℃。  相对湿度为45%--65%,最佳为55%。  温度的变化率<5℃/h,不得结露。

 尘埃:机房在静态条件下,粒度≥0.5nm,个数<18000/m3。  噪音:计算机停机时,主机房中心位置处<68db。  静电电位≤1KV。

 照度:机房区≥300LX;其他房间≥200LX;应急照明>5LX。  交、直流工作地≤1Ω。

3.1.1.1.2 设计思路

现代机房通常采用大面积的开敞空间,辅以功能完善的辅助设施,构成宽敞明亮的设备环境,具有工作交流迅捷、信息传递快、工作效率高、易于管理的特点。

9 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

机房工程是以保证设备运行的安全性、可靠性为主要目的综合性项目,它包括建筑装修、电气工程、综合布线、安防系统、监控系统、空调系统等几大系统。机房工程的目标:

 保证计算机设备运行的可靠性;  保证机房运行的安全性;  延长计算机设备的使用寿命;  满足用户的特殊要求;  保证场地工作人员的身心健康。

我们的工作就是围绕这些根本任务来进行,在设计过程中采用超越的设计思想和先进的技术,并着眼于未来的发展,把各个系统等有机的结合起来,通过采用优质材料、合理的配置和先进的工艺确保环境指标的实现,为计算机设备和工作人员创造一个安全、可靠、宽松、舒适的工作场地。

3.1.1.1.3 设计规划

本次机房工程拟对学校已有的机房(约xx平米)改造,建设成为新的数据机房,主要涉及以下几个分项(可根据实际需要调整):

序号 1 2 3 4 名称 中心机房 监控室 会议室 办公室 位置 面积 约xx平米 约xx平米 约xx平米 约xx平米 10 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.1.2 机房装修(建议)

3.1.1.2.1 机房吊顶

吊顶是机房中重要的组成部分。吊顶上部安装着强电、弱电、线槽和管线,也安装着消防灭火的气体管路及新风系统风管等。在吊顶面层上安装着嵌入式灯具、风口、消防报警探测器、气体灭火喷头等。考虑机房吊顶必须防火、防尘、吸音性能好、无有害气体释放、抗腐蚀不变形、美观和易于拆装等方面。

在安装天花之前,将原楼板底清理干净及刷环氧聚氨脂(防尘漆)。 吊顶应该具有一定的承载能力,应能够承受住全部安装设备的重量及作为专用空调回风静压箱时的负压影响,并要留有一定的空间。所选用的吊顶板及其构件还应具有质轻、防火(A级)、防潮、吸音、不起尘、不吸尘等特点。

3.1.1.2.2 架空地板工程

在各类计算机房的组建中,活动地板是个很重要的结构件之一,可使机房地板下组建成一个地下空间。在活动地板上可安装各类计算机等设备,而在地板下的空间则可用来敷设联结各设备的电源、网络互联管线、集成监控信号线管等设施。同时可作为精密空调的送风静压风库。通过地板上设置的送风口,利用静压复得法,把冷却空气送至计算机设备,保障计算机的安全运行。

活动地板因其具有可拆性,所以对网络的建设、设备的检修及更换都很方便。所有连接电缆都从地板下进入设备,便于设备的布局调整,同时减少了因设备扩充或更新而带来的建筑设施的改造。

 活动地板高度

活动地板可以在活动地板下形成空调送风静压箱。为了获得最佳的通风效果,我们所建议的从机房地板到地面的高度为250mm,这样就可以有充足的通风空间。

 地板抗震动方面

11 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

地板的质量和地板的施工保证:

1. 地板平整度和尺寸精度高,以保证活动地板的整体抗震性。 2. 地板支架应一次冲压成型,避免底座和支腿焊接降低其抗震性。 3. 地板与墙面交接处应用柔性接触,采用减震橡胶垫作间隔。 设备抗震动方面

计算机设备、精密空调、UPS、配电柜等设备,建议采用角钢支架做为底座,角钢支架用地脚镙栓与地面固定,并采用强力减震橡胶垫。

活动地板选择

活动地板的抗静电技术指标及地板的质量好坏将直接影响到计算机系统的运行安全。在机房的建设中,活动地板的正确应用及使用,可以提高计算机及其微电子设备的运行可靠性和延长设备的使用寿命。

地板楼面保温

计算机机房的冬季保温、夏季隔热以及防凝露等技术问题是机房设计重要考虑的因素,尤其夏季室外温度较高,空气的相对湿度也很高,由于机房内外存在较大的温差,机房的保温处理不当,会造成机房区域两个相邻界面产生凝露,更重要的是下层天花结构面层的凝露会给相邻部分设施造成损坏而影响工作。同时会使机房区域的精密空调的负荷加大,造成能源的浪费。在冬季,由于机房的温/湿是恒定值,此时相对湿度高于室外,机房的内立面墙及天地平面产生凝露,使机房受潮,造成墙立面及天地平面建筑结构造成损坏,而影响机房的洁净度。

由于界面的凝结水蒸发,造成局部区域空气含湿增大,给计算机及微电子设备的元器件和线缆插件造成损坏。因此,为了节约能源,减少日后的运行费用,根据以上分析计算机房相邻界面凝露应按其起因而采取相应的措施来控制平面、立面隔热及热量的散失。对于本方案计算机房的特点,采用在机房专用空调区域内房间的楼面铺设带防水防火的隔热材料来提高楼面的隔热功能。

地板下面做保温层既能保持机房的温度恒定,又不至于使下一层楼顶结冷凝

12 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

水,同时地板的灰尘又不至于被风吹进机器内。

3.1.1.2.3 机房内墙、柱面

机房内墙、柱面装修的目的是为了保证室内环境使用条件,创造一个舒适美观而整洁的环境。在一般的普通装修工程中,内饰面不承担墙体热工功能,但在计算机房装修过程中,当墙体本身热工性能不能满足计算机房环境使用要求时,就得在室内内侧面增加一道保温层来增加墙体的热工性能,避免出现结露现象。另外,机房内窗户由于其缝隙容易渗进灰尘和有害气体而引起计算机的故障。同时透过玻璃进入机房的太阳辐射热将会增加机房的热负荷,并影响机房内的照度控制和对显示设备的观测。在冬天,通过窗户散出的热量较大,而且机房内温度较高,室外温度较低,这样还会在玻璃上结露。因此,为了防止外界的干扰,在能确保诸机房空调和照明的情况下,在机房内不设窗户,而主要采用人工照明。

该墙饰板在生产过程中,由于在其表面喷涂了一种有机高分子涂层,使得采用了该墙板装饰过的计算机房不但增强了机房的防静电、防火性能,更由于这种墙板为高强度优质材料,在计算机房内安装使用后,它能与金属吊顶天花以及金属活动地板金属结构网架,经有效接地处理后,能初步形成一个六面都有屏蔽效果的屏蔽网,增强机房的屏蔽效果。在机房内增强屏蔽性能后,并具有以下特点:

 防止外界较强的电磁场干扰计算机房内计算机及其它电子信息处理设备;

 防止计算机房内的计算机及其它电子信息处理设备所产生的信息以电磁波形式泄漏出去,造成机密的丢失。

3.1.1.2.4 机房防火门的设计

门的开起方向要符合消防要求,大小要适于设备运装或人员出入,开门的位置要方便人员出入及设备的摆放,不影响设备操作,占用空间小,防火、防盗、隔音、隔热、美观、实用、经济。

13 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

机房入口大门设置钢质压纹防火、防盗门,并安装闭门器,增加压纹后,不仅满足防火门要求,同时也更为美观。 3.1.1.3 机房配电及ups系统

机房供电为一级负荷,从大楼配电室引双路电源(TN-S系统)至机房UPS室,经互投开关切换后供给机房UPS、空调、照明及辅助插座供电。

UPS(Uninterruptible Power Supply),即不间断电源,是一种储能的装置(常用蓄电池储能),以逆变器为主要组成部分的恒压、恒频电源设备,主要用于给计算机、服务器、计算机网络系统、通信系统或其它电力电子设备提供不间断的电力供应。

一种常见的错误概念认为:一般使用的市电除了偶尔发生断电事故之外,通常是连续而且稳定的。其实不然,市电系统作为公共电网,连接着成千上万个各种各样的负载,其中,一些较大的感性、容性、开关电源等负载不仅从电网获取电能,而且还会反过来对电网造成影响,恶化电网(或局部电网)的供电品质,造成市电电压波形畸变或频率漂移。另外,意外的自然或人为事故,如地震、雷击、输变电系统断路或短路都会危害电力的正常供应,从而影响负载的正常工作。根据电力专家的测试,电网中经常发生并且对计算机或精密仪器产生干扰或造成损坏的情况主要有以下几种:电涌、高压尖脉冲、暂态过电压、电压下陷、电线噪声、频率漂移、持续低电压、市电中断等。

对计算机来说,其显示器和主机工作都需要正常的电力供应,突然的非正常断电可能会对计算机硬盘造成损坏,过高的电压可能会造成计算机整流电源烧毁,而且电压尖脉冲和暂态过电压及电源杂波等干扰都可能通过计算机整流器进入主板,影响计算机的正常工作,甚至烧毁主板。总之,供电问题对于计算机工作的影响很大。因此,随着计算机和网络应用的日益重要和广泛,安全可靠的电源已是网络涉及和管理人员不得不认真面对的重要问题。在这种背景下,UPS应运而生,并伴随电力电子技术的发展不断推陈出新。

本项目需要UPS电源的区域包括网络中心机房、监控中心机房。

14 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

网络中心机房的UPS电源保护系统主要为网络设备及服务器主机提供统一的不间断电源供应。

监控中心的UPS电源保护系统主要为弱电井设备、安防系统、一卡通系统、楼宇自控系统提供不间断电源供电。

根据项目需求,要求在断电后,UPS应满足满负载供电2小时的要求,也为后期增加的设备留有的余量。 3.1.1.4 防雷接地系统

为了保护人的安全、供电的可靠性以及计算机设备、电子产品、电气设备等正常准确运行,必须要有良好的接地系统来保证。为保证大楼内计算机设备、电子产品等安全可靠的运行,大楼内应有稳定可靠的接地系统,才能避免因接地系统不可靠而损坏设备及伤害人员的事故发生。

本次在每个机房内均设置防雷器及接地装置,每个机房设置一级防雷器1台,二级防雷器2台,三级防雷器2台,插座采用防浪涌插座。敷设田字形紫铜排。整个机房敷设玻化石全钢防静电地板。

3.1.1.4.1 机房防雷设计

由于电子设备雷电防护系统对所保护系统的业务正常运行具有非常重要的作用,因此,雷电防护系统应具备先进性、可靠性、易维护、易升级等方面的突出特性。防雷工程设计及设备的选择应遵从以下的原则:

1)可靠性原则

设计系统雷电防护工程应最先考虑的问题就是可靠性。防雷保护技术是不断发展变化的,所选产品必须符合国际标准、国家标准及行业标准。这样才能对网络的未来发展提供保证。

2)先进性、可扩充性原则

15 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

采用当今国内、国际上最先进和成熟的技术,使新建立的系统能够最大限度地适应今后技术发展变化和业务发展变化的需要,从目前国内发展来看,系统总体设计的先进性原则主要体现在以下几个方面:

采用的系统结构应当是先进的、开放的体系结构; 采用的技术应当是可扩充的,能满足今后日益扩充的需要。 3)经济实用性原则

本着一切从用户实际角度出发,配置防雷保护系统的目的,在保证系统的正常运行下,整个防雷保护的建设要坚持实用为主,根据投资的强度结合实用价值,应尽可能选择可靠性高,可维护性好的性能价格比高的产品,以便节省投资,以最低成本来完成系统设备雷电防护的建设。

3.1.1.4.2 防雷保护对象

目前,经实际运行经验验证,由电源系统耦合进入的感应雷击造成设备的损坏占雷灾损失60%以上的概率。因此,对电源系统的避雷保护措施是整个防雷工程中必不可少的而且是非常重要的一个环节。 1)电源系统第一级保护

供电系统采用架空电缆(电缆未穿钢管做屏蔽)将一路市电引入至大楼总配电箱,大楼总配电箱又引出一路出线至机房或所在楼层配电箱,然后通过插排与机房用电设备连接。因机房所在建筑物总配电箱进线路大多从户外架空引入,所以极易遭感应雷击及远端的传导雷击,应加装电涌保护器加以保护,根据《建筑物防雷设计规范》和《建筑物电子信息系统防雷技术规范》的要求,在从室外引来的线路上安装的电源防雷器,其标称放电电流≥80kA(8/20μs)。

因此,本方案设计在每个机房所在建筑物的总配电箱进线端各加装一套一级电源防雷模块,以此作为对楼层总电源的一级防护。其技术要求及配置情况如下:

(1)安装位置:机房所在建筑物的总配电箱进线端

16 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

(2)选用产品:三相电源防雷模块(如下图所示)。

一级电源防雷模块

(3)安装方法:将一级防雷器并联于电源系统中,L1、L2、L3为相线,N为零线,PE为地线,切勿错接。安装完成后,合上自动断路器开关,检查工作状态是否正常。防雷模块在使用期间,应定期检测并查看故障显示窗口状态,当故障显示窗口呈红色或遥信端子输出报警信号时,表示防雷模块出现故障,应及时维修或更换。

(4)一级防雷器设备参数:

保护级别 工作电压Un(V) 标称放电电流In(KA) 最大放电电流Imax(KA) 电压保护水平Up(V) 最大持续运行电压Uc(V) 响应时间(ns) 漏电流(μA) 保护模式 劣化指示 工作环境 B级 380V 40KA(8/20μs) 80KA(8/20μs) ≤2500V 385V <20ns ≤30μA L-PE、N-PE (4P) 劣化指示窗 温度:-40℃~+80℃,相对湿度<95% 17 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

外壳材料 规格尺寸 (5)接线示意图:

阻燃材料 90ⅹ72ⅹ62mm

一级防雷模块接线示意图

2)电源系统第二级保护

虽然在机房所在大楼总配电箱内加装了电源系统第一级电涌保护器,但是机房与总配室距离较远,雷电仍然会在连接总配电室与机房的电缆上产生感应过电压,击坏设备,故根据《建筑物防雷设计规范》的要求,本方案设计在机房或所在楼层配电箱内加装一套二级电源防雷模块,以此作为对机房电源的二级防雷保护。其技术要求及配置情况如下:

(1)安装位置:机房配电箱或机房所在楼层配电箱。 (2)选用产品:单相电源防雷模块(如下图所示)。

18 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

二级电源防雷模块图

(3)安装方法:将二级防雷器并联于电源系统中,L为相线,N为零线,PE为地线,切勿错接。安装完成后,合上自动断路器开关,检查工作状态是否正常。防雷模块在使用期间,应定期检测并查看故障显示窗口状态,当故障显示窗口呈红色或遥信端子输出报警信号时,表示防雷模块出现故障,应及时维修或更换。

(4)二级防雷器产品参数:

保护级别 工作电压Un(V) 标称放电电流In(KA) 最大放电电流Imax(KA) 电压保护水平Up(V) 最大持续运行电压Uc(V) 响应时间(ns) 漏电流(μA) 保护模式 劣化指示 工作环境 外壳材料 规格尺寸 (5)接线示意图:

19 / 153

C级 220V 20KA(8/20μs) 40KA(8/20μs) ≤1800V 385V <20ns ≤30μA 劣化指示窗 温度:-40℃~+80℃,相对湿度<95% 阻燃材料 90ⅹ36ⅹ62mm 真诚为您提供优质参考资料,若有不当之处,请指正。

二级电源防雷模块接线示意图

3)电源系统第三级保护

因为机房内都是一些精密的电子设备,耐冲击电压都比较低,一般在1.5KV以下,为了进一步降低残压,根据国标《建筑物防雷设计规范》的要求,本方案设计在UPS电源后端加装一套三级电源防雷模块,以此作为对信息机房电源的三级防雷保护。其技术要求及配置情况如下:

(1)安装位置:UPS电源后端

(2)选用产品:单相电源防雷模块(如下图所示)。

三级电源防雷模块

(3)安装方法:将三级防雷器并联于电源系统中,L为相线,N为零线,PE为地线,切勿错接。安装完成后,合上自动断路器开关,检查工作状态是否正常。

20 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

防雷模块在使用期间,应定期检测并查看故障显示窗口状态,当故障显示窗口呈红色或遥信端子输出报警信号时,表示防雷模块出现故障,应及时维修或更换。

(4)三级防雷器产品参数:

保护级别 工作电压Un(V) 标称放电电流In(KA) 最大放电电流Imax(KA) 电压保护水平Up(V) 最大持续运行电压Uc(V) 响应时间(ns) 漏电流(μA) 保护模式 劣化指示 工作环境 外壳材料 规格尺寸 (5)接线示意图:

D级 220V 10KA(8/20μs) 20KA(8/20μs) ≤1200V 385V <20ns ≤30μA L-PE、N-PE (2P) 劣化指示窗 温度:-40℃~+80℃,相对湿度<95% 阻燃材料 90ⅹ36ⅹ62mm

21 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

三级电源防雷模块接线示意图

4)、终端防雷

因服务器耐冲击电压比较低,一般在1.5KV以下,根据《建筑物防雷设计规范》)的要求,本方案设计在终端设备前端即各墙壁插座处各加装一套电源防雷插座。其技术要求及配置情况如下:

(1) 安装位置:终端用电设备前端。

(2) 选用产品:电源防雷插座(如下图所示)。

终端防雷模块

(3)安装方法:应用于配电系统为220V电源第四级雷电防护,应用于设备前端,使用方法和一般插排相同。

(4)防雷插座技术参数:

保护级别 额定电压Un(V) 标称放电电流In(KA) 最大放电电流Imax(KA) 电压保护水平Up(KV) 最大持续运行电压Uc(V) 电压保护水平(V) 响应时间(ns) 22 / 153

D级 220V 10KA(8/20μs) 20KA(8/20μs) ≤1.0KV(20KV 8/20μs) 320V ≤700V <20ns 真诚为您提供优质参考资料,若有不当之处,请指正。

漏电流(μA) 最大负载电流(A) 保护模式 接口形式 工作环境 规格尺寸 (长×宽×高) ≤20μA 13A L-PE、N-PE 六孔三项 温度:-40℃~+80℃,相对湿度<95% 393×67×35mm 3.1.1.4.3 机房接地

接地系统在机房是至关重要的,可以说没有良好的接地系统就没有好的防雷系统。接地系统建设做不好,不但会引起设备故障,烧毁元器件,严重的还强危害工作人员的生命安全。并且接地系统的接地技术如果处理不当,还会造成地电位反击。一个良好的接地系统又是计算机设备可靠工作的需要,防干扰的屏蔽系统的问题也要靠良好的接地系统来解决。机房接地系统是消除公共耦合阻抗,以及防止寄生电容耦合的干扰,保护设备和人身安全、减少火灾发生隐患、保证机房设备稳定可靠的运行的重要手段。

计算机机房是弱电设备的核心所在地,机房所连接的均为数据处理系统,对电位的变化较为敏感,容易导致设备的损坏及系统运行的不稳定,因此对接地系统有较高要求。根据国家标准《计算机站场地技术要求》的规定,接地系统应包括计算机系统的直流工作地、交流工作地、安全保护地、防雷保护地这四种。

设计将机房各个金属物件(如主机金属外壳,UPS及电池柜金属外壳,金属地板,金属框架,设施管路,电缆桥架,金属吊顶,轻钢龙骨)和系统都进行等电位连接,等电位连接的目的,在于减小防雷的空间内的各金属物件的和系统之间的电位差,必要时,采用电涌(SPD)保护器做等电位连接,加强防电涌保护。

机房接地一般应包括计算机系统的直流工作地、交流工作地、安全保护地、防雷保护地这四种。四种接地宜共用一组接地装置,其接地电阻按其中最小值确定;若防雷接地单独设置接地装置时,其余三种接地宜共用一组接地装置,其接

23 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

地电阻不应大于其中最小值,并应按现行国标准《建筑防雷设计规范》要求采取防止反击措施。并且电子计算机系统的接地应采取单点接地并宜采取等电位措施。

现行国标推荐计算机机房采用联合接方式,机房联合接地电阻应≤1Ω。 我公司建议对大楼地实际测量后再采取相应的措施。如果现在大楼地合格,则直接将机房内的均压设备通过BVR 10平方毫米电线接入机房所在楼层汇流排。如果大楼地不合格则重新进行防雷地的建设,措施有两种:一是打接地桩;二是用防雷接地模块或接地极制作高质量防雷地。

机房内的接地网有三种接地敷设方法,串联接法、汇集法和并联接法。并联接法的优点在于既有汇集法的逻辑电位参考点一致的优点,又有串联法连接简单的优点,而且还大大降低了计算机系统的内部噪声和外部干扰。因此计算机的工作接地系统中,机房内部一般采用并联接法。本机房内接地网采用并联接法。

在监控机房和网络机房防静电活动地板下设专用均压环接地网,接地铜网采用30mm×3mm铜带连接。并从均压环通过接地引下线接至楼层汇流排,以起到等电位连接作用。 3.1.1.5 机房安防监控

为保证机房的安全,防止无关人员进入机房,需要对通讯机房总入口设置感应卡门禁系统,以及独立的视频监控系统。

通过门禁管理系统可以实时读取门禁记录的资料。通过发卡器设置卡号、姓名、进出权限,并根据事件记录查看持卡人员的进出情况。

本次机房门禁可在一卡通系统中综合考虑。 3.1.1.6 机房空调系统设计

本次机房空调设计采用VRV多联机空调一拖五,对整个项目的4个部分整体接入:

24 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

 中心机房采用2台VRV/5P空调,根据流体力学原理考虑到冷热风流向,

安装位置如图所示;

 监控室采用1台VRV/2P空调;  会议室采用1台VRV/2P空调;  办公室1台VRV/2P空调。

根据计算机机房A级建设标准及规范,机房对温度湿度及洁净度的要求如下:

机房温度:要求温度在21℃每小时温度变化不能超过5℃。温度过高,半导体内离子的扩散或漂移加剧,会改变半导体的性能,并且会使半导体和机械装置内的腐蚀过程加速。

高温亦会使磁介质导磁率发生变化,磁带、磁盘数据发生错误甚至于丢失。 机房湿度:机房要求相对湿度在40%至70%之间,湿度过高和过低对计算机会产生下列影响:

1. 高温度引起水蒸气附着于元件表面,影响元件电气性能 2. 高湿度会影响磁性材料导磁率,造成读/写数据的瞬时错误 3. 湿度过大,会使某些机械装置打滑,硬性规定稳定性 4. 湿度过大,会使接插及各接触部分氧化生锈,造成接触不良 5. 低湿度产生静电,人亦容易带电,以使信息丢失和破坏半导体元件 机房洁净度:洁净度是指空气中尘埃,空气中所含有害气体也是机房洁净度指标之一。大气中灰尘呈布朗运动状态,在静止的空气中几乎完全不沉淀或者缓慢沉降。而漂浮在大气中的灰尘粒子很小,约99%的粒子其大小都在1微米以下0.5微米以下的粒子又占大约91%这种粒子对精密机械和接插影响最大。

不管计算机机房的结构形式如何,机房内仍存在着大量的灰尘,原因如下:

25 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

1. 机房不断补充鲜风,通过空调将灰尘带入 2. 机房工作人员出入机房带进尘埃

3. 机房墙壁、地面、天花或涂层脱落产生灰尘 4. 计算机外围设备如打印机等产生的尘屑 灰尘的危害有以下几点:

1. 对磁盘、磁带等精密机械造成损坏 2. 使集成电路和电子元件散热能力降低 3. 灰尘容易吸潮,使元件潮湿而腐蚀

故机房场地的尘埃粒子应达到B级标准,即每升不超过1000个,而机房场地应远离化学等有害气体污染的地方。从消防角度考虑,上述材料须阻燃或难燃,加装保温棉后,整个机房也增加了隔音能力。 3.1.1.7 机房气体灭火系统

机房气体灭火目前常规的做法是先用七氟丙烷灭火系统,也叫FM200来进行保护,它分为有管网和无管网二种型式,即小的机房或独立的保护区我们一般用一个柜式的七氟丙烷灭火装置,也叫七氟丙烷无管网灭火装置来保护;若是区域较大或较多,而且比较分散我们一般会用管网式的组合方式来进行保护,这样可以充分的利用资源,节约成本。

1.对环境无污染,是安全有效的灭火系统。 2.灭火速度快,能在十秒内迅速灭火。 3.对敏感设备无损害。

4.优异性能,是其他灭火系统无法比拟的。 5.经全面的测试,无毒性。

26 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

6.灭火时候不用屏住呼吸,气体灭火对人体更安全。

7.节省时间,快速无比,当贵重的财产面临危险,每一秒钟都至关重要。 8.解除隐忧,解决后顾之忧。

9.价格优势,与火灾造成的财产与资料损失相比,气体灭火价值是显而易见的。

每个保护区的地板下、室内空间层及吊顶天花内需设置喷嘴、烟感探测器和温感探测器。为了节省投资成本,保护区之间的气体采用共享设计,减少了灭火药剂用量,而烟感探测器和温感探测器则仍然保持警报的功效。

所有间隔必须密闭固定,药剂喷放时无泄漏。系统采用组合分配方式,当某个保护区有火情发生时,烟、温两路探头把火警信号传至气体灭火控制盘及控制室,声、光自动报警并按照预定模式自动延时,启动电磁阀及方向阀,使FM-200储气钢瓶喷放气体至发生火情的保护区,也可以手动放气或进行机械紧急启动。 气体喷放的延迟时间 0-30 秒可调,表示系统状态的所有信号都可以传输到当地的气体灭火控制盘或传到消防中央控制室。

钢瓶的瓶头阀部位设有安全阀,在超压时可以自动泄压,从而起到保护作用。钢瓶的放气启动头及方向阀均采用24VDC电磁阀控制,由气体灭火控制屏给出放气信号,启动钢瓶。在断电或紧急情况下,可通过钢瓶上的手动启动头施行手动启动。手动及电动启动方式作用在钢瓶的瓶头阀上,而从属钢瓶则用主气瓶的压力通过压力启动头控制启动。 系统喷放气体后,连接在管路系统上的喷气压力开关会给出放气返回信号到中心控制室。

防护区应以固定的封闭空间划分,防护区内应有疏散信道和出口,保证人员在30秒内能撤离防护区,防护区内的疏散信道和出口,设应急照明与疏散指示标记,防护区内和防护区的人口处装有火灾声、光报警器。

灭火系统设自动控制、手动控制和机械应急操作,手动控制装置、手动与自动转换装置设在防护区内和防护区疏散出口边便于操作的地方,机械应急操作装置设在储瓶间内。

27 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

防护区的门应向外开启,并能自行关闭,疏散出口的门,必须能从防护区内打开,灭火时应保持封闭条件,除泄压口以外的开口以及用于该防护区的通风机和通风管道中的防火阀在喷放FM-200前应做到关闭。故防护区的门可做成装有外开门闭门器或弹簧的门,这样保护区可不设泄压口,而通风机和防火阀的关闭可通过气体灭火控制屏输出接口达到。 防护区的围护构件和门的耐火极限不应低于0.5小时。

3.1.2 云存储平台

3.1.2.1 云存储简介

cStor云存储系统是xxxx技股份有限公司自主研发的高科技产品,是一种软件与硬件相结合的系统,其中专有技术和软件是高附加值部分。与目前国际上知名的云存储技术相比,具有低功耗、超高性价比、高可靠、通用、免维护的优势,可以广泛应用于需要存储大量数据的应用场合,cStor每个标准机架的最高容量可达1024TB以上,是国际最高水平的3倍,拥有成本和运营成本都仅为同类产品的几分之一。

28 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

cStor 系列产品存储机柜

3.1.2.2 云存储架构设计

存储资源管理系统采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上。它采用包括卷管理服务器、元数据管理服务器(Master Server)、数据存储节点服务器(Chunk Server)和挂接访问客户端以及管理监控中心服务器的结构构成虚拟统一的海量存储空间。在每个服务器节点上运行存储资源管理系统相应的软件服务程序模块,系统架构框图如下:

29 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

存储资源管理系统架构图

其中,Master Server保存系统的元数据,负责对整个文件系统的管理,Master Server在逻辑上只有一个,但采用主备双机镜像的方式,保证系统的不间断服务;Chunk Server负责具体的数据存储工作,数据以文件的形式存储在Chunk Server上,Chunk Server的个数可以有多个,它的数目直接决定了存储系统的规模;挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口,通常情况下,客户端可以部署在Chunk Server上,每一个块数据服务器,既可以作为存储服务器同时也可以作为客户端服务器。

由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为一个卷空间,不同的卷空间由卷管理服务器虚拟化统一管理,对外可提供统一的海量存储空间。

管理监控中心提供统一易用的WEB配置管理监控平台,提供设备监控、空间监控、文件监控、服务监控、用户认证管理、配额管理、故障告警及预警等功能,实现智能化管理。

这种分布式系统最大的好处是有利于存储系统的扩展和实现,在小规模的数

30 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

据扩展时,只需要添加具体的Chunk Server即可,而不需要添加整套设备。在实现大规模扩展时也可方便地添加整个卷设备。 3.1.2.3 管理监控中心

管理监控中心为系统管理员配置和维护cStor云存储资源管理系统的有效工具,充分体现了系统的可维护性。

管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。以下为部分系统管理界面。

➢ 设备管理

➢ 系统监控

➢ 告警信息

3.1.2.4 平台优势特性

➢ 高度可靠

存储系统采用云架构,数据被分块存储在不同的存储节点上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。

云存储的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的7×24小时不间断服务。

➢ 优异性能

31 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

cStor采用控制流与数据流分离的技术,数据的存储或读取实际上是与各个存储节点上并行读写,这样随着存储节点数目的增多,整个系统的吞吐量和IO性能将呈线性增长。

同时,cStor采用负载均衡技术,自动均衡各服务器负载,使得各存储节点的性能调节到最高,实现资源优化配置。

➢ 无限容量

系统容量仅受限于卷管理服务器内存,可支撑的容量接近无限,经推算,理论容量为1024×1024×1024 PB (1G个PB容量)。

➢ 在线伸缩

cStor云存储资源管理系统扩容非常方便,支持不停止服务的情况下,动态加入新的存储节点,无需任何操作,即实现扩容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不丢失数据,存储在此节点上的数据将会重新备份到其他节点上。

➢ 通用易用

cStor云存储系统提供符合POSIX标准的通用文件系统接口,无论是哪种操作系统下的应用程序,都可以不经修改将云存储当成自己的海量磁盘来使用。同时,也提供专用的API接口,供开发人员调用。

➢ 智能管理

提供基于WEB的管理控制平台,所有的管理工作均由cStor管理模块自动完成,使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台,可以对cStor中的所有节点实行实时监控,用户通过监控界面可以清楚地了解到每一个节点和磁盘的运行情况;同时也可以实现对文件级别的系统监控,支持损坏文件的查找和修复功能。系统提供用户安全认证及对不同用户进行配额设置与权限管理功能,满足应用的日常维护和安全管理需求。

32 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3 大数据实验平台

3.1.3.1 平台简介

大数据实验平台通过应用容器技术,以少量机器虚拟大量实验集群,可供大量学生同时拥有多套集群进行Hadoop相关试验,而每个学生的实验环境不仅相互隔离,方便高效地完成实验,而且实验彼此不干扰,即使某个实验环境被破坏,对其他人也没有影响,一键重启就可以拥有一套新集群,大幅度节省了硬件和人员管理的投入成本。

大数据实验平台秉承“产、学、研、用”一体化的思路和模式,从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。从理论与实践双管齐下,提升高校信息化管理水平和实验项目研究水平,真正在产业、学校、科研及实践项目中相互配合,发展优势,形成生产、学习、科学研究、实践运用的系统运作模式,从而建设大数据特色专业。

33 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

大数据实验平台实物图

硬件方面大数据实验平台采用cServer机架式服务器,其英特尔®至强®处理器E5产品家族的性能比上一代提升多至80%,并具备更出色的能源效率。通过英特尔E5家族系列CPU及英特尔服务器组件,可满足扩展I/O灵活度、最大化内存容量、大容量存储和冗余计算等需求。整机一体化交付,系统根据学校的专业人数规模进行不同规格的配置,可进行同时满足30人、60人、150人实验规模的选择。

软件层面有Hadoop、HBase、Ambari、HDFS、YARN、MapReduce、ZooKeeper、Spark、Storm、Hive、Pig、Oozie、Mahout、R语言等不同的大数据应用组件供各大高校根据具体应用进行选择实验部署。

此外,作为一个可供大量学生完成大数据与云计算实验的集成环境,大数据实验平台同步提供了配套的培训服务,对于教学组件的安装、配置,教材、实验手册等具体应用提供一站式服务,有助于高校更好地满足课程设计、课程上机实验、实习实训、科研训练等多方面需求,并在一定程度上缓解大数据师资不足的问题。对于各大高校而言,即使没有任何大数据实验基础,该平台也能助其轻松开展大数据与云计算的教学、实验与科研。

34 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.2 架构设计

3.1.3.2.1 产品架构

大数据实验平台架构

大数据实验平台从软硬件、客户端及实验配套教材培训等方面考虑,针对大数据专业建设的课程体系不完善、基础实验环境薄弱、缺乏实训项目三大难题,为各大高校量身定制的大数据软硬件一体化的教学科研解决方案。

大数据实验平台整体设计是基于Docker容器集群技术搭建的Hadoop实验平台,并针对大数据实验的需求提供了完善的使用环境,可一键创造随时运行的实验环境,其中采用Mesos+ZooKeeper+Mrathon架构管理Docker集群,Docker平台架构如下图所示:

35 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

Docker容器设计架构

其中,Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核;ZooKeeper用来做主节点的容错和数据同步;Marathon则是一个Mesos框架,为部署提供REST API服务,实现服务发现等功能。

实验时,系统预先针对大数据实验内容构建一系列基于CentOS7的特定容器镜像,通过Docker在集群主机内构建容器,充分利用容器资源利用率高的特点,为每个使用平台的用户开辟属于自己完全隔离的Hadoop实验环境。容器内部,用户完全可以像使用linux操作系统一样的使用容器,并且不会被其他用户的集群造成任何影响,仅仅使用几台机器,就可能虚拟出能够支持几十个甚至上百个用户同时使用的隔离集群环境。

3.1.3.2.2 Docker容器技术

大数据实验平台最核心的部分采用Docker容器技术,Docker 是一个开源的应用容器引擎,可以让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使

36 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

用沙箱机制,相互之间不会有任何接口。大数据实验平台通过Docker在容器内部快速自动化部署应用,并通过内核虚拟化技术来提供容器的资源隔离与安全保障等,以此来为大量的学生虚拟创造出多个互相隔离的实验环境,及时实验环境破坏也不影响其他人的使用。同时由于Docker通过操作系统层的虚拟化实现隔离,所以Docker容器在运行时,不需要类似虚拟机(VM)额外的操作系统开销,提高资源利用率,并且提升诸如IO等方面的性能,使得大数据实验平台可以通过少量服务器即可构建出供大量学生进行实验的实验环境。 3.1.3.2.2.1 Docker平台架构

Docker平台架构图如下:

37 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

Docker使用客户端-服务器(client-server)架构模式,Docker客户端会与Docker守护进程进行通信。Docker守护进程会处理复杂繁重的任务,例如建立、运行、发布Docker容器。Docker客户端和守护进程可以运行在同一个系统上,当然也可以使用 Docker客户端去连接一个远程的Docker守护进程。Docker客户端和守护进程之间通过socket或者RESTful API进行通信。如下图所示:

 Docker守护进程

Docker守护进程运行在一台主机上,用户并不直接和守护进程进行交互,而是通过Docker客户端间接和其通信,从来带来安全性和隔离性。

 Docker客户端

Docker客户端,实际上是docker的二进制程序,是主要的用户与Docker交互方式。它接收用户指令并且与背后的Docker守护进程通信,如此来回往复。

 Docker内部

Docker内部分为三大部件:Docker镜像 (Docker images)、Docker仓库 (Docker registeries)、Docker容器(Docker containers)。

Docker镜像是一个只读的模板,镜像是用来创建容器,Docker提供了简单的放来来建立新的镜像或者升级现有的镜像一个镜像可以包含一个运行在Apache上的Web应用和其使用的Ubuntu操作系统。

Docker仓库用来保存镜像,可以理解为代码控制中的代码仓库,分为公有和私有两种,提供了庞大的镜像集合供使用,这些镜像可以是自己创造的也可以在别人的镜像基础上进行创造。

Docker容器和文件夹很类似,一个Docker容器包含了所有的某个应用运行所需要的环境。每一个Docker容器都是从Docker镜像创建的。Docker容器可以运行、开始、停止、移动和删除。每一个Docker容器都是独立和安全的应用平台,Docker容器是Docker的运行部分。

 工作模式

38 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

1) 构建镜像

Docker Image是一个构建容器的只读模板,它包含了容器启动所需的所有信息,包括运行哪些进程和配置数据。 所有的镜像都会基于一个基本镜像构建,紧接着会根据Dockerfile中的指令创建 模板,对于每个指令,在镜像上创建一个新的层。

2) 运行容器

运行容器源于我们在第一步中创建的镜像。当一个容器被启动后,一个读写层会被 添加到镜像的顶层;当分配合适的网络和IP地址后,最应用程序就可以在容器中运行了。 3.1.3.2.2.2 网络环境的搭建

Docker的原生态网络通信是通过NAT和Docker proxy来实现的;利用端口映射和修改宿主机的iptables规则实现了不同容器间、容器与外界的互相访问。然而,这样的NAT方式(SNAT和DNAT)不仅影响效率,同时还使得容器内所看的自己的IP地址和外部所见的该容器IP地址不一致,阻碍了很多集群化功能的实现(如Redis集群、Elastic Search集群的自动组播发现需要基于默认端口规则),使得一些现有的工具无法正常工作。

例如,在一些自动服务注册和发现的应用中,容器中的应用在进行自动注册时只能看到自己内部的IP并将此IP注册,但是其他外部的模块却无法通过此IP来访问该容器应用。

然而,大数据系统由于数据量大、计算量大的特性,必然需要由多个主机组成的一个集群来完成计算分析任务。因此,基于Docker来搭建一个大数据分析系统的必要前提就是保证多个Docker的跨主机通信能够畅通无阻、保持高效。为了解决Docker原生态网络通信的上述问题,在云计算生态圈里涌现了一些优秀的分布式Docker网络配置和管理工具,如flannel、weave、socketplane等,其总体思想是基于物理网络在容器间构造一个overlay网络。从Docker的1.9版本开始,Docker的网络部分自成一块(libnetwork),并支持复杂的Overlay模式。

39 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

Overlay网络的总体思想是对原生态的网络数据包进行封装,这里又可分为在用户层进行封装(如weave、flannel)和在内核层进行封装(如sockplane)。下面分别以flannel为例稍做讲解。

 Flannel的Overlay设计—镜像构建

Flannel在每个节点(主机)上运行一个守护进程(flanneld)。这个守护进程负责为每一个节点分配一个子网段。该分配信息存储在etcd中(一种分布式存储方案)。同时,每个节点上的Docker daemon会从该子网段中为主机上运行的容器分配一个IP地址,如图12-3所示。因此,在容器中的应用所看到的IP地址和外部所看到的该容器的IP地址是一致的。

在转发报文时,Flannel支持不同的后端策略,例如,主机网管模式、UDP模式等。以UDP模式为例,flannel形成了一个Overlay网络,通过TUN设备对每个IP fragment进行UDP包头封装,流程如图12-3所示。

 容器Overlay网络系统设计原理—容器运行

介绍了Flannel工具后,我们透过现象看本质,讨论下设计一个Overlay网络系统的原理和要点。

40 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

Flannel的Overlay网络实现模式

ARP:在经典的物理网络中,当一个主机S访问另一个主机D的时候,S发出的第一个报文就是一个ARP请求的广播报文,交换机会在同一个子网内广播这个报文给所有的子网内节点。如果D在同一个子网内,它会接收到这个请求并将做出回复,使得S和D可以后续进行通信。

在容器环境下,可以如实地把报文广播出去,并通过spanning tree等算法来避免广播回路。此外,还可以通过IP组播的功能来处理ARP请求和响应。最后,还可以基于SDN对全局的网络拓扑信息的把握,通过SDN控制器来实现ARP协议。

IP层互通:在解决了二层网络的通信问题后,还需要解决的就是容器与容器之间、容器与外网的互通。对于容器内的应用可以访问容器外的外网,一般可以采用NAT方式,使得容器最终使用物理宿主机的网关。为了保证容器能够对外提供服务,可以采用类似Docker的端口映射方式实现DNAT,并通过将容器连接到负载均衡设备从而对外提供服务。 3.1.3.2.2.3 Docker容器优势

➢ 运行速度快

系统运行时的性能可以获取极大提升,其管理操作(启动,停止,开始,重启等等) 都是以秒或毫秒为单位的,可以在一瞬间创建随时运行的实验环境。

➢ 部署简单

将应用和系统“容器化”,不添加额外的操作系统,和虚拟机一样部署非常简单,支持一键创造和销毁实验集群,同时实验环境互不干扰,如果实验环境破坏,一键重启即可建立新集群

➢ 安全隔离

采用Mesos+ZooKeeper+Mrathon架构管理集群,实验集群完全隔离。 ➢ 轻量

41 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

拥有足够的“操作系统”,仅需添加或减小镜像即可。在几台服务器上就可以虚拟出大量的实验环境,供上百师生进行教学实验工作。

➢ 成本低

以容器化应用作为交付的标准,立足于云,为开发者和企业提供了一个快速构建、集成、部署、运行容器化应用的平台,帮助高校和企业提高应用开发的迭代效率,简化运维环节,降低运维成本。

➢ 云支持

可以为不计其数的云服务提供创建和管理Linux容器框架。

3.1.3.2.3 Hadoop实验平台

3.1.3.2.3.1 Hadoop架构

Hadoop可以在大数据处理应用中广泛应用,得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

42 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

Hadoop架构图

通过上图我们可以看出,Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。 3.1.3.2.3.2 Hadoop关键技术

下面我们将从HDFS、MapReduce、HBase三大部分详细介绍Hadoop的关键指数:

1. HDFS

HDFS架构图

对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的(参见图 1),这是由它自身的特点决定的。这些节点包括NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个NameNode,因此这是 HDFS 的一个缺点(单点失败)。

43 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

2. MapReduce

MapReduce架构图

MapReduce主要功能如下:

➢ 数据划分和计算任务调度

系统自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点),同时负责监控这些节点的执行状态,并负责Map节点执行的同步控制。

➢ 数据/代码互定位

为了减少数据通信,一个基本原则是本地化数据处理,即一个计算节点尽可能处理其本地磁盘上所分布存储的数据,这实现了代码向数据的迁移;当无法进行这种本地化数据处理时,再寻找其他可用节点并将数据从网络上传送给该节点(数据向代码迁移),但将尽可能从数据所在的本地机架上寻找可用节点以减少

44 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

通信延迟。

➢ 系统优化

为了减少数据通信开销,中间结果数据进入Reduce节点前会进行一定的合并处理;一个Reduce节点所处理的数据可能会来自多个 Map节点,为了避免Reduce计算阶段发生数据相关性,Map节点输出的中间结果需使用一定的策略进行适当的划分处理,保证相关性数据发送到同一个 Reduce节点;此外,系统还进行一些计算性能优化处理,如对最慢的计算任务采用多备份执行、选最快完成者作为结果。

➢ 出错检测和恢复

以低端商用服务器构成的大规模MapReduce计算集群中,节点硬件(主机、磁盘、内存等)出错和软件出错是常态,因此MapReduce需要能检测并隔离出错节点,并调度分配新的节点接管出错节点的计算任务。同时,系统还将维护数据存储的可靠性,用多备份冗余存储机制提高数据存储的可靠性,并能及时检测和恢复出错的数据。

3. HBase

45 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

HBace架构图

HBase即Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。上图描述Hadoop EcoSystem中的各层系统。其中,HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。

此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。 3.1.3.2.3.3 Hadoop优势

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

1) 高可靠性:按位存储和处理数据的能力值得人们信赖。

46 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

2) 高扩展性:在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

3) 高效性:能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

4) 高容错性:能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5) 低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,Hadoop是开源的,项目的软件成本因此会大大降低。 3.1.3.3 主要功能介绍

3.1.3.3.1 登录界面

大数据实验平台登录首页,输入大数据实验平台访问地址,输入相应账号与密码,点击登录即可。

3.1.3.3.2 账号管理

系统管理员和教师角色登录后,可以看到用户账户管理界面。

47 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

系统管理员用户可以在该界面中查看或修改所有的教师和学生用户信息,并可以注册或销毁教师或学生用户账户;

教师用户可以在该界面中查看或修改自己建立的所有学生用户信息,并可以注册或销毁自己的学生用户账户。

3.1.3.3.3 实验管理

此处的集群管理包含“开始实验”和“终止实验”,由于xxxxx据实验平台采用“Docker”技术,因此能够在几乎不占用系统资源情况下,实现大量机器快速创建与销毁,不必担心资源消耗高、启动销毁慢、管理维护难等问题。

(1)开始实验

当需要开始实验时,直接点击实验界面对应实验面板上的启动按钮即可,后

48 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

台会快速为用户新建五台能够支撑该实验的预装CentOS 7操作系统的机器,并配置好各自的主机名和IP地址等。

(2)终止实验

若实验过程中,由于命令敲错等各种原因导致集群无法使用,可在实验页面中随时终止您的实验进程,销毁失效的集群,之后再重新启动该实验,创建新的集群。

3.1.3.3.4 资源管理

系统具备资源监控管理功能,可实时展示系统内的集群使用情况、人数上限和当前使用量情况,通过对实验平台状态的监控,以实现对资源的不断优化。

49 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.3.5 学习资料

大数据实验平台提供实验所需的学习资料,学生在做实验的同时可查看和下载每个实验步骤的操作手册及大数据教材配套PPT。

50 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

51 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.3.6 我的报告

学生通过我的报告查看自己所做的每个实验过程及最终得分。

3.1.3.3.7 相关下载

大数据实验平台的相关下载界面提供了实验所需的软件及插件的下载,为避免软件版本不同导致实验环境配置错误,请尽量下载和使用此处指定的软件版本与插件。

52 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.4 配套资源

作为一个可供大量学生完成大数据与云计算实验的集成环境,该平台同步提供了配套的培训服务,对于教学组件的安装、配置,教材、实验手册等具体应用提供一站式服务,有助于高校更好地满足课程设计、课程上机实验、实习实训、科研训练等多方面需求,并在一定程度上缓解大数据师资不足的问题。对于各大高校而言,即使没有任何大数据实验基础,该平台也能助其轻松开展大数据与云计算的教学、实验与科研。具体资源如下:

3.1.3.4.1 内容充实的课程体系

在《实战Hadoop2.0——从云计算到大数据》和实验手册的指导之下,大数据实验平台解决方案涵盖大数据算法、接口、工具、平台等多方面内容,从大数据监测与收集、大数据存储与处理、大数据分析与挖掘直至大数据创新,帮助高校构建完善的大数据课程体系。

课程体系

53 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.4.2 多元化的大数据资源包

➢ 大数据系列教材

《实战Hadoop2.0》 :国内第一本Hadoop编程书籍的升级版——《实战Hadoop2.0》及其配套PPT(国内知名云计算专家、中国信息协会大数据分会副会长刘鹏倾力打造)

实战Hadoop2.0

在此之前,刘鹏教授带领编著团队,相继出版了《云计算》、《大数据》(《云计算》已经被全国高校采用,其被引用量排名全国计算机图书第一名),并在教材之外,辅助提供相应的教学计划、课件、实验规划等。

同时,xxxx数据团队联合全国各高校老师,为本科和高职院校分别准备了《大数据可视化》、《深度学习》、《数据挖掘》、《虚拟化与容器》以及《R语言》、《大数据基础》、《大数据实践》、《大数据系统运维》、《数据清洗》、《数据挖掘基础》、《云计算基础》两个系列教材,目前已经陆续进入定稿出版阶段。 ➢ 综合85个大数据实验的实验手册及配套高清视频课程:涵盖原理验证、综

合应用、自主设计及创新的多层次实验内容,每个实验呈现详细的实验目的、实验内容、实验原理和实验流程指导,配套相应的实验数据和高清视频课程,

54 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

参照手册即可轻松完成每个实验。

55 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实验手册大纲

➢ 网站资源:国内专业领域排名第一的网站——中国大数据、中国云计算、

中国存储、中国物联网、中国智慧城市等提供全线支持,一网打尽各类优质资源。

56 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.4.3 实验数据提供

基于大数据实验需求,与大数据实验平台配套提供的还有各种实验数据,其中不仅包含共用的公有数据,每一套大数据组件也有自己的实验数据,种类丰富,应用性强。

实验数据将做打包处理,不同的实验将搭配不同的数据与实验工具,解决实验数据短缺的困扰,在实验环境与实验手册的基础上,做到有设备就能实验,有数据就会实验。 3.1.3.5 专业培训

3.1.3.5.1 培训简介

众所周知,大数据迎来黄金发展期,面对百万级的大数据人才缺口,大数据

57 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

专业建设早已提上日程。然而,大数据专业的人才培养计划、课程体系直至师资力量等还处于试错阶段,各高校老师对于相关专业的开展仍然处于茫然状态。为此,xx大数据提供以理论+实战的培训形式,为各大高校提供师资力量培训。

xxx大数据提供的大数据专业师资力量培训由金陵科技学院与江苏省云计算论坛共同主办,英特尔(中国)公司与电子工业出版社协办,培训由清华大学博士、中国信息协会大数据分会副会长刘鹏教授倾情授课,致力于用高效的办法,在几天内为各大高校免费培养一大批大数据师资力量,帮助全国教师对大数据跨过从理论到实践、从知道到用过的门槛。

3.1.3.5.2 往期培训介绍

曹骝博士深度学习培训

3.1.3.6 平台优势特性

3.1.3.6.1 沙箱机制

xx数据实验平台采用Docker容器技术,容器之间采用沙箱机制,相互之间

58 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

没有任何接口,因此通过大数据实验平台创造出的实验环境是相互隔离的,即使由于部分学生的误操作导致实验环境被破坏,也不会影响到其他同学的实验,一键重启就可以拥有新的集群。

Docker统一平台示意图

3.1.3.6.2 快速部署

xx大数据实验平台可快速部署实验环境,支持一键创建和销毁实验集群,可在一瞬间创建出供大量学生同时实验的实验环境,同时实验环境可快速销毁和重建,可供老师简单便捷的进行大数据实验和教学工作,无需花大量时间进行每个学生的实验环境部署工作,大幅度的节省人员管理维护成本。

59 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

一键创建和销毁实验集群

3.1.3.6.3 多机实验环境

系统采用分布式集群架构,多节点冗余架构设计,可面向大数据的分布式系统,为每个学生提供多机实验环境,整个系统理论支持用户数量无上限,可为每个学生分配5套实验虚拟集群,可满足大量学生同时进行多个实验,并进行各实验的相互对比学习。

3.1.3.6.4 资源最大化利用

大数据实验平台通过对Docker容器技术的深度应用,可将服务器资源的利用率发挥到最大,通过几台服务器便可构建出可供上百学生同时实验的实验平台,大幅度的节省了硬件投入成本。

3.1.3.6.5 快速高效易扩展

大数据实验平台采用分布式架构,支持性能横向扩展,只需增加节点服务器即可实现同时上机人数的扩容,同时也可以通过减少节点服务来减少同时上机人数,以实现设备的最高效利用。

60 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.6.6 低运维成本

xx数据实验平台可实现大数据实验集群的秒级创建、销毁,学生在校期间可独享自己的多个大数据集群;实验环境损坏只需销毁重建即可,无需专人维护,大数据实验平台只需几台服务就可以构建,设备运维成本很低。

3.1.3.6.7 教学体系完善

xxx数据实验平台不仅提供可供上百学生同时实验的教学平台,还提供了国内第一本Hadoop编程书籍的升级版——《实战Hadoop2.0》及其配套PPT(国内知名云计算专家、中国信息协会大数据分会副会长刘鹏倾力打造),以及实验相关的实验手册,同时可提供实验所需的大数据资源和企业实训项目,帮助高校打造完善的大数据教学体系。 3.1.3.7 主要实验介绍

3.1.3.7.1 快速搭建大数据实验环境

大数据实验平台采用Docker容器技术,通过少量机器虚拟出成百上千的Hadoop、HBase、Spark、Storm、HDFS等实验集群,可快速同时为每个学生提供多套集群进行实验,搭建可供大量学生完成所有大数据实验的集成环境。例如,60个学生同时在线做大数据实验,只需要小规模机器(11台)就可以同时为每个学生提供至少5套集群,每个学生的实验环境不仅相互隔离、彼此互不干扰,即使某个学生的实验环境出现问题,对其他人也没有影响,只需要重启就可以重新拥有一套新集群。

因此在我校中心机房部署的大数据实验平台可以快速给全校各个院系的学生进行大数据的实验,同时各学科数据还可根据自己的需要导入实验数据进行实验、分析,大数据实验平台同时可提供外网地址,可提供校外机构使用,满足全校师生的教学需求。

61 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.7.1.1 HDFS部署实验

HDFS是一种可在通用硬件上运行的分布式文件系统,具备高容错性和支持廉价部署等特点,非常适合大规模数据集上的应用,是大数据实验非常重要的一环。

通过HDFS部署的实验可以让学生了解和熟悉HDFS,从而实现以下几点目的: ➢ 理解HDFS存在的原因 ➢ 理解HDFS体系架构 ➢ 理解master/slave架构

➢ 理解为何配置文件里只需指定主服务、无需指定从服务 ➢ 理解为何需要客户端节点

➢ 学会逐一启动HDFS和统一启动HDFS ➢ 学会在HDFS存储器里新建文件夹,新建文件 HDFS相关的实验如下图所示:

62 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

HDFS实验过程

3.1.3.7.1.2 YARN部署实验

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

YARN部署实验,主要分为配置YARN配置文件、统一启动YRAN、验证YARN启动成功和提交简单的任务。通过实验可让学生学会如何搭建YARN分布式集群,并能够使用YARN集群提交一些简单的任务,理解YARN作为Hadoop生态中的资源管理器的意义。

YARN部署实验过程如下图所示:

63 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

YARN启动

任务提交

64 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实验终端过程显示

3.1.3.7.2 MapReduce实验

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念\"Map(映射)\"和\"Reduce(归约)\",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键

65 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

MapReduce实验主要分为单词计数、二次排序、计数器、join操作和分布式缓存5个实验,具体如下: 3.1.3.7.2.1 单词计数实验

通过实验可实现以下目的: ➢ 理解MapReduce编程思想 ➢ 会编写MapReduce版本WordCount ➢ 会执行该程序 ➢ 自行分析执行过程

本实验主要分为,确认前期准备,编写MapReduce程序,打包提交代码。查看运行结果这几个步骤,详细如下:

启动Hadoop

执行命令启动前面实验部署好的Hadoop系统。

[root@master ~]# cd /usr/cstor/hadoop/ [root@master hadoop]# sbin/start-all.sh

验证HDFS上目前没有生成wordcount的文件夹

[root@client ~]# cd /usr/local/hadoop/

[root@client hadoop]# bin/hadoop fs -ls / #查看HDFS上根目录文件 /

此时HDFS上应该是没有wordcount文件夹。 上传数据文件到HDFS

[root@client ~]# cd /usr/local/hadoop/

[root@client hadoop]# bin/hadoop fs -put /root/data/5/word /

66 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

编写MapReduce程序

主要编写Map和Reduce类,其中Map过程需要继承

org.apache.hadoop.mapreduce包中Mapper类,并重写其map方法;Reduce过程需要继承org.apache.hadoop.mapreduce包中Reduce类,并重写其reduce方法。

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

使用Eclipse开发工具将该代码打包

假定打包后的文件名为hdpAction.jar,主类WordCount位于包njupt下,则可使用如下命令向YARN集群提交本应用。

[root@client ~]# ./yarn jar hdpAction.jar njupt.WordCount /word /wordcount

其中“yarn”为命令,“jar”为命令参数,后面紧跟打包后的代码地址,“njupt”为包名,“WordCount”为主类名,“/word”为输入文件在HDFS中的位置,/wordcount为输出文件在HDFS中的位置。

67 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

程序运行成功

3.1.3.7.2.2 二次排序

通过实验可实现以下目的:

➢ 基于MapReduce思想,编写SecondarySort程序。 ➢ 查看二次排序后结果。

MR默认会对键进行排序,然而有的时候我们也有对值进行排序的需求。满足这种需求一是可以在reduce阶段排序收集过来的values,但是,如果有数量巨大的values可能就会导致内存溢出等问题,这就是二次排序应用的场景——将对值的排序也安排到MR计算过程之中,而不是单独来做。

二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。

通过代码编写实验结果如下:

68 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

输入数据

输入数据如下:secsortdata.txt ('/t'分割)(数据放在/root/data/6目录下)

7 444 3 9999 7 333 4 22 3 7777 7 555 3 6666 6 0 3 8888 4 11

输出显示

在client上执行对hdfs上的文件/user/mapreduce/secsort/out/part-r-00000内容查看的操作

[root@client hadoop]# bin/hadoop fs -cat /user/mapreduce/secsort/out/p*

如果屏幕上显示如下:

3.1.3.7.2.3 计数器

通过实验可实现以下目的:

69 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

➢ 基于MapReduce思想,编写计数器程序。

➢ 基于MapReduce思想,能执行计数器程序和分析执行过程。 通过代码编写和执行实验结果如下: 输入数据

输入数据如下:counters.txt(/t分割)(数据放在/root/data/7目录下)

输出显示

屏幕上将会输出如下信息:

3.1.3.7.2.4 join操作

通过实验可实现以下目的:

70 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

➢ 基于MapReduce思想,编写两文件join操作的程序。 ➢ 基于MapReduce思想,能执行join程序和分析执行过程。 通过代码编写和执行实验结果如下: 输入数据

输入数据如下:data.txt(数据放在/root/data/8目录下):

输入数据如下:info.txt(数据放在/root/data/8目录下):

输出显示

在client上执行对hdfs上的文件/user/mapreduce/MRjoin/out/part-r-00000内容查看的操作:

71 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.7.2.5 分布式缓存

通过实验可实现以下目的: ➢ 理解序列号与反序列化 ➢ 熟悉Configuration类

➢ 学会使用Configuration类进行参数传递

➢ 传递;学会在Map或Reduce阶段引用Configuration传来的参数; ➢ 理解分布式缓存“加载小表、扫描大表”的处理思想

通过实验将一个大为100G的大表big.txt和一个大小为1M的小表small.txt,通过MapReduce思想编程实现判断小表中单词在大表中出现次数。

准备数据

登录client机,使用“vi”命令新建文件“/root/big.txt”,接着在该文件里写入“aaa至zzz”,新建好后,使用cat命令确认文件内容:

上传数据

接着,使用命令将client机本地文件“/root/big.txt”和“/root/small.txt”上传至HDFS的“/user/root/mr/in”目录:

通过编写和执行代码实现以下实验结果:

72 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.7.3 Hive实验

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

HIVE实验分为部署Hive、新建Hive表、Hive分区,具体如下: 3.1.3.7.3.1 部署Hive

通过部署Hive实验可实现以下目的: ➢ 理解Hive存在的原因 ➢ 理解Hive的工作原理 ➢ 理解Hive的体系架构 ➢ 学会如何进行内嵌模式部署 ➢ 将元数据存储在HDFS上

73 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

安装部署

在client机上操作:首先确定存在hive:

配置HDFS

先为Hive配置Hadoop安装路径,待解压完成后,进入Hive的配置文件夹conf目录下,接着将Hive的环境变量模板文件复制成环境变量文件。

实验结果如下:

74 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.7.3.2 新建Hive表

通过部署新建Hive表实验可实现以下目的: ➢ 学会创建Hive表 ➢ 显示Hive中所有的表 ➢ 显示Hive表中所有的列项 ➢ 修改和删除Hive中的表 启动Hive

执行启动Hive命令

创建表

创建一个有两个字段的pokes表,其中第一列名为foo,数据类型为INT,第二列名为bar,类型为STRING。

75 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

显示表

显示表列

更改和删除表

实验结果如下:

76 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.3.7.4 Spark实验

Spark被定义为一个开源的、基于内存计算的、运行在分布式集群上的、快速和通用的大数据并行计算框架。它提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件集群之上,以提供高性价比的大数据计算解决方案。Spark官网地址是Spark.apache.org。

通过Spark实验可以实现以下实验目的: ➢ 了解Spark生态圈,理解Spark体系架构; ➢ 学会部署和启动Spark集群; ➢ 能够配置Spark集群使用HDFS

77 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实验过程如下:

每位学生通过Spark实验构建出Spark集群,在master上部署主服务Master;slave0、1、2上部署从服务Worker;client上部署Spark客户端,搭建好集群后,提交并运行Spark示例代码WordCount,将client上某文件上传至HDFS里刚才新建的目录。

配置Spark集群

在master机上编辑Spark的slaves文件,通过文件编辑了解和熟悉Spark原理。

配置HDFS

通过配置HDFS将将Spark环境变量模板复制成环境变量文件,让学生可以具备配置HDFS使用Spark的能力。

提交Spark任务

通过在client机上操作,使用Shell命令向Spark集群提交Spark-App,学会部署和启动Spark集群。

78 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实验结果

通过执行命令查看实验结果如下:

3.1.3.7.5 综合实战实验

3.1.3.7.5.1 交通大数据实验

随着现代城市的发展进程,交通问题越发严峻,通过大数据手段解决交通问题是未来的必然趋势,通过交通大数据实验,增加学生在交通行业大数据的实战经验。具体实验目标:

➢ 基于MaoReduce思绪,编写车牌识别程序; ➢ 实现对某地监控图片中的车牌识别; ➢ 基于大数据分析实现对外省车辆的统计; ➢ 完成对套牌车辆的识别工作,并得出结果。 实验过程如下: 实验原理

79 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实验手册提供详细的编程示例,该实战实验主要是通过利用WordCount思想,在Reduce阶段不输入“苏”车牌即可,对于套牌车辆的识别,Map阶段与WordCount是一样的,在Reduce阶段统计相同车牌的情况,部分编程示例如下:

编程示例

环境准备

将实验数据上传到HDFS,包括两个部分,一部分是车牌照片和车牌对应的plane.ext文件。新建对应目录后,将动态库所需要的配置文件拷贝至Hadoop根目录下。

将代码打包提交后实现以下实验结果 : 查看外省车辆统计情况:

80 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

查看套牌车辆情况

调取套牌车辆图片

3.1.3.7.5.2 互联网数据处理

随着移动互联网的发展,互联网产生了爆炸性的数据量,通过互联网数据处理实战实验可实现以下目标:

➢ 使用分布式的思想对数据进行清洗、处理; ➢ 考虑大数据的环境,对数据处理的方法进行优化; ➢ 利用大数据的思路,了解通用搜索引擎的流程; ➢ 了解Hbase的索引建立,了解互联网数据爬取。 实验原理

81 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

首先从淘宝的网页中爬取部分商品信息,然后从这些信息中提取我们所需要的几项数据,将其存储在Hbase中,然后通过关键词搜索将这些数据提取出来。

新建createindex项目

新建createindex的项目主要分为几个步骤,新建Hadoop任务和Map类和Reduce类,新建任务类,项目目录结构如下:

部分代码如下:

82 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

新建demo JavaWeb项目

该项目的主要作用是提供Web界面爬取淘宝数据和搜索数据,目录结构如下:

83 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

建立关键词索引

通过搜索的内容,并输入想选取的项数,然后点击搜索,就会弹出想要的关键词数据。

实验结果

84 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

爬取结果如下:

建立索引任务如下:

85 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

搜索结果展示如下:

3.1.3.7.5.3 精确营销

当下,各种资讯呈爆炸性增长态势,如何从海量的电影世界中迅速推送适合个体观众的电影,已经成为每一个电影网站或搜索引擎必须要实现的功能之一。

通过实验可实现以下目的:

➢ 了解常用的基于矩阵分解的协同过滤推荐算法的基本原理 ➢ 掌握Spark MLlib中对基于模型的协同过滤算法的封装函数的使用 ➢ 对Spark中机器学习模块内容加深理解

➢ 根据提供的电影评分数据,利用Spark进行训练,得到一个最佳推荐模

86 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

➢ 用实际数据和平均值这两方面评价该模型的准确度 ➢ 根据我的评分数据向我推荐10部电影 实验原理

协同过滤算法按照数据使用,可以分为: 1)基于用户(UserCF) 2)基于商品(ItemCF) 3)基于模型(ModelCF) 按照模型,又可以分为:

最近邻模型:基于距离的协同过滤算法

Latent Factor Mode(SVD):基于矩阵分解的模型 Graph:图模型,社会网络图模型

本次实验,使用的协同过滤算法是基于矩阵分解的模型,就是基于样本的用户喜好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测,计算推荐。

ALS是alternating least squares的缩写,意为交替最小二乘法,该方法常用于基于矩阵分解的推荐系统中。对于一个R(观众对电影的一个评价矩阵)可以分解为U(观众的特征矩阵)和V(电影的特征矩阵),在这个矩阵分解的过程中,评分缺失项得到了填充,也就是说我们可以基于这个填充的评分来给用户最商品推荐了。

MLlib支持基于模型的协同过滤算法,其中user和product对应图中的user和movie,user和product之间有一些隐藏因子。MLlib使用ALS(alternating least squares)来学习得到这些潜在因子。

87 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

数据集准备

在本地文件/data/39/movie下有本次实验数据集,文件列表如下:

各文件数据格式如下(详细见README文件): 1)用户数据(users.dat)

用户ID::性别::年龄::职业编号::邮编

6031::F::18::0::45123 6032::M::45::7::55108 6033::M::50::13::78232 6034::M::25::14::94117 6035::F::25::1::78734 6036::F::25::15::32603 6037::F::45::1::76006

2)电影数据(movies.dat) 电影ID::电影名称::电影种类

3943::Bamboozled (2000)::Comedy

88 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3944::Bootmen (2000)::Comedy|Drama

3945::Digimon: The Movie (2000)::Adventure|Animation|Children's 3946::Get Carter (2000)::Action|Drama|Thriller 3947::Get Carter (1971)::Thriller 3948::Meet the Parents (2000)::Comedy 3949::Requiem for a Dream (2000)::Drama

3)评分数据(ratings.dat) 用户ID::电影ID::评分::时间

6040::2022::5::956716207 6040::2028::5::956704519 6040::1080::4::957717322 6040::1089::4::956704996 6040::1090::3::956715518 6040::1091::1::956716541 6040::1094::5::956704887 6040::562::5::956704746

4)我的评分数据(test.dat),格式同评分数据(ratings.dat) 将以上数据上传到HDFS文件系统:

cd /use/cstor/hadoop/bin

hdfs dfs -copyFromLocal /data/39/movie/ /

实验结果

代码执行过程中打印日志信息如下:

89 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

所有数据数量统计图

评分数据切分的各数据集统计图

训练时的参数及对应的误差图

最佳模型的参数及对应的误差图

均值预测的误差图

最佳模型预测相比均值预测比较图

90 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

最佳模型下向我推荐的电影列表

最后通过与应用的可视化相结合,可以得出:“猜你喜欢”、“最热电影”、“最烧脑电影”等等符合个体差异的类目。

3.1.3.7.5.4 环境大数据

近年来,由于雾霾问题的持续发酵,越来越多的人们开始关注环境数据,包括空气质量数据、天气数据等等。如果每小时记录一次城市的天气实况和空气质量信息的实况信息,则每个城市每天会产生24条环境信息,全国所有2500个城市每天的信息将达到6万多条,每年会产生2190条数据记录,已经可以称为环

91 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

境大数据。通过环境大数据实验可实现以下目标:

➢ 学会分析环境数据文件;

➢ 学会编写环境数据文件并进行统计的代码;

➢ 从历史天气和空气质量数据文件中,分析出环境统一结果; 具体实验过程如下: 查看环境数据

在服务器上执行命令查看环境数据

编写月平均气温统计程序

新建MapReduce项目,并编写代码,部分代码如下:

92 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

运行程序查看月平均气温计算结果

查看日空气质量统计结果

93 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

查看各空气质量天数统计

3.1.3.7.5.5 智能硬件大数据托管

物联网智能硬件的开发需要硬件研发和软件研发相互配合,才能实现设备的互联互通,本实验主要是从软件的角度去了解智能硬件开发。

硬件设备想要实现智能化首先需要做的是能将自己的传感器数据传输到互联网中,我们通过收集的传感器上传的数据,然后使用深度学习系统或者其他分析系统判定设备的状态,然后通过互联网平台向设备下达基于数据分析之后的最优化命令。实际的智能硬件研发中,硬件厂商往往智能研发硬件的数据采集设备,无法研发设备数据的托管和分析平台。

万物云是一个物联网设备和应用的数据托管平台。智能设备可使用多种协议

94 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

轻松安全地向万物云提交所产生的设备数据,在服务平台上进行存储和处理,并通过数据应用编程接口向各种物联网应用提供可靠的跨平台的数据查询和调用服务。通过使用万物云平台所提供的各项服务,用户可以收集、处理和分析互连智能设备生成的数据,在物联网应用中方便地调用这些设备数据,而无需投资,安装和管理任何基础设施,不仅大大降低了项目开发的技术门槛,缩短开发周期,而且研发和营运成本也成倍降低。

本实验主要目标如下:

➢ 掌握基于万物云的智能硬件流程 ➢ 熟悉智能硬件的上传、查询、分析 ➢ 了解智能硬件的开发过程

本实验主要用Java去模拟智能硬件设备,然后使用模拟的代码完成硬件接口调用,向万物云平台存储数据,查询分析数据。

95 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实验过程如下: 万物云平台注册

登录万物云平台(www.wanwuyun.com)注册一个用户,如下图:

96 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

登录万物云平台建立智能硬件APP,用于存储智能硬件数据

建立数据存储表

添加智能硬件到上报的数据列,本次实验主要模拟一个带有GPS定位的温度和PM2.5测试硬件环境设备。

97 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

智能硬件接入平台

首先用代码模拟一个智能硬件,然后完成智能硬件的接入,获取设备安全码,上报数据,查询数据,简单数据分析,以获取平均值为例,代码结构如下:

98 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

部分核心代码 数据上传

数据查询

简单数据分析

99 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实验结果如下:

实验结束后可以在万物云网站上自己建立的设备和设备上报的数据。

3.1.3.7.5.6 银行信贷风险评估

银行贷款员需要分析数据,以便弄清贷款申请者是“安全的”,因此需要构建一个模型或分类器来预测类标号,其预测结果可以作为贷款员房贷提供相关的依据。本次实验提取贷款用户的相关特征,使用Spark MLlib构建风险评估模型,使用相关分类算法将用户分为不同的等级,作为银行房贷参考等级,具体实验目标如下:

100 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

➢ 熟悉Spark MLlib分类算法的使用流程; ➢ 对原始数据进行分类器模型训练;

➢ 用逻辑回归法将用户分为高风险、低风险两类。 实验原理

1.分类过程及评估指标

在使用分类算法进行数据分类时,均须经过学习与分类两个阶段。

(1) 学习阶段

学习阶段按以下步骤执行:

A.选定样本数据,将该数据集划分为训练样本与测试样本两部分,训练样本与测试样本不能有重叠部分,否则会严重干扰性能评估

B.提取样本数据特征,在训练样本上执行选定的分类算法,生成分类器 C.在测试数据上执行分类器,生产测试报告

D.根据测试报告,将分类结果和真实类别相比较,计算相应的评估标准,评估分类器性能,如果性能不行则需返回第二步,调整相关参数,重新执行新的分类器直到性能达到预期要求。

(2) 分类阶段

A.搜集新样板,对新样板进行数据提取

B.使用在学习阶段的分类器,对样本数据进行分类 C.判别新样本所属类别 实验步骤

IDEA配置,在Intellij EDEA中导入Spark开发包,其中的jar包能满足开发需求。

101 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

代码编写 获取数据源

清洗数据

数据随机分为训练集和测试集

训练分类模型

102 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

预测测试样本的类别

计算并输出准确率

输出权重最大的10个特征

保存于加载模型

服务器运行

编译器打包后进行相应的配置和输出

103 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实验结果如下

由截图可知,该分类模型准确率为71.2%,耗时为23579毫毛,权重最大的前五个特征为第5、6、11、12、13个特征。

3.1.4 桌面虚拟化

3.1.4.1 平台整体架构

104 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

整体桌面云方案是由云终端Thinclient、虚拟桌面控制器OVD、虚拟机管理平台OVP、服务器存储设备等组成,实现将校园用户的办公桌面统一部署于服务器上,员工的个人数据也集中存储,然后通过网络(局域网或广域网)将个人桌面系统快速交付给员工,员工可以通过各种不同类型的终端设备如瘦客户机、笔记本、手机及平板等随时随地接入办公,打造一种新型的桌面办公模式。

在xx大数据桌面虚拟化服务体系下,任何用户无论何时、何地都可跨平台、跨终端、跨协议按需弹性配置自己的桌面、应用和数据,真正实现了从购买硬件到购买资源的转变。

xx大数据桌面虚拟化解决方案有助于IT机构改进现有信息化战略,使信息化战略更好地为企业战略服务,保证企业专注于主营业务,获得持久稳固的竞争优势。同时也提供了支持安卓、IOS系统的Receiver,用户在下载安装后可以随时随地通过各种不同的设备登录自己的桌面。 3.1.4.2 平台组件解析

桌面云平台以独享桌面的形式,将桌面作为一种按需服务随时随地交付给任何用户,利用独特的VDX桌面传输协议, OVD可以快速而安全地向企业内的所有用户交付整个桌面,不管他们是固定办公员工,还是移动办公员工。平台核心组件如下:

虚拟机管理平台OVP:构建硬件资源可动态调度的服务器集群环境,通过虚

105 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

拟机可承载Windows和Linux桌面操作系统和应用,实现桌面池的统一管理和性能监控。

独有的对称式集群架构,可以登陆到任意一台服务器对整个集群进行管理,无需单独安装中央管理服务器,从而保证了管理平台的高可用性。

虚拟桌面控制器OVD:与OVP协同工作,内置域服务提供集中式的桌面用户认证,自动化的桌面管理,控制OVP进行创建、更新、还原虚拟桌面等操作。在不依赖于虚拟机的网络情况下将虚拟桌面安全,快速,可靠地交付到Thinclient。

云终端Thinclient:无论是体积小巧,功率低的瘦客户机,还是PC机,笔记本,智能终端,都能作为云终端Thinclient的软件载体,随时随地连接到虚拟桌面进行办公应用。 3.1.4.3 平台优势特性

3.1.4.3.1 数据安全

云终端无CPU无硬盘无内存,没有本地存储设备,不会存储涉及应用系统相

关的数据、文件等,避免了病毒、恶意代码等入侵,消除了与盗窃相关的安全风险,因而在发生丢失或损坏时,只需换上新的xx瘦客户端,即插即用,无需其他繁琐操作;

数据和应用程序保存于数据中心的服务器上,严格遵循相关法律,保证用户资料的严密性。

3.1.4.3.2 数据存储可靠性

数据和应用程序都处于服务器上,不会因为用户端出现故障而导致信息的丢

失;

产品故障率很低,使用寿命长,能长时间的可靠工作。

106 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.1.4.3.3 易于管理

xx大数据桌面虚拟化平台将组织中所有桌面的管控集中在服务器或数据中

心中,不需要一个专门的IT部门去管理众多桌面,通过xx大数据提供的管理工具即可以轻松的实现日常管理维护以及升级等工作。

3.1.4.3.4 强大兼容性

接口兼容性:USB接口,支持USB2.0协议,并向下兼容USB1.1、USB1.0协议;USB接口可支持U盘、移动硬盘、鼠标键盘、USBkey、相机、手机等多种USB设备;

云桌面支持多种系统:Windows 2008 R2、Windows XP、Windows 7、Linux。

3.1.5 教学云盘

3.1.5.1 网盘系统设计

3.1.5.1.1 功能架构

系统采用基于云存储的平台设计模式,打造的同步存储检索云。

xx网盘系统包括:【文件同步管理系统】、【文件存储服务系统】、【文件分析系统】。

文件存储服务系统是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。文件同步管理系统是指以云存储系统为基础,通过多种智能设备终端收集数据,将数据同步到统一存储云上。文件分析系统是指在已有数据的基础上,通过全文索引,按照权限划分等方式对存储系统中的各种类型数据进行全文检索,同时对视频等相关文件进行格式转换,供用户进行在线浏览。

107 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

文件同步管理系统应用示意图

文件存储服务系统采用cStor云存储系统,为文件管理服务端提供底层数据存储及管理服务。可以作为标准的存储系统为网盘应用系统提供标准的数据存储。

108 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

存储系统应用示意图

3.1.5.1.2 设计原则

1. 高可用性原则:7x24小时不间断可用性。

2. 高性能原则:具有较高实用性,有效实现万级别用户服务。 3. 高性价比原则。

4. 据用户及业务规模作出最合理的配置方案。 5. 高可管理性原则。

6. 统一前端、分布中端、统一后端存储架构。 7. 先进性/可扩展性原则。

8. 采用先进架构及技术,可升级、易扩容,可持续。

3.1.5.1.3 系统功能

xx网盘系统旨在方便用户对自己文件的备份,保存。在使用xx网盘中可让用户体会到如下优势:

➢ 便于携带:将常用文件存入网络硬盘,在需要的时候既可以用来展示,还可

以给其他人发送电子邮件等,同时也避免了携带太多文件的麻烦。 ➢ 便于保管:可以将个人电脑中的重要文件存入网络硬盘,防止因为电脑以外

造成的文件丢失。

➢ 便于共享:将想要共享的文件、照片、视频等进行外链分享,方便同事等对

这些珍贵文件进行查看。

➢ 利于文件珍藏:由于个人电脑硬盘空间有限,可以将喜欢的文件存入网盘即

可。

109 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

➢ 节省时间:将自己常用的软件及电脑驱动软件存入网盘,即节约本地硬盘空

间,也省去了寻找相关软件的麻烦。

➢ 保护隐私:可将自己电脑中的隐私文件存入私人网盘,并设置访问密码和访

问权限,从而有效地保护私人秘密。

➢ 操作直观方便简单:根据所使用的网络硬盘直接在网上注册使用。 ➢ 安全可靠:使用备份技术对数据备份,即使一块数据损坏还存在多个备份。 3.1.5.2 文件同步管理系统

xx网盘系统是针对用户文件管理混乱且易丢失的情况,且不断增长的情况下,造成用户文档管理低效而开发的云存储云盘软件,提供多终端无缝访问,不改变用户使用习惯的前提下,为用户提供高效文档管理利器。

xx网盘系统还提供的目录共享、文件历史版本恢复、文件外链、目录操作历史等特色功能,让用户更方便协作、为文档编辑提供补偿机制、提供API文档与外部接口,同时提供丰富的插件来满足不同用户的个性化需求。同时提供用户自主注册

3.1.5.2.1 功能描述

基于云存储平台的多终端数据同步服务,为用户提供个性化的数据管理方式。系统提供了一套完整的数据应用、管理、监控的解决方案。同时,同步管理系统作为数据应用系统,为用户提供个人数据存储、分享服务,保护数据安全等基础服务。此外,灵活的空间管理、集中的账户配置、实时的日志审计方便系统管理者实现全方位的管理和监控。

110 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

系统整体部署图

满足用户安全访问特性,通过防火墙的控制,可以达到安全访问的要求,同时对用户数据集进行模块化分析,防止用户数据被盗用。

3.1.5.2.2 主要功能点

➢ 收集数据集中存储

1) 为为用户提供安全可靠的数据集中存储环境。 2) 避免数据不必要丢失。 3) 随时随地访问数据。

4) 提供基于PC、web、Android、iPhone/iPad等终端设备的数据同步客户端。 ➢ 多种格式数据收集

1) 通讯录:备份通讯录联系人,快速整理通讯录。 2) 短信:手机端增量备份短信,网页实时查看搜索。

111 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3) 视频:本地视频同步上传,在线视频同步播放。 4) 图片:手机端wifi智能图片同步。 5) 文件:各种格式文件快速同步。

6) 笔记备份同步:手机端添加记事笔记,实时同步。 ➢ 统一管理

1) 提供子账号功能,并可对子账户进行权限分配。

2) 元/流分离设计模式,支持秒传机制,版本历史,事件列表等。 ➢ 安全可靠

1) 基于OAuth协议,保证数据传输安全。

2) 可以支持网络银行SSL加密技术,文件加密存储和传输。

3.1.5.2.3 主要特点

1) 元/流分开设计模式,支持秒传,去重复

文件的描述信息和文件内容本身分开存储,将描述信息存储到数据库,文件内容存到任cStor云存储系统。如果服务器存在相同内容的文件,则使用服务器上已经存储的副本,省去再次上传的消耗。 2) 提供标准REST风格 API

xx网盘系统开放了rest风格的API,以便开发者使用。xx网盘系统使用的客户端/移动端均是基于API进行开发的。 3) 基于OAuth2.0的用户验证机制

Oauth是安全的,用户登录完成之后,客户端/移动端将都不在保存用户的帐号信息(用户名和密码),为之后的API服务提供了简单的、标准的访问方式。

112 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

4) 插件机制

xx网盘系统提供插件机制,即可以动态的添加或者删除一些功能。到目前为止,我们提供了40多个功能各异的插件,另外,用户开发如有相关需求也可以开发一些插件以满足个性化需求。 5) 可移植性

xx网盘系统支持跨平台,可以在Windows、Linux、MAC OS等平台上运行,用户可以根据自己的需求选择不同的服务器平台。 6) 方便与现有系统集成

提供AD(LDAP)域验证以及CAS验证方式, 可和现有系统方便集成。 3.1.5.3 文件分析系统

随着信息化的普及,用户可收集文档途径增多,同时对用户有益的内容也越来越多,用户收集到信息存储后,怎么让用户方便快捷的查找文档成为提高用户体验一个非常重要的标准。

对用户在云存储系统中的数据进行全文索引处理,用户可方便的对自己拥有文档进行检索。

针对用户的 office 文档、电子邮件、合同,单据等非结构化数据在数据量很大的情况下,用户很难从中找到需要的信息,云检索系统旨在解决此用户需求,满足用户对大量非结构化数据进行检索,使用户能快速、高效的查询上述类型的非结构化数据。

113 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

系统查询界面用户管理统计报表统一查询接口视图模块分类控制权限控制时间控制数据分析控制模块分词模块分词分词功能类多种分词方法管理分词运算时间分词准确性索引库索引管理创建索引访问索引更新索引索引优化模型模块结构化数据各种类型数据导入系统日志记录非结构化数据内容模块

系统内部构架图

1. 提供对Word、Excel、PowerPoint、PDF、TXT以及其它文档内容的查询。 2. 提供对上述文件内容的在线浏览功能。 检索系统特点:

1. 与存储同步系统完美融合,适配权限分配,对查询信息进行灵活处理。 2. 检索速度快,不受硬件性能影响。

3. 检索系统分布式部署、并发检索。检索速度不再受单台服务器性能的限制,

可根据海量数据规模增长需求,提高检索速度。 4. 规模弹性化扩展

5. 系统方案具备云检索弹性扩展能力,当资源不足时,可随时无障碍扩充硬件

资源,前端应用业务无需停机等待或程序调整,完全不受扩充影响。具备弹性扩展能力的高速检索平台有助于控制前期建设规模,根据业务运营进展有序扩张。

6. 提供API接口,能够灵活支持各种应用接入,同时支持关系数据库数据导入,

方便传统应用向云架构迁移。

114 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

7. 服务稳定

8. 云检索平台内置监控功能,多维度监测检索平台及节点运行质量,平台调度

系统根据监控数据调度资源保障检索服务稳定提供。 3.1.5.4 平台优势特性 1. 便捷的文件管理

集中存储用户所有数据,分类管理,配额控制,合理规划用户空间。在线预览:不用安装任何插件,即可在线高质量预览文件,支持大多数文件类型。断点续传:如果意外造成传输中断,再次上传文件时将从断点处继续上次的传输。个人回收站:删除的文件将移动到Web端的回收站,并保留30天,以便进行误删恢复。 2. 跨平台支持

支持Web端、PC端(Windows)以及移动端(iPad、iPhone、Android)多平台数据同步,实现数据无缝对接,随时随地访问云端文件,轻松实现移动教学科研。

3. 数据同步和备份 ➢ 自动同步

各平台文件与云端自动保持一致,在任一设备对文件的增删或修改,都会实时更新到其他设备 ➢ 同步动态

实时查看同步进度,管理同步进程,还有详细的历史记录供您查看 ➢ 选择性同步

您可能不希望将云端所有文件都同步到本地磁盘,或者想先同步某些紧急性较高的文件,那么可以对文件目录进行选择性过滤同步

115 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

➢ 局域网加速

自动检测拥有相同文件的其他终端,已同步完成的文件将直接在局域网内分发,大大减少带宽占用,同步速度可提高10倍以上 ➢ 自动备份

您可以指定电脑、手机等存储硬件上的文件夹、文件、数码相片、相册、通讯录等上传到云端或网络空间,xx网盘会自动进行备份,实现长期保存、在线浏览,下载本地等 4. 快捷的文件分享 ➢ 大文件发送

无论是GB级的单个大文件,还是多个文件的批量发送,接受者都可通过链接迅捷下载 ➢ 外链管理

对于重要文件,您可以设置有效期和访问密码,系统还会统计下载次数 ➢ 预览权限

您可以控制外链接受者的文件使用权限,有效限定文件的使用范畴 ➢ 邮件分享

支持邮件分享外链,以邮件形式发送链接地址,沟通更便捷 5. 安全可靠

从数据传输到安全存储,均采用最高级的安全策略,专为用户打造专有的存储空间,确保用户数据安全可靠。 ➢ 日志审计

全面的日志功能,记录各文档生命周期的操作记录,用户的使用情况也会被完整

116 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

记录,且无法删除或更改,便于管理员进行监控和审计 ➢ 用户安全管理

网盘管理员,除管理用户的基本设置、所属团队及用户的访问权限外,还可以对用户的访问安全策略进行配置 ➢ 数据安全存储

采用最先领先的云存储技术进行数据存储,确保数据安全可靠

3.2 二期建设内容

3.2.1 深度学习平台

深度学习已经成为人工智能时代的入口,国内外行业巨头纷纷在语音识别、图像识别、自然语言处理等领域拓展深度学习版图,代表性的有谷歌的深度学习框架TensorFlow,Facebook的人工智能计算服务器Big Sur,越来越“聪明”的IBM人工智能Watson,微软的“深度残差学习”,科大讯飞的语音识别云等。 简单地说,深度学习通过构建深层神经网络,模拟人类大脑的工作原理。如图所示,深层神经网络由一个输入层,数个隐层,以及一个输出层构成。每层有若干个神经元,每个神经元模拟人类的神经细胞,而结点之间的连接模拟神经细胞之间的连接。

117 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

可以将深度学习理解为大脑的“构建”,虽然潜力无限,但是门槛不可谓不高。

首先,深度学习网络模型复杂,计算量大。以DNN(深度神经网络)为例,它需要模拟人脑的计算能力,而人脑包含100多亿个神经细胞,这要求DNN中神经元多,神经元间连接数量也相当惊人,如此庞大的计算量需要高性能的硬件以及与之配套的软件系统提供支撑。

其次,DNN需要大量数据才能训练出高准确率的模型。为了达到理想的学习效果,DNN需要利用海量训练数据,进行反复多次实验,从而选择合理的选择优化方式,训练出高准确率的模型。因此,深度学习对训练数据提出了较高要求。 再者,对于不少深度学习研究者而言,部署困难成为了一个大问题。很多时候,即使购入了高精尖的深度学习设备,但由于难以部署,高价买回的设备只能搁置。 因此,深度学习成为一个效果很好但门槛极高的方向。而xx大数据发布的DeepRack深度学习一体机,切实帮助解决深度学习应用中遇到的障碍与困境。 3.2.1.1 平台简介

DeepRack深度学习一体机是南京xx大数据科技股份有限公司自主研发的深度学习软硬件平台,包含24U半高机柜,最多可配置4台4U高性能服务器;每

118 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

台服务器CPU选用最新的英特尔E5-2600系列至强处理器;每台服务器最多可插入4块英伟达GPU卡;可选配GeForce Titan X、Tesla K40、Tesla K80等各档次英伟达GPU卡;部署有TensorFlow、Caffe等主流的深度学习开源工具软件,并提供大量免费图片数据。根据操作手册用户可快速搭建属于自己的深度学习应用,从而提高了工作效率。DeepRack深度学习一体机具有超高性价比、超高计算性能、超高可靠性等特性,能够为用户提供性能卓越、稳定、便捷、安全的深度学习计算服务。 3.2.1.2 准系统

DeepRack深度学习一体机内部采用专业GPU服务器设计,特别考虑了散热能力,力保7*24大数据模型训练不间断。每个节点提供两个2000瓦电源,保证了GPU满配情况下的主机供电需要。采用英特尔E5家族系列CPU及英特尔服务器组件,具有性价比高、处理性能优越、可靠性高等特性。深度学习一体机各规格使用的不同CPU性能参数如下表:

CPU参数

E5-2620 V3 6核12线程 2.40GHz E5-2650 V3 10核20线程 2.30GHz E5-2697 V3 14核28线程 2.60GHz 3.2.1.3 GPU

深度学习是需要训练的,所谓的训练就是在成千上万个变量中寻找最佳值的计算。这需要通过不断的尝试实现收敛,而最终获得的数值并非是人工确定的数字,而是一种常态的公式。通过这种像素级的学习,不断总结规律,计算机就可以实现像像人一样思考。如今,几乎所有的深度学习研究者,包括BAT、谷歌,Facebook等等工业界的大佬,都在使用GPU进行相关的研究。而英伟达具备CUDA支持的GPU为用户学习Caffe、TensorFlow等研究工具提供了很好的入门平台。其实GPU不仅仅是指专注于HPC领域的Tesla,包括Geforce在内的GPU都可以

119 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

支持CUDA计算,这也为初学者提供了相对更低的应用门槛。得益于硬件支持与软件编程、设计方面的优势,英伟达GPU才成为了目前应用最广泛的平台。下表为英伟达各主流GPU的参数,客户可根据实际需求,选用不同的GPU来做自己的深度学习训练。

英伟达GPU参数表

GPU型号 Peak single precision floating point performance CUDA cores Memory size Titan X K40 K80 7 Tflops 4.29 Tflops 8.73 Tflops 3072 12 GB 2880 12 GB 4992 24 GB 3.2.1.4 平台优势特性

使用DeepRack深度学习一体机解决方案,用户可快速搭建属于自己的深度学习应用。

➢ 灵活的高性能硬件配置

DeepRack深度学习一体机包含24U半高机柜,最多可配置4台4U高性能服务器;每台服务器CPU选用最新的英特尔E5-2600系列至强处理器;每台服务器最多可插入4块英伟达GPU卡;可选配GeForce Titan X、Tesla K20、K40、K80等各档次英伟达GPU卡,以满足不同深度学习应用的需求。DeepRack深度学习一体机为用户提供最大每秒128万亿次的单精度计算能力,满配时相当于160台服务器的计算能力,使您的深度学习产品在计算效率上具有非凡竞争力;另外,充分考虑了7*24小时大规模运算的需要,一体机内部采用专业的散热、能耗设计。

➢ 集成最知名的深度学习软件系统

DeepRack深度学习一体机预装CentOS操作系统,集成了两套世界一流的开

120 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

源工具软件——Google的TensorFlow以及伯克利大学的Caffe,以帮助学习诸如图像识别、语音识别和语言翻译等任务。 ➢ 提供基础训练数据

DeepRack深度学习一体机提供了MNIST、CIFAR-10、ImageNet等图像数据集,以满足实验与模型塑造过程中的训练数据需求。 ➢ 即买即用,周到服务

DeepRack深度学习一体机预装CentOS操作系统,安装配置了TensorFlow、Caffe等主流深度学习开源工具软件,并免费提供大量的可训练数据,用户根据操作手册,可快速搭建属于自己的深度学习应用。为了克服学习障碍,xx大数据向用户提供周到的免费培训,帮您带出一个能够应用深度学习的团队来. 深度学习一体机包含24U半高机柜,最多可配置4台4U高性能计算节点;每台节点CPU选用最新的英特尔E5-2600系列至强处理器;每台节点最多可插入4块英伟达GPU卡;可选配GeForce Titan X、Tesla K40、Tesla K80等各档次英伟达GPU卡。

深度学习一体机外观

121 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

节点内部图

目前DeepRack深度学习一体机具有以下四种规格:极简型、经济型、标准型以及增强型。其中,极简型作为单机,拥有单一节点,其他三种规格则是包括4个节点的独立机柜。各型号的深度学习一体机具体配置如下表所示:

各型号配置

CPU 极简型 Dual E5-2620 V3 Titan X *2 240G SSD+4T企业盘 64G 1 0 0 经济型 Dual E5-2620 V3 Titan X *1 240GSSD+4T企业盘 64G 4 1 1 标准型 Dual E5-2650 V3 K40 *2 480G SSD+4T企业盘 128G 4 1 1 增强型 Dual E5-2697 V3 K80 *4 800G SSD+4T*7企业盘 256G 4 1 1 GPU 硬盘 内存 节点数 交换机 机柜 122 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.2.2 数据立方大数据库

3.2.2.1 数据立方简介

通过对MapReduce、并行数据库和两者的混合技术研究,南京xx大数据科技股份有限公司推出了实施云计算数据库-数据立方,该系统通过引入索引模块、并行执行架构以及读取本地磁盘的执行方式,使查询达到了实时完成、简单易用、高可靠安全的效能,使EB级的数据能够秒级处理,极大地提高了用户执行查询操作后的使用效率,不仅在查询和检索这部分数据的时候具有非常高的性能优势,数据立方还可以支持数据仓库存储、数据深度挖掘和商业智能分析等业务。

我们以B+树的结构建立了字段的索引,每个B+树结构的字段索引相当于一个数据平面,这样一个全局数据表与其多个重要字段的索引就组成了一个类似于立方体的数据组织结构,我们称之为“数据立方”。

数据立方示意图

123 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

数据立方是一种用于数据分析与索引的技术架构。它是针对大数据(big data)的处理利器,可以对元数据进行任意多关键字实时索引。通过云处理框架对元数据进行分析之后,可以大大加快数据的查询和检索效率。 3.2.2.2 数据立方架构设计

数据立方是凌驾于数据存储层和数据库系统之上的,通过云处理框架解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库、实时查询、查询结果实时传输等优势。

数据立方架构图

数据立方(DataCube)的结构分为用户接口(SHELL、ODBC、JDBC等)、高效索引机制、SQL解析器、作业调度器、元数据管理、并行计算架构、分布式文件系统等部分。

用户接口主要有两个:ODBC/JDBC和Shell。JDBC主要执行数据的定义操作,即建立数据库、建表、建分区,对数据库、表和分区的删改等,同时可执行数据查询的SQL语句,暂不支持单条记录的增删改;数据立方提供友好的shell交互界面,shell支持数据库、表的增删改以及数据查询的SQL语句。数据在入库的同时与数据对应的索引也在同时建立,索引是一颗B树,数据插入到内存的同时,索引B树也在生成,当达到设置上限时,数据和索引会刷新到分布式文件系统上

124 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

成为文件。数据立方的元数据存储在数据库中。其中包括,数据库的名字和属性,数据库中的表,表的名字,表的列和分区及其属性,表的属性,表的数据所在目录等等。SQL解析器接收从JDBC和SHELL传来的SQL查询语句,同时对SQL进行词法分析、语法分析、编译、优化。作业生成器根据SQL语法树生成查询作业,分析所要处理的数据表对应的索引文件的所在存储子节点位置,并将作业发送给并行计算架构。并行计算架构接收到作业生成器生成的作业,根据索引文件的位置切分查询作业形成子任务,然后将子任务发送给数据所在的存储子节点,每个节点执行这些子任务查询索引得到结果记录所在的数据文件名与偏移量,并以广播的方式发送查询子任务到数据文件所在的节点,在执行完毕后将结果返回。数据立方可以使用HDFS和cStor作为底层存储系统,cStor是一个主从结构的分布式文件系统,不仅具有HDFS的高吞吐率、高读写性能等特性,还支持HDFS所不具备的对文件修改等功能,并且支持POXIS接口。 3.2.2.3 数据立方分布式并行框架

3.2.2.3.1 分布式并行架构(DPCA)

125 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

数据立方的分布式并行架构(DPCA)是典型的主从结构,主Master与从Master分别部署在HDFS的主从NameNode物理节点上,而Slave部署在DataNode物理节点上,主从Master使用Zookeeper同步,并共享系统日志,Master与Slave之间用心跳信息保持信息交换。

相对于MapReduce架构,数据立方的DPCA具有实时性、计算的数据本地性以及数据平衡性。MapReduce架构的job提交过程较为复杂,客户端将job提交到JobTracker有较长的延迟, JobTracker将job处理为MapReduce task后,通过TaskTracker的心跳信息将task任务返回给TaskTracker,此过程中也存在延迟。MapReduce架构虽然也遵循数据本地性,但仍会有很大比例的数据处理不是本地的,相对于MapReduce架构, DPCA的job提交是实时性的,在提交job之前所需程序jar包已经分发到所有计算节点,在job提交之后,master在初始化处理之后即将task直接分发到所有slave节点上,如并行计算架构上作业执行过程图所示,在job提交后, master根据数据文件所在位置分配task,这样在每个计算节点上要处理的HDFS上的数据块就在本地,这样避免了数据的移动,极大地减少了网络IO负载,缩短了计算时间,每个计算节点会根据Task中SQL解析器生成的执行计划对Task执行的结果进行分发,分发的方式有三种:分发所有中间数据到所有计算节点,分发所有中间数据到部分节点,根据数据所在位置分发,如并行计算架构的三中分发方式图所示。并行计算架构能够周期性地对HDFS上的数据表进行维护,保持数据表在所有的DataNode节点上所存储的数据量的平衡,减少因数据负载的不平衡而导致的计算负载的不平衡。

126 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

举一个典型的小表与大表join连接的实例,如图所示,Master解析Job中的执行计划,判断小表的位置后,将Task0发送给了Slave0,指令Slave0发送小表到所有节点,而其他节点接收到的子任务是等待接受小表的数据,接收到数据后将小表与大表连接并将数据返回给Master,当所有数据返回完成则这个job完成。

3.2.2.3.2 分布式索引机制

传统MapReduce数据在入库的同时B树索引在内存中同步生成,B树中的叶子节点存储的是数据文件路径与记录在文件中的偏移量,在B树中的叶子节点达到设置上限后,索引将被序列化到分布式文件系统之上,在根据条件进行单表查询的时,job被提交到并行计算框架,master节点首先分析该表的索引文件根据索引文件所在的节点将task发送到相应的节点,每个节点在查询本地的索引文件之后将符合条件的数据文件路径+偏移量打包成task根据数据文件位置进行再次分发,在数据文件中的记录查询出来之后将结果返回。

对比上述MapReduce的索引原理,我们可以发现MapReduce是对每个查询都

127 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

是直接从分布式文件系统中读入原始数据文件,I/O代价远高于数据库。因此,相对于MapReduce架构以及在其之上的SQL解析器Hive,数据立方引入了一种高效的分布式索引机制,不同于并行数据库的 shared-nothing和shared-disk架构,数据立方的数据文件与索引文件都存放在分布式文件系统之上。 3.2.2.4 平台优势特性

(1)高实时性

应用平台在高效率分布式数据库软件数据立方的支撑下,可以实时完成数据处理和分析工作,如数据处理、数据查询和统计分析等。数据处理不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。

(2)高可靠性

数据立方具有高可靠性,采用分布式部署策略,任意计算节点宕机,系统不停止服务;任意硬盘、网卡等部件损坏,不影响系统服务。系统能够自动容错,将数据分散在各个节点上,不会出现丢失数据的现象。任务处理过程中,当节点宕机,系统自动切换并保留现有进度,保障任务继续执行下去。

(3)可伸缩性

在不停止服务的情况下,增加处理节点,平台的处理能力自动增加;减少处理节点,平台的处理能力自动缩减。这样,可以做到与资源池的无缝对接,根据计算和存储任务动态地申请或释放资源,最大限度地提高资源利用率。

(4)全业务支持

数据立方采用NoSQL+关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库,可支撑各种类型的业务。在支撑查询、统计、分析业务的同时,还可支撑深度数据挖掘和商业智能分析等业务。

128 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.2.3 数据挖掘平台

3.2.3.1 平台简介

DataSense数据挖掘系统主要提供实现大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供上层应用选择,具有高处理性能和高可靠性,可不间断接受任务。 3.2.3.2 平台设计

数据挖掘架构图

DataSense数据挖掘系统采用了数据立方大数据库作为对系统海量数据的底层存储平台,提供了高效的ETL工具,能够对海量数据进行高效快速的清洗。前端WEB部分方便用户管理和使用系统,对于数据挖掘的结果提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于业务系统对数据和模型的观察和调用。

129 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

DataSense数据挖掘核心模块系统架构:

DataSense核心模块图

➢ 分布式数据挖掘引擎

管理本机上同时运行的多个计算任务,协调资源分配。 ➢ 分布式挖掘运行时

独立的数据挖掘程序,负责对切分好的最小单元任务进行处理。 ➢ DataSense分布式数据挖掘管理引擎

提供对数据挖掘应用的API,同时负责对整个数据挖掘任务的调度管理。 ➢ 分布式数据挖掘算法库

提供对数据挖掘常用的基本挖掘算法,同时用户可以自己任意添加新的挖掘算法。

3.2.3.3 主要功能

DataSense数据挖掘系统实现了大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、

130 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

朴素贝叶斯、逻辑回归、分类组合模型等算法可供用户选用。共计包含了27个数据挖掘算法。 ➢ 平台界面

DataSense分布式数据挖掘平台提供对集群机器的负载监控,磁盘监控等基本管理功能。用户可以快速方便的监控整个集群的运行状态。 ➢ 数据导入

负责对数据的导入,支持数据库,文件系统两种数据抽取方式。将数据抽取保存到数据立方。

➢ 数据管理

可以查询不同表的数据信息,可以导出原始数据文件。

➢ 任务管理

由于算法的输入规模的不同,部分数据挖掘业务可能运行时间过长,系统提供了挖掘任务的查看、管理功能。

➢ 用户管理

大数据挖掘平台提供了多用户使用,系统管理员可以通过用户信息管理功能实现对系统多用户的管理。

➢ 系统配置

提供系统平台自身的参数信息管理

131 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

➢ 可视化查询介绍

系统提供了对于已有数据的可视化查询,用户可以自定义查询逻辑,系统会在后台自动提交查询任务。目前查询支持了标准SQL 60%的查询功能。 ➢ 分类算法

分类算法目前提供了对于数据集的学习、分类的功能。同时用户还可以保存数据训练模型以便决策者或者第三方系统能够在线获取模型,并基于模型进行企业经营行为的决策或计算。

分类结束后系统会通过可视化的方式展示系统训练分类后的结果。 ➢ 聚类算法

聚类分是对未知事物的分类,系统提供了对结构化数据的聚类,用户可以选择不同纬度的聚类。

上图为聚类设计页面,用户可以选择数据源,聚类属性,聚类本身的相关属性等信息。

聚类完成后,系统通过可视化的查询,目前提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于用户对数据和模型的观察和理解。

132 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.2.3.4 平台优势特性

(1)灵活的高性能硬件配置

DeepRack深度学习一体机包含24U半高机柜,很多可配置4台4U高性能服务器;每台服务器CPU选用英特尔E5-2600系列至强处理器;每台服务器很多可插入4块英伟达GPU卡;可选配NVIDIA TITAN X, GeForce GTX 1080、K80等各档次英伟达GPU卡,以满足不同深度学习应用的需求。DeepRack深度学习一体机为用户提供很大每秒176万亿次的单精度计算能力,满配时相当于160台服务器的计算能力,使您的深度学习产品在计算效率上具有非凡竞争力;另外,充分考虑了7*24小时大规模运算的需要,一体机内部采用专业的散热、能耗设计。 (2)集成知名的深度学习软件系统

DeepRack深度学习一体机预装CentOS操作系统,集成了两套位于行业前沿开源工具软件——Google的TensorFlow以及伯克利大学的Caffe,以帮助学习诸如图像识别、语音识别和语言翻译等任务。 (3)提供基础训练数据

DeepRack深度学习一体机提供了MNIST、CIFAR-10、ImageNet等图像数据集,以满足实验与模型塑造过程中的训练数据需求。 (4)即买即用,周到服务

DeepRack深度学习一体机预装CentOS操作系统,安装配置了TensorFlow、Caffe等主流深度学习开源工具软件,并免费提供大量的可训练数据,用户根据操作手册,可快速搭建属于自己的深度学习应用。

3.2.4 数据可视化

3.2.4.1 可视化概述

133 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

大数据可视化,就是指将结构或非结构数据转换成适当的可视化图表,然后将隐藏在数据中的信息直接展现于人们面前;数据可视化能将数据以更加直观的方式展现出来,使数据更加客观、更具说服力。在各类报表和说明性文件中,用直观的图表展现数据,显得简洁、可靠。在可视化图表工具的表现形式方面,图表类型表现的更加多样化,丰富化。除了传统的饼图、柱状图、折线图等常见图形,还有气泡图、面积图、省份地图、词云、瀑布图、漏斗图等酷炫图表,甚至还有GIS地图。这些种类繁多的图形能满足不同的展示和分析需求。

3.2.4.2 主要功能 (1)数据源

支持多种文件型(如: Excel、 CSV、 txt、 XML 等)、数据库(如: MySQL、 SQL Server、Oracle、 DB2、 Spark、 Hive 等)、电商(如: 淘宝、天猫、京东、一号店等)、社会化媒体(如:微博、微信等)。 (2)数据可视化效果

包括主流常规效果、魔镜特色效果 36 种赠送。 (3)实时更新

支持报表实时动态展示数据库最新数据。

134 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

(4)全景分析

同一图表多个维度分析查看。 (5)数据筛选器

支持灵活选择和调整图表生成条件, 对展示的数据区间进行细分和深层分析。可以按照“等于”、“不等于”、“起始内容为”、“起始内容非”、“终止内容为”、“终止内容非”、“包含”、“不包含”、“大于”、“大于或等于”、“小于”、“小于或等于”、“在两者之间”、“不在两者之间”、“可能值为”、“不可能为”、“为空”、“非空”等各种条件进行筛选过滤。 (6)图表输出 支持导出生成的图表。 (7)仪表盘拖拽组合

支持仪表自由拖动组合和个性组合成展板。 (8)团队协作

支持多人以不同身份协作分析,共享分析成果。 (9)数据权限控制

支持不同用户可以访问不同权限范围内的报表,支持不同用户对同一张报表有不同的访问权限。 (10)安全支持

HTTPS 保证信道传输安全。 (11)上卷下钻

对数据实现底层到顶层逐层的来回分析查看。 (12)时间序列分析

135 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

实现时间序列的最优预测,观测数据的变化。 (13)OLAP分析

完全支持基于数据仓库的旋转、切片和钻取操作。 (14)数据预览

支持在数据源导入页面提前了解导入的数据源的字段内容。 (15)自助式分析

对不同的业务数据进行探索分析。 (16)交互式报表

可实现对图表的动态操作,观察数据变化。 3.2.4.3 平台优势特性

3.2.4.3.1 炫酷图表库

我们为用户提供了国内最丰富的可视化效果库,除了饼图、线图、柱图、散点图、数字图等基本图形外,还包括气泡图、标签云、树图、漏斗图、雷达图等炫酷图表,更有轮廓、填充等多种地图表现形式,让您的图表会说话,快速传达

136 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

数据分析内容。

3.2.4.3.2 高度灵活配置

制作图表只需拖拽字段、选择图库,即可智能绘图生成图表,图表提供了多种参数,大到图表类型,小到线条粗细均可灵活配置,无论是背景、配色还是图表布局、数据联动,都可以自定义设置,随时将心中所想变为界面可见,快速配置一份完美报告。

3.2.4.3.3 丰富配色方案

高雅、轻快、明亮、清新、商务、深沉,无论是小清新宣传海报还是商务合

137 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

作报告,丰富的配色及背景方案均可一键达成,用户可在不同风格中自由切换。 我们还设计了20种不同的信息图模板,快速制作信息图,美化图表不再困扰。

3.2.4.3.4 智能变种、预警图表

支持时间轴筛选器,配合数据更新设置,随时观察数据变化情况。同时,给图表设置预警值或预警线,可快速判断分析数据的健康状况;添加趋势线,智能判断数据发展趋势,未雨绸缪,有力支持管理者进行商业决策,提高企业核心竞争力。

3.2.4.3.5 丰富的元素库

筛选器组件,一键添加任意筛选字段,分析全局数据;文字组件,为图表添加各色标题、说明,报告内容更丰富;图标组件,为报告添加logo等图标,报告更形象传神;web组件,只需添加超链接,即可一键嵌入网页内容,随时进行多系统合作分析。

138 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.2.5 物联网智能硬件服务平台

3.2.5.1 平台概述

学校在实际的专业建设应用过程中,也面临着智能硬件数据的接入、集中存储、托管以及数据分析处理等问题,诸如此类问题在社会实践过程中均须要面临和解决的,因此为实践所提出的“物联网硬件智能服务平台”方案非常便捷完美的解决了以上问题,以下是如何将该服务平台建设成教学实验平台的过程手段。

物联网硬件智能服务平台(万物云)是根据物联网应用数据的产生方式和使用特点,在自有的海量分布式数据存储计算技术物联网硬件智能服务平台存储系统平台产品基础之上,专门打造一个功能丰富的、简捷易用、针对物联网数据产生和应用特点的物联网大数据应用平台,其核心是一个数据服务逻辑层和一套面向应用的编程接口,满足典型物联网应用所要求的各个性能层次、规模层次的数据存储、查询、处理需求,保障用户数据安全和服务稳定,并提供一系列工具协助用户开发调试、监控性能和优化任务执行。

3.2.5.2 平台架构

本次物联网硬件智能服务平台建设架构图如下:

139 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

最下层是硬件平台层,将使用物联网硬件智能服务平台所提供的公有云资源池所提供的计算、存储和网络资源。从系统处理系统的角度看,这一层主要包括云存储集群以及综合分析云计算集群,此外还包括接口和管理服务器、包括用于实现客户端访问的Web服务器。

第二层是系统软件层,包括物联网硬件智能服务平台的云存储系统软件,综合分析云计算软件平台。云存储系统提供基于HDFS的分布式文件系统存储访问能力以及HDFS访问接口。综合分析云计算软件平台可提供对HDFS、DataCube数据的访问,并提供MapReduce编程模型和接口、SQL解析接口以及非MapReduce模型的编程接口,以及用于实现并行计算任务负载均衡和服务器单点失效恢复的Zookeeper。

第三层是物联网硬件智能服务平台的数据层,主要包括数据安全体系和数据服务支撑体系。其中,数据安全体系包括对云计算平台的多级信任保护的设定、云存储的安全审计、安全访问控制以及防攻击保护策略等,数据服务业务支撑主要是将上层应用需求进行解析与处理,并将解析过的请求发送至系统软件层进行处理,同时它还提供对外的数据访问接口。

第四层是用户接口处理软件层,主要完成物联网硬件智能服务平台对外开放的实现,主要包括硬件接入的网络接口层以及各平台的软件接口层。网络接口层支持目前主流的网络协议:HTTP、MQTT以及TCP协议,用户的硬件设备可在这

140 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

些协议的基础上实现智能设备与物联网硬件智能服务平台的互联;软件接口层通过跨平台支撑框架Thrift提供多语言环境下软件开发接口,用户通过调用这些接口实现对智能硬件数据的存储和管理。

第五层是用户数据层,主要提供用户结构化数据的存储以及Web服务软件。物联网硬件智能服务平台提供基于MySql关系数据库的结构化数据存储与访问能力,像用户基本信息、用户应用数据等数据量不大、但处理响应性能要求较高的数据,可以存储在此数据库中,用JDBC/SQL进行存储和访问处理;Web服务软件目前主要是通过物联网硬件智能服务平台网站进行组成,物联网硬件智能服务平台网站承担了物联网硬件智能服务平台的宣传功能、在线学习功能以及用户个人数据中心(提供用户建立应用、上报数据的查询监视等)等功能。

最上层是用户应用层,面向用户的智能硬件、物联网应用以及开发者。用户通过物联网硬件智能服务平台网站上的向导完成应用的建立,并将用户自己的智能硬件和应用接入至物联网硬件智能服务平台。

最终,学校可以利用物联网硬件智能平台进行大数据分析和推演,对相关的情况进行预警。用户中心提供了用户控制台功能,学校可以管理自己的应用及应用下的资源,包括数据表和接入服务的智能硬件,实时监控数据提交和应用情况以及系统性能,能够给更专注于相应的业务开发,提高生产力。如下图所示:

141 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

同时基于物联网硬件智能服务平台,学校可开设更多的实验课程,进行物联网教学实验,如:

1、智能硬件如何接入云端; 2、云端数据获取实训;

3、云端数据结合业务的预测分析(如环境趋势分析算法); 4、云端下发命令控制智能硬件; 5、物联网设备经纬度查询及轨迹分析。 3.2.5.3 平台优势

3.2.5.3.1 便捷应用

1、清晰、简明、完善的编程实例和接口文档;

2、丰富的案例样本代码;

3、帮助开发者快速开发跨平台物联网应用;

4、通过社区论坛、微信和微博等社交平台提供全方位技术支持。

142 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3.2.5.3.2 强大功能

1、开放式数据服务接口协议,各种智能设备轻松接入;

2、平台现支持HTTP,MQTT及TCP接口协议; 3、开放第三方设备数据提交服务接口; 4、覆盖主流平台和语言的开发包。

3.2.5.3.3 极速性能

1、后台数据存储架构毫秒级读写延迟 ; 2、硬件提交数据秒级查询;

3、海量异构传感器高并发数据提交;

4、分布式数据存储节点策略优化数据上传下载速度。

3.2.5.3.4 安全可靠

1、多用户多应用数据隔离机制,专业的数据副本机制;

2、完善的身份验证手段和用户权限管理; 3、不同级别的数据访问权限和访问级别; 4、强大的企业级防火墙;

5、保护您的数据不丢失,不泄露,不被盗取。

3.2.5.3.5 海量规模

1、存储系统支持弹性扩展,无需担心存储空间不足;

2、数据实时一致,读写性能不会随数据量增加而受影响;

143 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

3、支持单表PB级别的数据存储; 4、支持表结构横向无限扩展。

3.2.5.3.6 低廉成本

1、 一站式数据存储和处理全托管解决方案;

2、使用户能专注于自己的业务开发和规模扩展; 3、免费的基础数据服务,大大降低项目开发和运维成本; 4、满足用户应用原型开发,产品商用和规模运营各阶段需求。

4 建设意义

通过大数据实验室的建设,学校的办学实力、人才培养质量、专业建设水平、办学效益、社会服务和辐射能力等方面都将有明显提高,专业(群)优势和特色进一步突现。学校成为xxx中小企业持续发展的“加油站”,成为xxx地区的互联网高技能人才培养中心。在大数据、云计算架构、开发、应用领域高技能人才培养方面起示范作用,成为国内有影响及辐射作用的高水平大学。

1、服务更多的学科专业、提升学校的专业水平建设

大数据实验室建成后将覆盖学校众多教学部门及专业,可提供更多的大数据教学课程和教学实验。无论是覆盖的专业数、可提供的课程数,还是服务的人员数都有较大幅度增加,可以大大改善和提升当前我校学科专业实验教学的深度和广度。此外,数据采集形成的大数据资源可提供给相关机构,带来更大的效益。大数据实验室将建立多层次实验课程体系,每个层次都有开放性的实验课程实验室的现场开放和网上互动,学生有充分的自主选择性,可以有效激发学生的学习兴趣。

因此,通过大数据实验室项目建设,以大数据应用建设为龙头,带动相关专业、课程发展,学校专业建设水平得到整体提升,在物联网应用、服务领域高技

144 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

能人才培养方面起到示范作用。

2、形成专业的人才培养方案范例

在专业发展方向上,继续保持信息技术的特色,注重面向互联网产业优化调整和设置专业,主动适应大数据对高技能人才的需求;在专业内涵建设上,与行业和企业紧密合作,以互联网产业和云计算行业人才需求规格和岗位技能分析为逻辑起点,构建人才培养方案。深化课程体系和课程内容改革,制订课程标准;改善师资结构,提升师资素质;加强实训实习基地建设,提供基础保障;改善教学管理,加强校企合作机制建设,提升专业综合实力。以需方对人才的审视要求,建立校企合作机制和适应工学结合的教学运行管理制度,使企业深度融入学校的人才培养过程,真正实现专业建设与产业发展同步、人才培养与社会经济发展接轨。

3、人才质量保障机制日趋完善,满足互联网对技术技能人才需求 在完善学校现有质量监控体系及信息反馈系统的基础上,突出企业参与,注重社会评价。以人才培养关键的影响因素为切入点,以企业需求、社会评价和高职教育规律为基础,针对关键影响因素制定建设标准、建设指导意见,并对具体的实施、检查落实和审核提出系统的要求,形成《质量保障手册》。改善原有质量保障体系末端检验及滞后性的不足,逐步形成学校自我约束、持续改进的人才质量保障机制,确保人才培养质量水平的提高。

4、校企合作、校校合作、产学研结合长效机制成效显著

通过积极发挥校企合作的作用,依托行业、服务企业,筑巢引凤、互惠双赢,校友架桥、情感铺路等有效途径,形成有效的校企、校校、产学研合作长效机制,吸引企业主动参与专业建设和学校人才培养工作,破解高校校企合作、工学结合中“学校热、企业冷”的共性关键难题,为工学结合人才培养模式的实施,创造必要条件,实现工学结合培养高技能人才的可持续发展,为全国高校作出典型示范。

5、科技研发能力和社会服务辐射能力显著增强

145 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

学校开展面向互联网和大数据为主的中小企业提供技术服务和人才培训服务;开展周边学校以及产业园区人员培训,开展高校教育骨干教师培训,成为中小企业的“加油站”。通过大数据实验室辐射周边院校,接收合作企业领导到高校干部挂职,派出骨干教师支教、联合培养学生、校内外实训基地共享等方式提升我院的社会辐射能力,帮助这些院校推动互联云与大数据的人才培养模式改革,提高周边高校的人才培养质量。

146 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

5 规格配置

本次给出一期项目所需软硬件平台配置,可同时满足150个学生进行大数据实验,按150个用户的云桌面;教学云盘按照2000人,每人5GB容量存储计算,预计需要10TB的可用容量。采用分布式云存储模式,系统裸容量达到24TB,做1:1冗余,实际可用容量达到12TB。以下为初步配置,具体配置需要根据学校实际需求进行调整。 产品 名称 大 数 据 实 验 一 体 机 大数据实验平台管理平台 BDRack V1.0 处理节点 cServer C1208 产品 模块 管理节点 产品 型号 cServer C1208 管理底层后台的资源分配,管理各个处理节点的容器生命周期,协调各个处理节点的容器分配,提供对外统一访问查询接口, 存储处理节点容器基本元数据,存储处理节点所需容器镜像,提供容器高可用功能。双路Intel E5 12核处理器,128GB 内存,150G固态硬盘,480G固态硬盘*2,4T SATA 7200RPM企业盘*2,1+1冗余电源。 提供节点容器接口,提供容器运行环境并监控容器运行生命周期,回报容器生存情况并参与资源协调工作,提供容器内服务的端口映射。双路Intel E5 12核处理器,128GB 内存,150G固态硬盘,480G固态硬盘*2,4T SATA 7200RPM企业盘*2,1+1冗余电源。 1.可管理系统内的一体化实验平台的资源控制和各个角色对后台的访问。可提供用户开启集群,销毁集群等操作,可实时监控集群使用量并进行调整。对于科研:系统可以对服务器资源进行调度,调整系统资源重新分配以支撑对科研工作的需求。可提供30个学生同时进行大数据实验,提供30个学生的同时实验许可,为每个学生分配包含5个虚拟机的集群,共150个虚拟机。2.实验平台采用B/S架构,支持谷歌,火狐、360极速浏览器。3.软件管理平台作为大数据实验平台的支撑平台,需具备用户管理功能(包括管理员、老师、学生三级角色管理),并且老师角色由管理员注册,老师角色具备注册学生用户的权限。4.管理和控制整个系统的各种设备和资源。5.允许在使用量上的部分超额,平1 套 15 台 3 台 产品描述 数量 单位 147 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

产品 名称 产品 模块 产品 型号 产品描述 数量 单位 台通知后台自动进行调度,对资源优化管理。6.实时展示系统内集群使用情况,人数上限和当前使用量。7.提供用户对自身容器集群生命周期的管理,可以自行的开启和关闭容器。8.支持管理员和老师远程关闭所管理学生的容器资源,学生也可以自行关闭申请资源。9.系统支持初始按照硬件参数指定用户同时分配集群的并发上限。实时展示系统内集群使用情况,人数上限和当前使用量。系统支持在并发上限的基础上按照硬件资源实际使用情况允许一定程度的超额使用。10.系统支持初始按照硬件参数指定用户同时分配集群的并发上限。实时展示系统内集群使用情况,人数上限和当前使用量。系统支持在并发上限的基础上按照硬件资源实际使用情况允许一定程度的超额使用。11.实验平台支持对外提供集群内容器资源的申请和访问入口以及相关集群端口资源的访问。12.可提供容器ssh登陆端口密码,通过OpenVPN访问容器资源。13.提供系统所需其他客户端软件的下载,如xshell,chrome浏览器等。14.每个用户可以隔离安全的使用独立的大数据集群,每个用户的操作互不影响,系统按照服务器性能指定可以同时运行的集群个数。15.用户既可以手动安装自行编排集群方案,也支持使用一键部署功能,快速构筑Hadoop、Spark、Storm、Hive、Hbase等集群,跳过手工部署阶段。16.管理平台需具备SDN(Software Defined Network)功能。平台内部需使用虚拟网络,将网络设备控制面与数据面分离,实现网络流量的灵活控制。 大数据实验平台容器调度系统 cSchedule v1.0 1.实时监视服务器资源并进行调度2.提供容器资源访问接口,如容器资源的开启,关闭,状态查询等。3.将容器指定端口(如ssh服务端口)映射到特定服务器的端口提供容器对外登陆功能4.后台实时监控容器的生命周期。5.系统可提供各处理节点硬件资源的实时调控,自动将故障节点移出集群,计算节点故障不会影响容器正常使用。6.提供基于http协议的restful API接口,可以供第三方工具调用显示监控数据。7.调度系统支持十万级别并发处理。8.支持负载均衡处理负载较重的API接口,使得API请求处理控制在毫秒级别。9.支持秒级创建资源:即从用户在页面点击“创建”按钮,1 套 148 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

产品 名称 产品 模块 产品 型号 产品描述 数量 单位 到容器资源成功创建完成所花费时间不能超过5秒钟。 大数据实验平台镜像仓库 cRegist1.提供容器所需镜像仓库的存储,调度,查询等操作2.提spark,storm等大数据组件。3.支持1T以上的镜像资源存储。4.镜像仓库可靠性不低于99.9%。5.内部数据网络支持千兆带宽,上传下载速度不低于100MB/s。6.支持AUFS(全称Advanced Multilayered Unification File System,即高级联合文件系统)。AUFS是一种分层、轻量级并且高性能的文件系统,它支持对文件系统的修改作为一次提交来一层层的叠加,同时可以将不同目录挂载到同一个虚拟文件系统下。容器通过共享基础的文件系统层,同时再加上自己独有的改动层,提高了存储的效率。 1 套 ry v1.0 供教学所需的镜像资源。包括hadoop组件,hbase组件,大数据实验平台资源监控系统 — 实时监控整个平台内集群资源使用相关数据: 1. 已创建的集群总数量,方便用户掌控资源使用情况,合理安排学生同时学习时间。 2. 已创建集群的类型:Spark/Hadoop/Storm/Hive等,随时掌握每个实验的学生学习情况。 3. 已创建集群各类型的数量:方便教师管理统计某个具体课程(Hadoop/Storm/Hive等)的学生的学习进度。 4. 已创建集群的使用者:方便教师统计学习人数和单个学生的学习进度。 5. 同一类型使用者创建的集群数量:方便教师管理统计整体学生的学习进度。 6. 集群使用者的详细信息: 统计具体学生使用情况,方便教师针对性教学。 7. 剩余可创建集群数量: 帮助教师掌控是否资源足够,方便管理者决策是否需要升级更高版本或者增加物理资源。 大数据实验一体机软件仓库 — 提供实验过程中需要学习和使用的多种软件,如: 1. 可扩展开发平台:通过安装我们提供的订制化插件,可支持大数据应用开发。 2. Hadoop插件:针对Hadoop订制化开发插件,帮助用户快速开发Hadoop程序。 3. Storm插件:针对Storm订制化开发插件,帮助用户快速开发Storm程序。 4. HBase插件:针对HBase订制化开发插件,帮助用 149 / 153 真诚为您提供优质参考资料,若有不当之处,请指正。

产品 名称 产品 模块 产品 型号 产品描述 数量 单位 户快速开发HBase程序。 5. Hive插件:针对Hive订制化开发插件,帮助用户快速开发Hive程序。 大数据实验学生许可 华为交换机S5700-28C-SI 机柜+PDU 大数据资源包 cResources1.0 1.提供180本大数据实验教材 2.提供实验教材相配套的PPT 3.提供综合85个大数据实验的实验手册及配套85个基础实验的高清视频课程 3.1 涵盖原理验证、综合应用、自主设计及创新的多层次实验内容 3.2 每个实验呈现详细的实验目的、实验内容、实验原理和实验流程指导 3.3 配套相应的实验数据和高清视频课程,参照手册即可轻松完成每个实验 4.提供大数据实验一体机实验手册配套视频,每个实验配套一个相应的学习视频 5.提供大数据实验所需要的海量数据,包括交通数据、气1 套 K36042 S5700-28C-SI 24个10/100/1000Base-T以太网端口,4个复用的千兆Combo SFP,上行支持4×1000Base-X SFP、2×10GE SFP+、4×10GE SFP+插卡可插拔双电源,支持交流或者直流供电包转发率:102Mpps交换容量:256Gbps含堆叠卡、扩展卡(2端口万兆SFP+光接口板)、2个多模光模块、2对10M多模光纤 19’国际标准、42U、600*1000,含PDU 1 台 2 台 — 最大可同时支持150个学生进行大数据实验 150 个 150 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

产品 名称 产品 模块 产品 型号 产品描述 数量 单位 象数据、环境数据、灾害数据、地理数据\" 大数据服务包 cServices1.0 1.提供现场安装实施 2.提供3年7x24小时电话、网站和邮件支持,技术服务人员现场支持 3.提供7天技术培训服务 4.每年集中提供多次大数据师资培训\" 桌面虚拟化 云桌面服务器 cServer 2*E5-2650v3,12*16GB Memory,2*240GB SSD;2个千兆口,4 C1208 rStor-7024D 2U 24盘位高性能的冗余双控制器+2U/24盘位扩展柜*2;支持6Gb SAS/SATAII企业级硬盘;支持RAID 0、1、3、5、6、10、30、50、60、NRAID级别;4*8GB缓存;4个8Gb光纤主机接口;4个1Gb ISCSI主机接口;企业级900GB*48。 1 台 8Gb/s FC*1(含光模块),2U,含导轨。 台 5 天 集中共享存储 云终端 交换机(接入) 交换机(核心) 云桌面软件 双核x86架构;2GB Memory,16GB SSD, 2 LAN ports 150 (4x10BaseT/100BaseTX/1000BaseT),USB*4,VGA*1,HDMI*1 台 S6700-48-EI 48个10/100/1000Base-T以太网端口,包转发率:102Mpps交换容量:256Gbp 2 台 S5700-28C-SI 24个10/100/1000Base-T以太网端口,支持交流或者直流供电包转发率,102Mpps交换容量:256Gbps含堆叠卡。 2 台 150用户license 150 套 151 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

产品 名称 产品 模块 显示器 键鼠套装 产品 型号 产品描述 数量 单位 显示器 150 台 键盘鼠标等配套设备 150 套 机柜 K36042 教 学 云 盘 云存储控制 服务器 云存储节点 服务器 分布式存储 软件 每TB容量 管理许可 网盘基础 平台软件 V2.0 — cStor V2.0 19’国际标准、42U、600*1000,含PDU 1 1 台 套 cServer 提供云存储系统元数据的管理和维护,对外提供统一命名1208 空间;同时提供对存储资源分配、负载均衡调度,以及用户认证、存储集群监控管理等。支持数据快照、精简配置、用户配额管理等功能。采用双路Intel E5 8核处理器,64GB 缓存,2*1Gb数据接口,2*480GB SSD,热拔插(1+1)冗余电源, 1*机架角轨套件 cServer 提供用户数据的存储和管理,支持数据块跨节点间的容错1212 和恢复,对外响应用户的读写访问请求,存储系统的性能随节点数量增加线性增长。采用双路Intel E5 6核处理器,16GB缓存,2*1Gb数据接口,2*150G SSD系统盘,12 * 3.5'' SATA/SAS热拔插盘位,热拔插(1+1)冗余电源,1*机架角轨套件。 采用分布式云存储架构,支持存储系统在线PB级Scale-out扩展,其性能随存储节点数量增加线性扩展,支持任意1个磁盘或节点失效而不影响系统的使用以及数据的完整性。 1 套 1 套 每TB容量管理许可 24 TB xx网盘,私有云的安全,公有云的便利,为用户构建私有云平台,为用户提供了安全、稳定、高效、性价比高的数据管理服务。 1 套 152 / 153

真诚为您提供优质参考资料,若有不当之处,请指正。

产品 名称 产品 模块 网盘用户license 机柜 华为交换机S5700-28C-SI 产品 型号 cPan V2.0 产品描述 数量 单位 用户数许可。 2000 个 K36042 19'国际标准、42U、600*1000,含PDU。 S5700-28C-SI 24个10/100/1000Base-T以太网端口,4个复用的千兆Combo SFP,上行支持4×1000Base-X SFP、2×10GE SFP+、4×10GE SFP+插卡可插拔双电源,支持交流或者直流供电包转发率:102Mpps交换容量:256Gbps含堆叠卡、扩展卡(2端口万兆SFP+光接口板)、2个多模光模块、2对10M多模光纤。 1 1 台 台 153 / 153

因篇幅问题不能全部显示,请点此查看更多更全内容

Top