Cloud Storage:System Instances and Current Research
Huaxiang XU, Lin CHEN, Jie LIU1, Fenglan LIANG1, Hao CHEN 2
1
1
1.Department of No.3,Suqian College, Jiangsu Prov,Suqian City, China 2. Office of Teaching Affairs,Suqian College, Jiangsu Prov,Suqian City, China
Abstract: Cloud storage, a new technology, which is based on the distributed storage combined with virtualization technology, is the latest development in the distributed storage technology. Cloud storage means that storage can be used as a service available to the users through the Internet. The passage describes the meaning of cloud storage, system structure, classification and technical advantages, and the domestic and foreign development of cloud storage technology. The article also presents the current state of development of cloud storage and the future development trends.
Keywords: cloud storage; cloud computing; cloud storage model; cloud storage type; data storage
云存储:系统实例与研究现状
112
徐化祥,陈林,刘杰,梁凤兰,陈浩
1
1
1.宿迁学院三系,江苏宿迁,中国,223800 2.宿迁学院教务处,江苏宿迁,中国,223800
摘 要:云存储是分布式存储技术与虚拟化技术结合的产物,是分布式存储技术的最新发展。云存储意味着存储可以作为一种服务,通过互联网提供给用户。介绍了云存储的含义、系统结构、分类及技术优势,对国内、外云存储技术发展情况分别予以分析介绍,通过此文可以了解当前云存储的发展状况并把握未来的发展趋势。
关键字:云存储;云计算;云存储模型;云存储类型;数据存储
1 引言
云存储(cloud storage) 是与云计算(cloud computing)同时兴起的一个概念,存储在云计算中的基础支撑作用和地位是被业界广泛认同的。随着Web2.0技术的大量应用,大量的信息以井喷的态势出现在互联网上,如何应对这种信息爆炸式的增长速度,如何对这些信息进行有效存储和管理是人们现阶段面临的挑战之一,同时也对云存储技术带来了巨大的机遇。大小厂商的云存储方案纷至沓来,在各行各业的应用也如火如荼的开展,本文将探讨云存储技术的发展现状及其在高校中的应用案例。
2.1 云存储的含义
云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统[1]。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服
2 云存储
云存储近年变得越来越热,大家众说纷”云”,而且各有各的说法,各有各的观点,那么到底什么是云存储?
基金项目:Supported by the National Natural Science Foundation of China under Grant No.61073112(国家自然科学基金).
© 2011. The authors - Published by Atlantis Press
185
务,所以严格来讲,云存储不是存储,而是一种服务,即STaaS(STorage as a Service)。
任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。
可见,云存储系统是一个多设备、多应用、多服务协同工作的集合体,它的实现要以多种技术的发展为前提,包括:宽带网络保证数据远距离快速传输,WEB2.0技术以实现不同终端设备上网共享内容,应用存储技术促进服务器存储硬件设备与应用软件紧密结合,集群技术、网格技术和分布式文件系统保证多个存储设备之间协同工作,CDN内容分发、P2P、数据压缩、重复数据删除和数据加密技术保护数据安全,存储虚拟化和存储网络化管理技术提高存储系统性能和管理效率。
2.2 云存储系统的结构
根据云存储的概念描述,云存储系统的结构模型
[2]
一般由4层组成,如图1所示。
2.3 云存储的类型
业界按照云存储提供者与使用者的所属关系为划
Figure 1. Architecture of cloud storage system
图1. 云存储系统结构模型
分标准,将云存储分为三类,即公共云存储、私有或内部云存储和混合云存储。 2.3.1 公共云存储
公共云存储服务是云存储可选项之一,其服务供应商的数量增长迅速,包括美国电话电报公司、亚马逊、铁山、微软、Nirvani、Rackspace托管服务提供商等众多公司。他们的存储基础设施通常包括直接附加驱动的低成本存储节点和负责管理跨节点内容分布的基于对象的存储体。公共云数据通常是通过互联网协议被访问,大多以表述性状态转移(REST),很少是通过简单对象访问协议(SOAP)。弹性和冗余性是通过一个对象在至少两个节点上存储来实现的。目前是按照每个月每10亿字节收取1美元的基础上,根据不同的服务提供商,可能有额外的数据传输量费用和入网费。
公共云存储是专为大规模多租户而设计,能为每个客户提供数据隔离、访问与安全性的服务。公共云存储的内容类型其范围包括,从静态非核心应用数据、需要可用的归档内容到数据备份以及灾难性恢复数据。公共云存储不太适合一直存在变化的活动性内容。企业目前主要关注的是使用公共云存储时其安全性以及在某种程度上的性能。 2.3.2 内部或私有云存储
内部或私有云存储在数据中心的专用基础设施上运行,因此,能完全满足安全性和性能这两个主要关注点,并在其他方面提供了与公共云存储一样的好处。虽然较大规模的企业可能会使用多租户装置来隔离部门之间或办公多地的访问,但内部存储云通常是针对单一租户。不像公共云存储,内部云存储的可扩展性条件更普通一些,因此它的产品更有可能在后台设有传统的存储硬件设备。
2.2.1 存储层
存储层是云存储最基础的部分。存储设备可以是FC光纤通道存储设备,可以是NAS和iSCSI等IP存储设备,也可以是SCSI或SAS等 DAS存储设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此之间通过广域网、互联网或者 FC光纤通道网络连接在一起。存储设备之上是一个统一存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。 2.2.2 基础管理层
基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。 2.2.3 应用接口层
应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘引用平台,远程数据备份应用平台等。 2.2.4 访问层
186
2.3.2 混合云存储
拥有混合云存储环境的用户可以管理内外部资源。因为混合云方案通常提供一个现场设备,他们还可提供本地高速缓存和内存,重复数据删除以及为IT设备数据加密。
然而,混合云解决方案必须满足某些关键的要求来使混合云存储进行工作。他们必须表现得和同类存储一样几乎透明,并有适当维持活动的功能和现场使用频繁的数据,而且同时能将非活动数据移动到云。这些云的类型依靠企业的实际情况来决定具体的数据何时被移动到云或何时从云中退出。
在此讨论的每个云存储选项都有其优点和缺点。公共云具有高可扩展性,但往往性能滞后。私有云一般具有较高的可靠性,但可扩展性却有限。混合云或需能为一些公司提供他们所寻求的内部控制,但也往往花费更多。就中国目前的情况来讲,各企业由于出于信息安全的考虑,私有云将是第一选择。当然,把一些非重要数据存储到数据中心也是存在的,这实际上就是所说的混合云。当然,还有一个中国特色的云,那就是“行业云”。现在各地都在建设的区域化医疗信息系统就是个典型的例子。
传统的购买和定制模式下,一旦完成资金的一次性投入,系统无法在后续使用中动态调整。随着设备的更新换代,落后的硬件平台难以处置;随着业务需求的不断变化,软件需要不断地更新升级甚至重构来与之相适应,导致维护成本高昂,很容易发展到不可控的程度。而云存储方式一般按照客户数、使用时间、服务项目进行收费。企业可以根据业务需求变化、人员增减、资金承受能力,随时调整其租用服务方式,真正做到“按需使用,即用即付”。
3 国外云存储的研究进展
下面对国外主要的云存储服务做简要的分析,以便把握其发展现状。
3.1 Amazon云存储方案
Amazon公司是最早推出云存储服务的企业,也是最成功的企业。为了利用闲置的硬件资源,Amazon公司从2006年开始对外出租存储服务,即简单存储服务(S3,Simple Storage Service)[4],该服务是Amazon网络服务(AWS,Amazon Web Services)的一部分。Amazon网络服务由四个部分组成:简单排列服务(Simple Queuing Service)[5],简单存储服务,弹性计算云(Elastic Compute Cloud)[6]和简单数据库(SimpleDB)。由于存储费用低廉,服务稳定,S3获得了大量客户的青睐。此外,Amazon还推出了弹性块存储技术(EBS,Elastic Block Storage)[7],支持数据的持续性存储。目前,S3支持用户上传不大于5TB的单个文件。
2.4 云存储的优势
与传统的购买存储设备和部署存储软件相比,云存储方式存在以下优点[3]: 2.4.1成本低、见效快
传统的购买存储设备或软件定制方式下,企业根据信息化管理的需求,一次性投入大量资金购置硬件设备、搭建平台。软件开发则经过漫长的可行性分析、需求调研、软件设计、编码、测试这一过程。往往在软件开发完成以后,业务需求发生变化,不得不对软件进行返工,不仅影响质量,提高成本,更是延误了企业信息化进程,同时造成了企业之间的低水平重复投资以及企业内部周期性、高成本的技术升级。在云存储方式下,企业除了配置必要的终端设备接收存储服务外,不需要投入额外的资金来搭建平台。企业只需按用户数分期租用服务,规避了一次性投资的风险,降低了使用成本,而且对于选定的服务,可以立即投入使用,既方便又快捷。 2.4.2易于管理
传统方式下,企业需要配备专业的IT人员进行系统的维护,由此带来技术和资金成本。云存储模式下,维护工作以及系统的更新升级都由云存储服务提供商完成,企业能够以最低的成本享受到最新最专业的服务。
2.4.3 方式灵活,伸缩自如
3.2 IBM云存储方案
IBM于2009年推出了云计算领域的存储战略计划—“企业级智能云存储”[8]。通过存储虚拟化和基于私有云的存储和归档技术,这项服务旨在为企业客户提供应用程序方面的支持。与其它云存储的提供商不同,IBM提出的解决方案可以对企业现有的基础架构进行整合[9]。通过虚拟化技术和自动化技术,IBM可以帮助企业构建属于自己的云计算中心,实现企业硬件资源和软件资源的统一管理、分配、部署、监控和备份,打破应用对资源的独占,帮助企业内部实现云计算和云存储的理念。
3.3 EMC云存储方案
EMC公司推出的云存储基础架构EMC Atmos[10],是一种基于策略的管理系统,也是第一套容量高达PB字节的信息管理解决方案。Atmos能通过全球云存储环境,协助客户将大量非结构化数据进行自动管理。凭借其全球集中化管理与自动化信息配置功能,可以使Web 2.0用户、互联网服务提供商、媒体与娱乐公
187
司等安全地构建和实现云端信息管理服务。EMC Atmos的领先优势在于信息配送与处理的能力,采用基于策略的管理系统来创建不同层级的云存储。目前,Atmos有三个版本,系统容量分别为120TB、240TB和360TB,全部基于x86服务器,支持千兆级以太网连接。
由Apache自由软件基金会基于Google云计算系统的设计思想,实现了开源的Hadoop项目[18]。该项目包括HDFS(Hadoop Distributed File System)、MapReduce、HBase、Hive和ZooKeeper等成员,目标是建立一个可靠性高、成本低、扩展性强且效率高的开源云计算平台,为研究者提供依托。这些开源项目能够促进云计算平台的研究和发展,为将来成熟的企业级产品应用提供思想和实践的借鉴。
3.4 Microsoft云存储方案
早在2007年,微软就推出了网络硬盘服务Windows Live SkyDrive[11],向用户提供25GB的网络存储空间。目前,微软的Live Mesh提供的云存储服务为用户提供2G的免费空间,用于分享文件和图片等数据。
4国内云存储的发展状况
以下从高等院校和产业界两个方面分析一下国内云存储的发展状况。
4.1 国内高校云存储方案
国内众多高校目前也积极开展云存储的相关技术研究与应用:
(1)清华大学Corsair系统[19]。郑纬民等设计并实现了由分布式文件系统Carrie和数据共享服务系统Corsair组成,为该校师生提供个人数据存储、社区型数据分享以及公共资源数据下载等服务的云存储平台。这个存储云目前有几百个集团用户及一万六千个个人用户,共使用了100T的存储空间。只要有网络的地方,用户都可以登录到云中,无须再携带移动硬盘等设备进行数据的转移了。该存储云的最大特点是在于其对安全性的保证,这个存储云可以说是清华大学的一个私有云。
(2)理工大学MassCloud[20]。刘鹏等开发了一个海量云存储平台MassCloud,与传统的大规模存储系统相比,它具有构建成本低、性能高效可靠、使用简单方便的特点。在需要存储大量数据(如视频监控、数字地球、业务数据等)的应用场合,可以提高大幅度存储系统性能价格比。与Google、Amazon云存储系统不同在于,该系统提供符合POSIX规范的访问接口,无论是哪种系统下的应用程序,都可以不经修改就将云存储当成自己的硬盘来使用。同时,也提供专用的API接口。
3.5 Google云存储方案
Google公司于2010年夏天推出了Google Storage for Developers(GSD)[12]服务,该服务提供的数据存储可以在位于美国的几个数据中心之间复制[13],只提供给少量的Google服务开发者,每个账户拥有100GB的存储和300GB的带宽。数据以对象的形式存储,组织方式为单层的继承结构并放在Bucket中。账户中的Bucket的组织方式也是单层的继承结构,所有的Bucket可以跨越GSD共享一个公共的命名空间。Google允许开发者通过Google帐号进行数据下载、备份服务。此外,还将向外部开发者提供数据管理工具和网络用户界面。目前,Google宣布完全开放Storage存储完全开放,任何人都可在年底之前免费申请体验5GB的存储空间和25GB的带宽。
3.6 HP云存储方案
为了应对云存储的挑战,HP提出了“融合基础架构”的概念
[14]
。所谓的“融合基础架构”,就是把服
务器、存储资源、网络、软件以及管理融合在一起,形成虚拟的资源池,进而实现云计算和云存储。HP推出了StorageWorks P系列存储产品,基于可扩展架构,通过模块化存储来达到扩展存储容量和提高系统性能的特点。
4.2 国内产业界云存储方案
国内云存储领域七大代表行业的争霸态势[21]: (1)以传统硬件制造商为主导,代表:华为(数据银行 DBank);华为是国内著名的电信设备制造商和网络解决方案提供商,就其现有资源来看,雄厚的资金实力和完备的硬件支持绝对是其挺进云存储领域的资本,也是令其他公司可望而不可及的资源。(2)以门户网站巨头为主导,代表:新浪(微盘)。微博的成功再一次见证了当年博客推出时的辉煌,开发者
[15]
3.7 开源的云存储方案
云存储的兴起正在现有的网络存储架构。对于海量数据存储来说,传统的SAN
或NAS
[16]
在容量
和性能的扩展上存在瓶颈。为了避免传统存储架构的缺陷并保证集群的低成本性,采用分布式文件系统进行数据存储就成为必然的选择。在开源云计算平台领域,比较著名的有Abiquo公司的开源产品abiCloud,abiNtense和abiData,Santa Barbara大学建立的开源项目Eucalyptus(Amazon EC2/S3的开源实现)。另外,
[17]
188
开放平台(Sina App Engine)和微博开放平台的双重推动又让其胃口进一步大增。在此基础上,新浪推出云存储工具“微盘”,既是对自身开放平台底层架构的完善,也是吸引开发者入驻和提高普通用户黏性的利器。(3)以云端化的传统应用工具为主导,代表:金山(快盘)。几乎与华为 DBank 同期出道的快盘,也一直保持着快速发展的势头,目前已经先后推出了 PC版、Android版、iPad版、便携版等,产品线拓展得最快也最全。(4)以网络在线存储空间为主导,代表:115网盘(优蛋)。115 网盘本身从事在线存储业务的项目,拥有众多铁杆用户,其最近宣布将在后续加入文件同步功能,向云存储迈进一步。(5)以下载工具为主导,代表:迅雷(随身盘)、FlashGet(袋鼠)。本身从事的业务与大容量文件存储、多人多线程传输、虚拟化、资源分享相关,又已经具备了占据大量用户终端的客户端,转向云存储服务应该很自然。(6)以安全工具为主导,代表:360(云盘)。以“安全”为品牌核心价值的360,以“安全”和“免费”作为主要思路。(7)以 IM 工具为主导的腾讯QQ。腾讯向其已经拥有的庞大用户,提供了QQ硬盘、离线传输、文件中转站等云存储服务。
[18]
[19] [10] [11] [12] [13] [14] [15] [16] [17] [9] [4] [5] [6] [7] [8]
5 结束语
本文讨论了云存储技术的含义、结构模型、技术优势,并通过具体的云存储实例进行详细分析与研究,对国内、外云存储技术发展情况分别予以分析,使读者能够理解云存储的内涵并了解云存储的发展现状。
云存储已经成为未来存储发展的一种趋势,目前,云存储厂商正在将各类存储、虚拟化、搜索、应用技术和云存储相结合,以便能够向用户提供更安全、更低廉、更可靠、更便捷的数据服务。目前,产业界和学术界对云存储的研究都比较重视,相信随着产业界和学术界对云存储技术研究力度的加大,云存储技术必将迎来一个更大的发展。
[21] [20]
周可,王桦,李春花.云存储技术及其应用[J].中兴通讯技术,2010, 16(4),P24-27. Amazon simple storage service(Amazon S3)[OL]. http://aws.amazon.com/s3/,2009.
Amazon simple queuing service(Amazon SQS)[OL]. http://aws.amazon.com/sqs/,2009.
Amazon elastic compute cloud(Amazon EC2)[OL]. http://aws.amazon.com/ec2/,2009. Amazon elastic block storage(Amazon EBS)[OL]. http://aws.amazon.com/ebs/,2010.
Kelly Sims.IBM Introduces Ready-to-Use Cloud Computing [OL].http://www-03.ibm.com/press/us/en/pressrelease/22613.wss,2007.
Clark C,Fraser K,Hansen JG,Jul E,Pratt I,Warfield A.Live migration of virtual machines[C].Proc.of the 2nd Symp.on Networked Systems Design and Implementation. Berkeley:USENIX Association,2005,P273-286.
Naoya Hatakeyama.Atmos.Berlin:Nazraeli Press,2003. Microsoft,Skydrive[OL].http://skydrive.live.com Google Storage for Developers[OL]. http://code.google.com/intl/zh-CN/apis/storage/
Barroso LA,Dean J,Holzle U.Web search for a planet:The Google cluster architecture[J]. IEEE Micro,2003,23(2):P22-28. HP Storage Networking[OL]. http://h18006.www1.hp.com/storage/networking/index.html SAN[OL].http://en.wikipedia.org/wiki/Storage_area_network NAS[OL].http://en.wikipedia.org/wiki/Network_attached_storage Daniel Nurmi,Rich Wolski,Chris Grzegorczyk.etc.The Eucalyptus Open-source. Cloud-computing System[C].In 9th IEEE/ACM International Symposium on Cluster Computing and the Grid.2009.
Hadoop[OL].http://hadoop.apache.org/
Zheng Weimin. Challenges and Opportunities for Cloud Computing[J]. China Computer Federation Communications. 2011,7(1),P18-22. (Ch).
郑纬民.云计算的挑战与机遇[J].中国计算机学会通讯,2011, 7(1),P18-22.
Liu Peng et al.MassCloud Cloud Storage System[OL]. http://www.chinacloud.cn/show.aspx?id=3036&cid=50 (Ch).
刘鹏等.MassCloud 云存储系统[OL]. http://www.chinacloud.cn/show.aspx?id=3036&cid=50.
The Internet of Things in China. Seven Supremacy Companies of Cloud Storage in China [OL]. http://www.50cnnet.com/bwgd/2010/1109/9969.html (Ch).
物联中国.国内云存储领域的七雄争霸[OL].http://www.50cnnet.com/bwgd/2010/1109/9969.html
作者简介
徐化祥 男,1979年生,江苏泗阳人,在职硕士,宿迁学院三系,讲师,CCF会员,主要研究方向为Web开发技术,云计算;
陈林 男,1977年生,江苏阜宁人,硕士,宿迁学院三系,讲师,CCF会员,主要研究方向为知识工程,语义Web; 刘杰 男,1982年生,江苏扬州人,硕士研究生,宿迁学院三系,讲师,主要研究方向为Web开发技术,云计算; 梁凤兰 女,1978年生,江苏泗阳人,硕士,宿迁学院三系,讲师,主要研究方向为管理信息系统,软件工程;陈浩 男,1977年生,江苏泗洪人,在职硕士,宿迁学院教务处,助理研究员,主要研究方向为管理信息系统。
References (参考文献)
[1] [2] [3]
B.Iyer,et al.Providing Database as a Service.In International Conference on Data Engineering, Washington:IEEE,March 2002 Baidu Encyclopedia.http://baike.baidu.com/view/2044736.htm [EB/OL].2011.
ZHOU Ke,WANG Hua,LI Chunhua.Cloud Storage Technology and Its Application[J],ZTE COMMUNICATIONS,2010,16(4), P24-27 (Ch).
1
云存储:系统实例与研究现状
作者:作者单位:
徐化祥, 陈林, 刘杰, 梁凤兰, 陈浩
徐化祥,陈林,刘杰,梁凤兰(宿迁学院三系,江苏宿迁,中国,223800), 陈浩(宿迁学院教务处,江苏宿迁,中国,223800)
本文链接:http://d.g.wanfangdata.com.cn/Conference_7560501.aspx
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务