您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页关于大数据技术相关问题的思考

关于大数据技术相关问题的思考

来源:意榕旅游网
【科技与管理】 Technology and Management

2中 2016年 第5期(总第523期)

关于大数据技术相关问题的思考

张全红

(榆林职业技术学院,陕西 榆林 719000)

摘 要:随着新时代的来临,当今时代的主流就是信息和网络,大数据作为信息时代和网络时代的重要组成部分,其占据着非常重要的地位,随着密集型数据爆炸现象的出现,继信息时代和网络时代之后,大数据时代即将来临。本文主要讲述大数据相关的技术,大数据处理的难点以及结构处理。

关键词:大数据技术;难点;结构处理

中图分类号:G434  文献标志码:A  文章编号:1000-8772-(2016)05-0126-01随着信息技术、网络技术以及云计算等诸多高新科技技术的不断涌现,大数据处理变得越来越重要,得到了社会各界的广泛关注。根据不完全统计,目前我国大部分企业每天所生成的数据量在1 TB以上,甚至会超过10 TB,有部分企业每天所生成的数据量已经高达50 TB以上。尤其是金融、互联网以及电信等新兴行业的发展,其行业本身就是数据。

据库扩展以及伸缩等多方面的需求。数据库往往具备着以下几个特点。其一,扩展方式要简单,在进行存储容量提高的时候,操作必须要简单快捷,并且维护升级的成本要低。其二,线性扩展,为了能实现数据库容量的扩展,并不是依靠单独的服务器或者单个集群的能力,必须要依靠简单的添加服务器来完成。

三、数据结构处理

一、大数据相关技术

1.大数据采集

大数据采集主要就是指通过数据库的方式来接收客户端的数据。其主要特点就是访问量比较大,因为在一个时间段内,可以有成千上万的用户进行访问和操作,如火车票售票网站,在高峰期的时候,浏览量可能达到百万以上,在这种情况下,传统的数据采集工具很容易失效。目前,我国大数据采集的方法诸多,包括日志采集、网络数据采集以及数据库采集等。

2.大数据分享

目前,我国主要的数据分享方法就是数据集市以及开放数据平台等方法实现。开放数据平台能够有效的覆盖到本地服务、娱乐、教育以及医疗等各个方面,用户可以有效的通过API访问,进而使用SDK集成到相应的移动应用中。在线数据集市不仅能够有效的提供下载数据的功能,还可以有效的提供用户上传和交流数据的场所。

3.大数据预处理

大数据预处理主要就是指采集的数据进行填补、平滑及检查一致性等处理,并且对数据所具备的多种属性进行初步组织,进而对数据的存储、分析以及挖掘等工作做好相应的准备。往往预处理主要包括了三个部分,即数据清理、数据集成和变换以及数据规约。

1.合理进行数据分区

目前,我国一般存储大数据的数据仓库容量一般会是GB级别的,甚至会高达TB级别,但是,随着时间不断的推移,数据库里的数据会越来越多,并且形成一个规模,不仅会严重影响到数据库运行的效率,也会增加数据库维护的难度。为能有效解决这一问题,应该对数据库进行合理分区,通过数据分区能够具备诸多优点,比如数据分的更小、更容易管理等优点,进而能够有效的减少磁盘I/O,降低系统本身的负荷,从而能够提高系统的运行效率。

2.优化查询SQL语句

(1)为了能更好地优化SQL语句,不仅需要尽量避免在where子句中使用以及<>操作符,进行null值判断,还需要减少字段进行表达式操作以及函数操作等情况出现。(2)在进行优化SQL语句的时候,为了能更好地增加读取速度,应该将数据、日志以及索引等内容放到不同的I/O设备上。(3)必须要根据实际情况,建立相应的索引,进而能有效优化索引、优化访问方式等,从而能够有效对结果集的数据量起到一个的作用,索引应该尽量小,在建立索引的时候应该采用字节数比较小的。

3.优化分页处理

(1)在使用内存的时候,往往会在查询之后进行分页处理,其具有一定的缺点,即占用的内存比较大。(2)在进行数据库分页的时候,其具有诸多缺点,如依赖数据库以及查询效率低等缺点。所以,分页处理优化是大数据处理的重要技术组成部分。在进行分页处理的时候,必须要预先考虑到内存中一部分页数数据能满足部分数据的需求,能对所有列组合进行相关数据的记录。在进行查询的时候,将相应的查询条件和列组合数据进行比较,进而能有效提高查询效率。

随着科学技术的快速发展,大数据时代的来临,大数据相关技术已成为目前研究的主要课题,也是将来发展的主要趋势。随着网络时代的来临,大数据技术逐步的由概念化转向为价值化,进而形成了以大数据为核心的新兴产业。通过大数据技术的不断更新和完善,有助于我国社会经济快速发展。

参考文献:

[1]翟岩龙.基于Hadoop的高性能海量数据处理平台研究[J].计算机科学,2013(3).

[2]赵浩然.论数据分区对海量数据处理的必要性[J].科学之友,2011(33).

(责任编辑:范晓捷)

二、大数据处理难点

1.数据量大

数据库每天所处理的数据量非常巨大,每天所需要处理的单位往往是以TB、PB级为主,甚至会出现EB级别,不仅会给数据处理带来了巨大的挑战,也会对数据存储以及服务器性能和安全等方面带来了比较高的要求。

2.结构化和非结构化大量并存

存储的大数据主要就是由两大部分组成的,即结构化数据以及非结构化数据,通过这些数据不仅能有效将数据库结合到一起,还可以成立一个有效的、统一的平台解决所发现的数据问题。

3.数据的快速增长

随着信息时代和网络时代的不断普及和加深,数据增长量日益提高,大数据增长速度往往是由PB级增长,不仅需要考虑到存储系统的吞吐量以及CPU本身的处理能力,还必须要考虑到数

收稿日期:2015-12-02

作者简介:张全红(1978-),男,宁夏隆徳人,讲师。研究方向:计算机应用。

CHINESE & FOREIGN ENTREPRENEURS126

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务