大数据环境下的机器学习研究

来源：意榕旅游网

ＥＬＥＣＴＲＯＮＩＣＳ　ＷＯＲＬＤ・ｊＩ　真　ｉ｝寮　大数据环境下的机器学习研究　宝鸡市石油中学李尚晋　【摘要】随着互联网的发展，大数据技术吸引了越来越多的关注。现今网络上的数据正以前所未有的速度产生，要实现体量庞大的数据的智　能处理，充分利用数据中蕴合的价值，就需要采用机器学习方法。本文详细阐述了大数据环境下的机器学习研究，首先，介绍了大数据时代　机器学习的研究特点和主要评价指标；然后，在此基础上，分析了当前机器学习的关键技术；最后，总结本次研究。　【关键词】大数据；机器学习；并行化　当今时代，数据的产生和传输速度急剧增长，数据往往体现　统的算法已经很难满足，这就需要新的算法来实现。评价机器学习　出了规模巨大、不够精确、数据混杂、动态多变等性质，传统的机　器学习已经很难满足时代的需要　】。大数据所带来的问题不仅仅是　数据量庞大而使计算变得困难，更大的困难是数据是在不同服务器　上得到的。这些在不同服务器上的数据，它们之间或许存在某种联　系，但是我们不可能把它们集中起来进行处理和利用。传统机器学　习的理论、算法，它要求数据必须是且同分布的，而当条件不　能被满足，学习模型以及学习算法就不能发挥其作用。　１．大数据环境下的机器学习　大数据环境下的机器学习赋予计算机从各式各样的庞大数据　（结构化、非结构化等类型数据）中较快地获得有价值的信息和知　识的能力　ｌ。传统机器学习着重用预先设定好的统计方法来对数据　分析，以发现数据的价值；与传统机器学习相比，大数据环境下机　器学习的最终目的是要从多源异构、动态多变的数据中找出其隐藏　在背后的某些规律，使数据能发挥最大程度的价值。从结构繁多的　数据中找出某种联系，必须结合大数据技术和机器学习算法，由计　算机去挖掘数据的价值。　大数据时代中，传统机器学习的新挑战就是如何处理海量数　据。传统机器学习所面临的问题主要包括几个方面：　（１）理解并模拟人类的学习过程。　（２）对计算机系统和用户间的语言差异的研究。　（３）针对不完全信息进行推理的要求。　目前，处理大规模数据的需求是普遍存在的，但是由于现有的　很多机器学习算法并不能满足这些条件，或存在各种各样的缺陷和　问题，所以现有的许多算法不可以很好地处理海量数据。如何研究　出新的机器学习算法，以适应大数据处理的需求，是大数据时代下　的机器学习的重要研究方向之一…。　在机器学习的发展历程之中，有两大研究的方向。一是研究人　类学习机制，注重模拟或实现人类的学习行为；二是研究怎样有效　利用信息，从庞大的数据中获取有效的、有价值的知识　ｌ。在大数　据时代，数据产生速度越来越快，数据的体量出现了前所未有的增　长，且需要分析的新数据种类也在不停涌现。大数据时代对机器　学习算法提出了更高的要求，要求机器学习算法具备处理海量数据　的能力，要求算法可以处理高维度的数据，要求算法和训练出的模　型具备尽可能低的复杂性，以提高模型的训练速度和实际应用中模　型的预测速度，减少计算时间的浪费。　２．主要评价指标　由于需要处理的数据量大且动态多变，要发现其中的价值，传　・６２・电子世界　算法优劣的指标主要有一下几个方面。　（１）速度　在机器学习算法中，和速度有关的指标有训练速度和预测速　度。训练速度是指算法收敛的速度，即训练算法得出最优模型的速　度。预测速度是指使用最优模型预测输入信息对应的结果的速度。　如何开发出在训练速度和预测速度两个方面表现都比较优秀的机器　学习算法，是一个重要的研究方向。　（２）泛化能力　机器学习的基本目标是将训练数据中的实例泛化推广。一般情　况下，要求机器学习算法有较强的泛化能力，即对新输入的数据做　出合理响应的能力。这一响应能力代表着机器学习算法的性能。　（３）数据利用能力　随着人们收集数据的能力变得越来越强，收集的数据类型也　变得越来越多，不但有标识的数据，还有许多未标识的数据以及一　些不一致、不完整的数据。如果一味地丢弃这些数据，只使用己标　识、较完整的数据，就会造成资源的浪费。而且相比之下，学习到　的模型的泛化能力也比较低。所以，利用种类繁多、格式多样的数　据的能力，是评判机器学习算法的重要指标。　（４）代价敏感　代价敏感是指机器学习算法对于实际应用中的错误预测所导致　的损失是否敏感。在机器学习算法训练模型的过程中，内部调节参　数以使损失函数尽可能快地收敛。一个好的机器学习算法，其损失　函数不仅仅考虑模型的错误，而且要关注在实际应用中模型的错误　所导致产生的代价。　（５）可解释性　许多功能强大的机器学习算法可以说都是“黑盒子”，例如：　神经网络算法。对于这类“黑盒子”算法，绝大部分用户只能够看　到模型输出的结果，却不知产生这些结果的原因。而随着数据量的　不断增加，问题复杂度的提高，模型的可解释性往往也越来越差。　在得到合理预测结果的同时，增强模型的可解释性尤为必要。　３．关键技术　当前，机器学习领域比较常用的关键技术有半监督学习、集成　学习、迁移学习等，下面将逐一做出介绍。　（１）半监督学习　在现实生活中的数据分析中，数据往往以未标识的形式呈现。　这些数据需要人们使用特殊的设备，进行用时很长的实验，标记实　验结果后才能得到部分己标识数据。但是人工标注耗时耗力，人们　往往只能标记－－４，部分数据，由此产生了极少的已标识数据和过剩　的未标识数据。因此，人们尝试将大量的未标识数据和有限的已标　ＥＬＥＣＴＲＯＮＩＣＳ　ＷＯＲＬＤ・攘勇害鸟霉睛　识数据一起用来训练模型，期望能通过这种处理方式对机器学习性　能有所改进，由此产生了半监督学习。半监督学习避免了大量的数　据和资源被浪费，同时可以解决监督学习泛化能力不强和无监督学　习不精确的问题【４】。　（２）集成学习　海量数据的处理过程中，单一的学习算法训练出的模型往往预　为大量无标识数据和小部分有标识数据的组合。半监督学习高效利　用了这些数据，使学习性能有所提高；而随着数据量增加，集成学　习通过组合多个学习器的方式，提升了机器学习算法的泛化能力；　迁移学习，利用已有的学习成果，不断积累并且衍生到未知的领　域　］。除此之外，大数据时代的机器学习还必须解决可扩展性的问　题，这需要考虑采用并行化的方法。　测性能较差，分类不精准。我们将预测正确率仅仅比随机猜测略高　的模型称为弱分类器，将辨别正确率高的模型称为强分类器。集成　学习的核心思想在于“集众家之长”。集成学习中，首先训练多个　弱分类器，然后通过一定的策略（加权法、投票法等）将这些弱分　参考文献　【１】张绍成，孙时光，曲洋，董宇．大数据环境下机器学习在数据挖掘　中的应用研究Ⅱ］．辽宁大学学报（自然科学版），２０１７，４４（０１）：１５－１７．　【２】庄福振，罗平，何清，史忠植．迁移学习研究进展Ⅱ】．软件学报，２０１５，　２６（０１）：２６—３９．　类器组合起来形成一个预测较为精准的强分类器［６】。　（３）迁移学习　随着机器学习理论的发展，很多新的学习算法被提出。可是，　［３】何清，李宁，罗文娟，史忠植．大数据下的机器学＞－３算法综述田．　模式识别与人工智能，２０１４，２７（０４）：３２７—３３６．　在一些情况下，我们想要解决某个问题，常常被一些现实条件所限　制，例如：数据量小、标识数据过少等。迁移学习的方法良好地解　决了这一问题。迁移学习旨在利用目标任务（待解决任务）和源任　务（已经分析过的应用场景）之间的相似性，将源任务中学习到的　知识迁移到目标任务中，以此来增强算法处理目标任务的效果　】。　［４】陈康，向勇，喻超．大数据时代机器学习的新趋势Ｕ】．电信科　学，２０１２，２８（１２）：８８－９５．　【５】许至杰．迁移学习理论与算法研究【Ｄ】．华东师范大学，２０１２．　［６】王丽丽．集成学习算法研究【Ｄ］．广西大学，２００６．　４．总结　作者简介：　李尚晋（１９９９一），男，陕西宝鸡人，现就读于宝鸡市石油中　大数据环境下，数据往往只有少部分被标识，数据形式呈现　学，高三学生，研究方向：计算机科学与技术。　（上接第６１页）　２．４　８１：Ｌ特加法器　由４比特加法器可求得８比特加法器公式，拆分得两４比特加法　器　和　啦＾６　。可求得　加法器的结果　１　将　Ｈ　ｙ３ｙ　ｌ和ｚ　Ｉ的值代入即可得８比特加法器公式。在计　算时可分两步，第一步求出ｙ，ｚ的值，第二步将ｙ，ｚ代入求得ｘ的值。　由逻辑实现可得，８比特加法器需要２８个与门，６个或门，２０个　异或门。　２．５　２　比特加法器　ｙ５ｙ・　ｙ　ｌ，　龟　印　６妇加法器的结果ｙ５　ｙ．　ｙ　ｌ。然后将　与ｚ５组成加法器，算出最终结果。　毛　而＝　通过上述计算可以发现，２　比特加法器可由两个２　比特加法器　组合…　＋　一所示：　白　：　＝　０　＝毛ｙｌｅ　＝　０　＝％）ｊｌ　ｙ３国　：ｚＩｙ　ｊｙＩ七　由逻辑实现可得，２　比特加法器需要２８・３　个与门，６・３　个或　门，２Ｏ．３　个异或门。　口．　吗　ｑ　３．结论　＋　＾　ｅ　本文分析研究了通用加法器的设计方式，实现了２　比特加法器　茸　，　｜　逻辑实现方式并分析了逻辑实现所需要的逻辑门。　电子ｔｌ¨　・６３・　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文