⼈⼯智能
⼈⼯智能标准化⽩⽪书(2018)》给出了答案1 机器学习
机器学习(Machine Learning)是⼀门涉及统计学、系统辨识、逼近理论、 神经⽹络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机 怎样模拟或实现⼈类的学习⾏为,以获取新的知识或技能,重新组织已有的知识 结构使之不断改善⾃⾝的性能,是⼈⼯智能技术的核⼼。基于数据的机器学习是 现代智能技术中的重要⽅法之⼀,研究从观测数据(样本)出发寻找规律,利⽤ 这些规律对未来数据或⽆法观测的数据进⾏预测。根据学习模式、学习⽅法以及 算法的不同,机器学习存在不同的分类⽅法。
(1)根据学习模式将机器学习分类为监督学习、⽆监督学习和强化学习等。监督学习
监督学习是利⽤已标记的有限训练数据集,通过某种学习策略/⽅法建⽴⼀ 个模型,实现对新数据/实例的标记(分类)/映射,最典型的监督学习算法包括 回归和分类。监督学习要求训练样本的分类标签已知,分类标签精确度越⾼,样 本越具有代表性,学习模型的准确度越⾼。监督学习在⾃然语⾔处理、信息检索、 ⽂本挖掘、⼿写体辨识、垃圾邮件侦测等领域获得了⼴泛应⽤。⽆监督学习
⽆监督学习是利⽤⽆标记的有限数据描述隐藏在未标记数据中的结构/规律, 最典型的⾮监督学习算法包括单类密度估计、单类数据降维、聚类等。⽆监督学 习不需要训练样本和⼈⼯标注数据,便于压缩数据存储、减少计算量、提升算法 速度,还可以避免正、负样本偏移引起的分类错误问题。主要⽤于经济预测、异 常检测、数据挖掘、图像处理、模式识别等领域,例如组织⼤型计算机集群、社 交⽹络分析、市场分割、天⽂数据分析等。强化学习
强化学习是智能系统从环境到⾏为映射的学习,以使强化信号函数值最⼤。 由于外部环境提供的信息很少,强化学习系统必须靠⾃⾝的经历进⾏学习。强化 学习的⽬标是学习从环境状态到⾏为的映射,使得智能体选择的⾏为能够获得环 境最⼤的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。其在机器 ⼈控制、⽆⼈驾驶、下棋、⼯业控制等领域获得成功应⽤。(2)根据学习⽅法可以将机器学习分为传统机器学习和深度学习。传统机器学习
传统机器学习从⼀些观测(训练)样本出发,试图发现不能通过原理分析获 得的规律,实现对未来数据⾏为或趋势的准确预测。相关算法包括逻辑回归、隐 马尔科夫⽅法、⽀持向量机⽅法、K 近邻⽅法、三层⼈⼯神经⽹络⽅法、Adaboost 算法、贝叶斯⽅法以及决策树⽅法等。传统机器学习平衡了学习结果的有效性与 学习模型的可解释性,为解决有限样本的学习问题提供了⼀种框架,主要⽤于有 限样本情况下的模式分类、回归分析、概率密度估计等。传统机器学习⽅法共同 的重要理论基础之⼀是统计学,在⾃然语⾔处理、语⾳识别、图像识别、信息检 索和⽣物信息等许多计算机领域获得了⼴泛应⽤。
深度学习
深度学习是建⽴深层结构模型的学习⽅法,典型的深度学习算法包括深度置 信⽹络、卷积神经⽹络、受限玻尔兹曼机和循环神经⽹络等。深度学习⼜称为深 度神经⽹络(指层数超过 3 层的神经⽹络)。深度学习作为机器学习研究中的⼀ 个新兴领域,由 Hinton 等⼈于 2006 年提出。深度学习源于多层神经⽹络,其实 质是给出了⼀种将特征表⽰和学习合⼆为⼀的⽅式。深度学习的特点是放弃了可 解释性,单纯追求学习的有效性。经过多年的摸索尝试和研究,已经产⽣了诸多 深度神经⽹络的模型,其中卷积神经⽹络、循环神经⽹络是两类典型的模型。卷 积神经⽹络常被应⽤于空间性分布数据;循环神经⽹络在神经⽹络中引⼊了记忆 和反馈,常被应⽤于时间性分布数据。深度学习框架是进⾏深度学习的基础底层 框架,⼀般包含主流的神经⽹络算法模型,提供稳定的深度学习 API,⽀持训练 模型在服务器和 GPU、TPU 间的分布式学习,部分框架还具备在包括移动设备、云平台在内的多种平台上运⾏的移植能⼒,从⽽为深度学习算法带来前所未有的 运⾏速度和实⽤性。⽬前主流的开源算法框架有 TensorFlow、Caffe/Caffe2、CNTK、 MXNet、Paddle-paddle、Torch/PyTorch、Theano 等。(3)此外,机器学习的常见算法还包括迁移学习、主动学习和演化学习等。迁移学习
迁移学习是指当在某些领域⽆法取得⾜够多的数据进⾏模型训练时,利⽤另 ⼀领域数据获得的关系进⾏的学习。迁移学习可以把已训练好的模型参数迁移到 新的模型指导新模型训练,可以更有效的学习底层规则、减少数据量。⽬前的迁 移学习技术主要在变量有限的⼩规模应⽤中使⽤,如基于传感器⽹络的定位,⽂ 字分类和图像分类等。未来迁移学习将被⼴泛应⽤于解决更有挑战性的问题,如 视频分类、社交⽹络分析、逻辑推理等。主动学习
主动学习通过⼀定的算法查询最有⽤的未标记样本,并交由专家进⾏标记, 然后⽤查询到的样本训练分类模型来提⾼模型的精度。主动学习能够选择性地获 取知识,通过较少的训练样本获得⾼性能的模型,最常⽤的策略是通过不确定性 准则和差异性准则选取有效的样本。演化学习
演化学习对优化问题性质要求极少,只需能够评估解的好坏即可,适⽤于求 解复杂的优化问题,也能直接⽤于多⽬标优化。演化算法包括粒⼦群优化算法、 多⽬标演化算法等。⽬前针对演化学习的研究主要集中在演化数据聚类、对演化 数据更有效的分类,以及提供某种⾃适应机制以确定演化机制的影响等。2 知识图谱
知识图谱本质上是结构化的语义知识库,是⼀种由节点和边组成的图数据结 构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体 —关系—实体”三元组,以及实体及其相关“属性—值”对。不同实体之间通过 关系相互联结,构成⽹状的知识结构。在知识图谱中,每个节点表⽰现实世界的 “实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在⼀起⽽得到的⼀个关系⽹络,提供了从“关系”的⾓度 去分析问题的能⼒。
知识图谱可⽤于反欺诈、不⼀致性验证、组团欺诈等公共安全保障领域,需 要⽤到异常分析、静态分析、动态分析等数据挖掘⽅法。特别地,知识图谱在搜 索引擎、可视化展⽰和精准营销⽅⾯有很⼤的优势,已成为业界的热门⼯具。但 是,知识图谱的发展还有很⼤的挑战,如数据的噪声问题,即数据本⾝有错误或 者数据存在冗余。随着知识图谱应⽤的不断深⼊,还有⼀系列关键技术需要突破。3 ⾃然语⾔处理
⾃然语⾔处理是计算机科学领域与⼈⼯智能领域中的⼀个重要⽅向,研究能 实现⼈与计算机之间⽤⾃然语⾔进⾏有效通信的各种理论和⽅法,涉及的领域较 多,主要包括机器翻译、机器阅读理解和问答系统等。(1)机器翻译
机器翻译技术是指利⽤计算机技术实现从⼀种⾃然语⾔到另外⼀种⾃然语 ⾔的翻译过程。基于统计的机器翻译⽅法突破了之前基于规则和实例翻译⽅法的 局限性,翻译性能取得巨⼤提升。基于深度神经⽹络的机器翻译在⽇常⼝语等⼀ 些场景的成功应⽤已经显现出了巨⼤的潜⼒。随着上下⽂的语境表征和知识逻辑 推理能⼒的发展,⾃然语⾔知识图谱不断扩充,机器翻译将会
在多轮对话翻译及 篇章翻译等领域取得更⼤进展。
⽬前⾮限定领域机器翻译中性能较佳的⼀种是统计机器翻译,包括训练及解 码两个阶段。训练阶段的⽬标是获得模型参数,解码阶段的⽬标是利⽤所估计的 参数和给定的优化⽬标,获取待翻译语句的最佳翻译结果。统计机器翻译主要包 括语料预处理、词对齐、短语抽取、短语概率计算、最⼤熵调序等步骤。基于神 经⽹络的端到端翻译⽅法不需要针对双语句⼦专门设计特征模型,⽽是直接把源 语⾔句⼦的词串送⼊神经⽹络模型,经过神经⽹络的运算,得到⽬标语⾔句⼦的 翻译结果。在基于端到端的机器翻译系统中,通常采⽤递归神经⽹络或卷积神经 ⽹络对句⼦进⾏表征建模,从海量训练数据中抽取语义信息,与基于短语的统计 翻译相⽐,其翻译结果更加流畅⾃然,在实际应⽤中取得了较好的效果。(2)语义理解
语义理解技术是指利⽤计算机技术实现对⽂本篇章的理解,并且回答与篇章 相关问题的过程。语义理解更注重于对上下⽂的理解以及对答案精准程度的把控。 随着 MCTest 数据集的发布,语义理解受到更多关注,取得了快速发展,相关数 据集和对应的神经⽹络模型层出不穷。语义理解技术将在智能客服、产品⾃动问 答等相关领域发挥重要作⽤,进⼀步提⾼问答与对话系统的精度。
在数据采集⽅⾯,语义理解通过⾃动构造数据⽅法和⾃动构造填空型问题的 ⽅法来有效扩充数据资源。为了解决填充型问题,⼀些基于深度学习的⽅法相继 提出,如基于注意⼒的神经⽹络⽅法。当前主流的模型是利⽤神经⽹络技术对篇 章、问题建模,对答案的开始和终⽌位置进⾏预测,抽取出篇章⽚段。对于进⼀ 步泛化的答案,处理难度进⼀步提升,⽬前的语义理解技术仍有较⼤的提升空间。(3)问答系统
问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是 指让计算机像⼈类⼀样⽤⾃然语⾔与⼈交流的技术。⼈们可以向问答系统提交⽤ ⾃然语⾔表达的问题,系统会返回关联性较⾼的答案。尽管问答系统⽬前已经有 了不少应⽤产品出现,但⼤多是在实际信息服务系统和智能⼿机助⼿等领域中的 应⽤,在问答系统鲁棒性⽅⾯仍然存在着问题和挑战。⾃然语⾔处理⾯临四⼤挑战:⼀是在词法、句法、语义、语⽤和语⾳等不同 层⾯存在不确定性;⼆是新的词汇、术语、语义和语法导致未知语⾔现象的不可 预测性;三是数据资源的不充分使其难以覆盖复杂的语⾔现象;四是语义知识的 模糊性和错综复杂的关联性难以⽤简单的数学模型描述,语义计算需要参数庞⼤ 的⾮线性计算。4 ⼈机交互
⼈机交互主要研究⼈和计算机之间的信息交换,主要包括⼈到计算机和计算 机到⼈的两部分信息交换,是⼈⼯智能领域的重要的外围技术。⼈机交互是与认知⼼理学、⼈机⼯程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的⼈与计算机之间的信息交换主要依靠交互设备进⾏,主要包括键盘、⿏标、 操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据⼿套、压⼒笔等输⼊设备,以及打印机、绘图仪、显⽰器、头盔式显⽰器、⾳箱等输出设备。⼈机交互技术 除了传统的基本交互和图形交互外,还包括语⾳交互、情感交互、体感交互及脑 机交互等技术,以下对后四种与⼈⼯智能关联密切的典型交互⼿段进⾏介绍。(1)语⾳交互
语⾳交互是⼀种⾼效的交互⽅式,是⼈以⾃然语⾳或机器合成语⾳同计算机 进⾏交互的综合性技术,结合了语⾔学、⼼理学、⼯程和计算机技术等领域的知 识。语⾳交互不仅要对语⾳识别和语⾳合成进⾏研究,还要对⼈在语⾳通道下的 交互机理、⾏为⽅式等进⾏研究。语⾳交互过程包括四部分:语⾳采集、语⾳识 别、语义理解和语⾳合成。语⾳采集完成⾳频的录⼊、采样及编码;语⾳识别完 成语⾳信息到机器可识别的⽂本信息的转化;语义理解根据语⾳识别转换后的⽂ 本字符或命令完成相应的操作;语⾳合成完成⽂本信息到声⾳信息的转换。作为 ⼈类沟通和获取信息最⾃然便捷的⼿段,语⾳交互⽐其他交互⽅式具备更多优势, 能为⼈机交互带来根本性变⾰,是⼤数据和认知计算时代未来发展的制⾼点,具 有⼴阔的发展前景和应⽤前景。(2)情感交互
情感是⼀种⾼层次的信息传递,⽽情感交互是⼀种交互状态,它在表达功能 和信息时传递情感,勾起⼈们的记忆或内⼼的情愫。传统的⼈机交互⽆法理解和 适应⼈的情绪或⼼境,缺乏情感理解和表达能⼒,计算机难以具有类似⼈⼀样的 智能,也难以通过⼈机交互做到真正的和谐与⾃然。情感交互就是要赋予计算机 类似于⼈⼀样的观察、理解和⽣成各种情感的能⼒,最终使计算机像⼈⼀样能进 ⾏⾃然、亲切和⽣动的交互。情感交互已经成为⼈⼯智能领域中的热点
⽅向,旨 在让⼈机交互变得更加⾃然。⽬前,在情感交互信息的处理⽅式、情感描述⽅式、 情感数据获取和处理过程、情感表达⽅式等⽅⾯还有诸多技术挑战。(3)体感交互
体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础,直接 通过肢体动作与周边数字设备装置和环境进⾏⾃然的交互。依照体感⽅式与原理 的不同,体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感 交互通常由运动追踪、⼿势识别、运动捕捉、⾯部表情识别等⼀系列技术⽀撑。与其他交互⼿段相⽐,体感交互技术⽆论是硬件还是软件⽅⾯都有了较⼤的提升, 交互设备向⼩型化、便携化、使⽤⽅便化等⽅⾯发展,⼤⼤降低了对⽤户的约束, 使得交互过程更加⾃然。⽬前,体感交互在游戏娱乐、医疗辅助与康复、全⾃动 三维建模、辅助购物、眼动仪等领域有了较为⼴泛的应⽤。(4)脑机交互
脑机交互⼜称为脑机接⼝,指不依赖于外围神经和肌⾁等神经通道,直接实 现⼤脑与外界信息传递的通路。脑机接⼝系统检测中枢神经系统活动,并将其转 化为⼈⼯输出指令,能够替代、修复、增强、补充或者改善中枢神经系统的正常 输出,从⽽改变中枢神经系统与内外环境之间的交互作⽤。脑机交互通过对神经 信号解码,实现脑信号到机器指令的转化,⼀般包括信号采集、特征提取和命令 输出三个模块。从脑电信号采集的⾓度,⼀般将脑机接⼝分为侵⼊式和⾮侵⼊式 两⼤类。除此之外,脑机接⼝还有其他常见的分类⽅式:按照信号传输⽅向可以 分为脑到机、机到脑和脑机双向接⼝;按照信号⽣成的类型,可分为⾃发式脑机 接⼝和诱发式脑机接⼝;按照信号源的不同还可分为基于脑电的脑机接⼝、基于 功能性核磁共振的脑机接⼝以及基于近红外光谱分析的脑机接⼝。5 计算机视觉
计算机视觉是使⽤计算机模仿⼈类视觉系统的科学,让计算机拥有类似⼈类 提取、处理、理解和分析图像以及图像序列的能⼒。⾃动驾驶、机器⼈、智能医 疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深 度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的⼈⼯智能 算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视 觉、动态视觉和视频编解码五⼤类。(1)计算成像学
计算成像学是探索⼈眼结构、相机成像原理以及其延伸应⽤的科学。在相机 成像原理⽅⾯,计算成像学不断促进现有可见光相机的完善,使得现代相机更加 轻便,可以适⽤于不同场景。同时计算成像学也推动着新型相机的产⽣,使相机 超出可见光的限制。在相机应⽤科学⽅⾯,计算成像学可以提升相机的能⼒,从 ⽽通过后续的算法处理使得在受限条件下拍摄的图像更加完善,例如图像去噪、去模糊、暗光增强、去雾霾等,以及实现新的功能,例如全景图、软件虚化、超 分辨率等。(2)图像理解
图像理解是通过⽤计算机系统解释图像,实现类似⼈类视觉系统理解外部世 界的⼀门科学。通常根据理解信息的抽象程度可分为三个层次:浅层理解,包括 图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平⾯等; ⾼层理解,根据需要抽取的⾼层语义信息,可⼤致分为识别、检测、分割、姿态 估计、图像⽂字说明等。⽬前⾼层图像理解算法已逐渐⼴泛应⽤于⼈⼯智能系统, 如刷脸⽀付、智慧安防、图像搜索等。(3)三维视觉
三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获 取的三维信息的科学。三维重建可以根据重建的信息来源,分为单⽬图像重建、 多⽬图像重建和深度图像重建等。三维信息理解,即使⽤三维信息辅助图像理解 或者直接理解三维信息。三维信息理解可分为,浅层:⾓点、边缘、法向量等; 中层:平⾯、⽴⽅体等;⾼层:物体检测、识别、分割等。三维视觉技术可以⼴ 泛应⽤于机器⼈、⽆⼈驾驶、智慧⼯⼚、虚拟/增强现实等⽅向。(4)动态视觉
动态视觉即分析视频或图像序列,模拟⼈处理时序图像的科学。通常动态视 觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提 取其语义信息的问题。动态视觉研究被⼴泛应⽤在视频分析以及⼈机交互等⽅⾯。(5)视频编解码
视频编解码是指通过特定的压缩技术,将视频流进⾏压缩。视频流传输中最 为重要的编解码标准有国际电联的 H.261、H.263、H.264、H.265、M-JPEG 和 MPEG 系列标准。视频压缩编码主要分为两⼤类:⽆损压缩和有损压缩。⽆损压 缩指使⽤压缩后的数据进⾏重构时,重构后的数据与原来的数据完全相同,例如 磁盘⽂件的压缩。有损压缩也称为不可逆编码,指使⽤压缩后的数据进⾏重构时, 重构后的数据与原来的数据有差异,但不会影响⼈们对原始资料所表达的信息产 ⽣误解。有损压缩的应⽤范围⼴泛,例如视频会议、可视电话、视频⼴播、视频监控等。
⽬前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉 技术的发展主要⾯临以下挑战:⼀是如何在不同的应⽤领域和其他技术更好的结 合,计算机视觉在解决某些问题时可以⼴泛利⽤⼤数据,已经逐渐成熟并且可以 超过⼈类,⽽在某些问题上却⽆法达到很⾼的精度;⼆是如何降低计算机视觉算 法的开发时间和⼈⼒成本,⽬前计算机视觉算法需要⼤量的数据与⼈⼯标注,需 要较长的研发周期以达到应⽤领域所要求的精度与耗时;三是如何加快新型算法 的设计开发,随着新的成像硬件与⼈⼯智能芯⽚的出现,针对不同芯⽚与数据采 集设备的计算机视觉算法的设计与开发也是挑战之⼀。6 ⽣物特征识别
⽣物特征识别技术是指通过个体⽣理特征或⾏为特征对个体⾝份进⾏识别 认证的技术。从应⽤流程看,⽣物特征识别通常分为注册和识别两个阶段。注册 阶段通过传感器对⼈体的⽣物表征信息进⾏采集,如利⽤图像传感器对指纹和⼈ 脸等光学信息、麦克风对说话声等声学信息进⾏采集,利⽤数据预处理以及特征 提取技术对采集的数据进⾏处理,得到相应的特征进⾏存储。识别过程采⽤与注 册过程⼀致的信息采集⽅式对待识别⼈进⾏信息采集、数据预处理和特征提取, 然后将提取的特征与存储的特征进⾏⽐对分析,完成识别。从应⽤任务看,⽣物 特征识别⼀般分为辨认与确认两种任务,辨认是指从存储库中确定待识别⼈⾝份 的过程,是⼀对多的问题;确认是指将待识别⼈信息与存储库中特定单⼈信息进 ⾏⽐对,确定⾝份的过程,是⼀对⼀的问题。
⽣物特征识别技术涉及的内容⼗分⼴泛,包括指纹、掌纹、⼈脸、虹膜、指 静脉、声纹、步态等多种⽣物特征,其识别过程涉及到图像处理、计算机视觉、 语⾳识别、机器学习等多项技术。⽬前⽣物特征识别作为重要的智能化⾝份认证 技术,在⾦融、公共安全、教育、交通等领域得到⼴泛的应⽤。下⾯将对指纹识 别、⼈脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进⾏介绍。
(1)指纹识别 指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集 通过光、电、⼒、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进⾏分析判别的过程。
(2)⼈脸识别 ⼈脸识别是典型的计算机视觉应⽤,从应⽤过程来看,可将⼈脸识别技术划 分为检测定位、⾯部特征提取以及⼈脸确认三个过程。⼈脸识别技术的应⽤主要 受到光照、拍摄⾓度、图像遮挡、年龄等多个因素的影响,在约束条件下⼈脸识 别技术相对成熟,在⾃由条件下⼈脸识别技术还在不断改进。
(3)虹膜识别 虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归⼀化、特征提取和 识别四个部分,研究⼯作⼤多是基于此理论框架发展⽽来。虹膜识别技术应⽤的 主要难题包含传感器和光照影响两个⽅⾯:⼀⽅⾯,由于虹膜尺⼨⼩且受⿊⾊素 遮挡,需在近红外光源下采⽤⾼分辨图像传感器才可清晰成像,对传感器质量和 稳定性要求⽐较⾼;另⼀⽅⾯,光照的强弱变化会引起瞳孔缩放,导致虹膜纹理 产⽣复杂形变,增加了匹配的难度。
(4)指静脉识别 指静脉识别是利⽤了⼈体静脉⾎管中的脱氧⾎红蛋⽩对特定波长范围内的 近红外线有很好的吸收作⽤这⼀特性,采⽤近红外光对指静脉进⾏成像与识别的 技术。由于指静脉⾎管分布随机性很强,其⽹络特征具有很好的唯⼀性,且属于 ⼈体内部特征,不受到外界影响,因此模态特性⼗分稳定。指静脉识别技术应⽤ ⾯临的主要难题来⾃于成像单元。
(5)声纹识别 声纹识别是指根据待识别语⾳的声纹特征识别说话⼈的技术。声纹识别技术 通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来⾃某个 ⼈的语⾳经过特征提取后与多复合声纹模型库中的声纹模型进⾏匹配,常⽤的识 别⽅法可以分为模板匹配法、概率模型法等。
(6)步态识别 步态是远距离复杂场景下唯⼀可清晰成像的⽣物特征,步态识别是指通过⾝ 体体型和⾏⾛姿态来识别⼈的⾝份。相⽐上述⼏种⽣物特征识别,步态识别的技术难度更⼤,体现在其需要从视频中提取运动特征,以及需要更⾼要求的预处理 算法,但步态识别具有远距离、跨⾓度、光照不敏感等优势。
7 虚拟现实/增强现实
虚拟现实(VR)/增强现实(AR)是以计算机为核⼼的新型视听技术。结合 相关科学技术,在⼀定范围内⽣成与真实环境在视觉、听觉、触感等⽅⾯⾼度近 似的数字化环境。⽤户借助必要的装备与数字化环境中的对象进⾏交互,相互影 响,获得近似真实环境的感受和体验,通过显⽰设备、跟踪定位设备、触⼒觉交 互设备、数据获取设备、专⽤芯⽚等实现。
虚拟现实/增强现实从技术特征⾓度,按照不同处理阶段,可以分为获取与 建模技术、分析与利⽤技术、交换与分发技术、展⽰与交互技术以及技术标准与 评价体系五个⽅⾯。获取与建模技术研究如何把物理世界或者⼈类的创意进⾏数 字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利⽤技术重 点研究对数字内容进⾏分析、理解、搜索和知识化⽅法,其难点是在于内容的语 义表⽰和分析;交换与分发技术主要强调各种⽹络环境下⼤规模的数字化内容流 通、转换、集成和⾯向不同终端⽤户的个性化服务等,其核⼼是开放的内容交换 和版权管理技术;展⽰与交换技术重点研究符合⼈类习惯数字内容的各种显⽰技 术及交互⽅法,以期提⾼⼈对复杂信息的认知能⼒,其难点在于建⽴⾃然和谐的 ⼈机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编 ⽬、信源编码等的规范标准以及相应的评估技术。⽬前虚拟现实/增强现实⾯临的挑战主要体现在智能获取、普适设备、⾃由 交互和感知融合四个⽅⾯。在硬件平台与装置、核⼼芯⽚与器件、软件平台与⼯ 具、相关标准与规范等⽅⾯存在⼀系列科学技术问题。总体来说虚拟现实/增强 现实呈现虚拟现实系统智能化、虚实环境对象⽆缝融合、⾃然交互全⽅位与舒适 化的发展趋势。
因篇幅问题不能全部显示,请点此查看更多更全内容