首页科学研究科研成果成果展示 | 新闻详情

基于深度学习模型的视觉分类

来源：自动化学院发布时间：2021-04-16

成果名称	基于深度学习模型的视觉分类
成果联系人	蔡子贇		职称	讲师		所在单位		自动化学院、人工智能学院
联系电话	15150075858			Email		caiziyun@163.com
技术成熟度	应用方案			技术分类		信息应用
核心专利号
所属学科方向	一级学科	控制科学与工程			二级学科		模式识别和智能系统
应用行业	图像分类、图像检索
项目概况：在过去的几十年中，涌现出了大量基于RGB数据的计算机视觉任务的研究。然而，RGB数据通常只提供物体在场景中的表面信息，例如，颜色、纹理和亮度。由于RGB图像的生成是从3D世界投影到2D平面的图像，这种机制本身固有的特性会带来一些限制，例如物体深度信息的缺失，使得研究者在解决一些问题的时候会面对很多的困难，例如，所要识别的场景中的物体有着和场景背景相似的颜色和纹理。此外，RGB数据所描述的物体表面信息对于光照的亮度、物体的色彩等信息十分的敏感，也就是说，在物体识别的任务中，如果图像中的光照、所要识别的物体的颜色有着很大的变化，就会对最终的识别结果产生很大的负面影响。当前，大多数研究者还致力在设计基于RGB数据的更加成熟的算法，而一股新的研究思潮已经开始转向去寻找另外一种可以更好地刻画物体和场景的数据表达。由于彩色数据和深度数据（RGB-D数据）可以提供互补的彩色信息和深度信息，RGB-D数据作为一种新的数据表达可以帮助我们解决一些棘手的计算机视觉任务。RGB图像中每个像素的颜色值都由R（红色）、G（绿色）、B（蓝色）三个数值来决定,每个数值的范围是0到255，另外，深度（Depth）图像中的像素值表示了所拍摄物体和深度传感器之间的距离，距离越大，像素值越大，反之亦然。RGB-D数据不仅可以利用彩色数据信息提供物体和场景的表面信息，所包含的深度数据信息不受数据的颜色、亮度、旋转角度和缩放的影响。随着廉价的深度传感器的出现，高质量的RGB-D数据可以被轻易地获得。于是，使用深度数据去配合RGB数据来提高RGB数据的识别和分类准确度在计算机视觉领域逐渐变得火热起来。 $说明:C:\Users\蔡子贇\AppData\Local\Microsoft\Windows\INetCache\Content.Word\视觉.jpg$ 计算机视觉人工智能 ’
关键技术：随着廉价的可以获取深度数据信息的设备的推广，例如 Kinect 传感器，越来越多的工作开始探索添加深度图像进行图像识别的方法。研究内容包括了使用辅助的深度信息进行图像分类的工作。和以往工作不同的是：源域包含了额外的特征向量（深度信息），然而在测数据中并不包括深度数据信息的特征向量。成果力图找到一种自适应的、高效的鲁棒识别方法。具体研究内容包括：1）针对性别识别。通过深度学习模型，对加入人脸深度信息的性别识别算法做进一步的优化。2）针对物体识别。基于提出的算法在数据库上的表现，首先研究这类物体识别方法的通用性和推广性，然后在此基础上开发新的识别方法。对图像识别而言，借助从深度图像中提取的深度数据信息可以提升识别性能。然而传统的图像识别的算法都基于训练样本和测试样本来自同样的概率分布的非真实世界的假设。假如给出两个来自不同的概率分布的数据库(一个来源于网络的下载，另一个来源于日常的手机拍摄)，如果来源于网络的数据库直接被用于训练，手机拍摄的数据库直接被用作测试，那么由于来自不同数据库的样本的特征值分布有着非常不同的统计特性，大部分现存的识别算法应用于这两个数据库的准确率都不尽人意。为了解决特征分布中的变化，消除源域和目标域之间的欠适配，应用于计算机视觉领域的域的自适应方法被提出。受此启发，将基于域的自适应的理论方法，研究性能优越、通用性强、计算开销较小的图像识别方法，关键技术包括：1）使用矩匹配法探索物体数据库含有欠适配情况下的鲁棒特征生成方法及其在其它图像库（比如人脸）上的推广性能；2）通过熵差进一步的消除源域和目标域之间的欠适配，本项目拟使用熵度量法，并结合深度模型。 Microsoft Kinect传感器的结构图解和产生的RGB图片、深度图片本项目拟采用的深度学习模型。
应用领域和市场前景：计算机视觉是人工智能正在快速发展的一个分支，传统意义上来看，计算机视觉是用机器代替人眼来做测量和判断，但其功能不仅仅局限于此，范围不仅包括人眼对信息的接收，同时还延伸至大脑对信息的处理与判断。近年来，为了让机器可以更像人，能够认知事物，从而进行判定和深度学习，计算机视觉技术方法与应用发展迅速，并且全球计算机视觉市场正处于迅速发展。伴随着人工智能产业的高温，计算机视觉有望迈向新的发展阶段。等独角兽公司，涉猎安防影像、身份认证、工业制造、医疗影像等众多应用领域。2019年我国计算机视觉市场规模的增速都超过了110%。另外，根据对上述机构关于人工智能、计算机视觉数据的汇总对比，计算机视觉的增长速度远远超出人工智能整体。随着国内外对计算机视觉的工作不断深入，越来越多的任务结合源域中的深度数据信息对自然界中的图像进行识别，并同时减少源域和目标域之间的欠适配，使得抽取的特征更有益于表示和识别。本成果希望可以推动计算机视觉不平等域的自适应的发展，同时希望所做的工作有利于更多计算机视觉企业寻找新的方向。
合作方式（技术转让，技术开发，技术服务，技术咨询，技术入股）：技术开发技术咨询 *技术服务
图片：（1-5张，文件大小不低于1MB，图片清晰，并标注图片说明）