机器视觉的起源可追溯到20世纪60年代美国学者L.R.罗伯兹对多面体积木世界的图像处理研究,70年代麻省理工学院(MIT)人工智能实验室“机器视觉”课程的开设。到80年代,全球性机器视觉研究热潮开始兴起,出现了一些基于机器视觉的应用系统。90年代以后,随着计算机和半导体技术的飞速发展,机器视觉的理论和应用得到进一步发展。
进入21世纪后,机器视觉技术的发展速度更快,已经大规模地应用于多个领域,如智能制造、智能交通、医疗卫生、安防监控等领域。目前,随着人工智能浪潮的兴起,机器视觉技术正处于不断突破、走向成熟的新阶段。
在中国,机器视觉的研究和应用开始于20世纪90年代。从跟踪国外品牌产品起步,经过二十多年的努力,国内的机器视觉从无到有,从弱到强,不仅理论研究进展迅速,而且已经出现一些颇具竞争力的公司和产品。估计随着国内对机器视觉研究、开发和推广的不断深入,赶上和超越世界水平已不是遥不可及的事情了。
常见机器视觉系统主要可分为两类,一类是基于计算机的,如工控机或PC,另一类是更加紧凑的嵌入式设备。典型的基于工控机的机器视觉系统主要包括:光学系统,摄像机和工控机(包含图像采集、图像处理和分析、控制/通信)等单元,如图所示。机器视觉系统对核心的图像处理要求算法准确、快捷和稳定,同时还要求系统的实现成本低,升级换代方便。
机器视觉的图像处理系统对现场的数字图像信号按照具体的应用要求进行运算和分析,根据获得的处理结果来控制现场设备的动作,其常见功能如下:
(1)图像采集
图像采集就是从工作现场获取场景图像的过程,是机器视觉的第一步,采集工具大多为CCD或CMOS照相机或摄像机。照相机采集的是单幅的图像,摄像机可以采集连续的现场图像。就一幅图像而言,它实际上是三维场景在二维图像平面上的投影,图像中某一点的彩色(亮度和色度)是场景中对应点彩色的反映。这就是我们可以用采集图像来替代真实场景的根本依据所在。
如果相机是模拟信号输出,需要将模拟图像信号数字化后送给计算机(包括嵌入式系统)处理。现在大部分相机都可直接输出数字图像信号,可以免除模数转换这一步骤。不仅如此,现在相机的数字输出接口也是标准化的,如USB、VGA、1394、HDMI、WiFi、Blue Tooth接口等,可以直接送入计算机进行处理,以免除在图像输出和计算机之间加接一块图像采集卡的麻烦。后续的图像处理工作往往是由计算机或嵌入式系统以软件的方式进行。
(2)图像预处理
对于采集到的数字化的现场图像,由于受到设备和环境因素的影响,往往会受到不同程度的干扰,如噪声、几何形变、彩色失调等,都会妨碍接下来的处理环节。为此,必须对采集图像进行预处理。常见的预处理包括噪声消除、几何校正、直方图均衡等处理。
通常使用时域或频域滤波的方法来去除图像中的噪声;采用几何变换的办法来校正图像的几何失真;采用直方图均衡、同态滤波等方法来减轻图像的彩色偏离。总之,通过这一系列的图像预处理技术,对采集图像进行“加工”,为体机器视觉应用提供“更好”、“更有用”的图像。
(3)图像分割
图像分割就是按照应用要求,把图像分成各具特征的区域,从中提取出感兴趣目标。在图像中常见的特征有灰度、彩色、纹理、边缘、角点等。例如,对汽车装配流水线图像进行分割,分成背景区域和工件区域,提供给后续处理单元对工件安装部分的处理。
图像分割多年来一直是图像处理中的难题,至今已有种类繁多的分割算法,但是效果往往并不理想。近来,人们利用基于神经网络的深度学习方法进行图像分割,其性能胜过传统算法。
(4)目标识别和分类
在制造或安防等行业,机器视觉都离不开对输入图像的目标进行识别和分类处理,以便在此基础上完成后续的判断和操作。识别和分类技术有很多相同的地方,常常在目标识别完成后,目标的类别也就明确了。近来的图像识别技术正在跨越传统方法,形成以神经网络为主流的智能化图像识别方法,如卷积神经网络(CNN)、回归神经网络(RNN)等一类性能优越的方法。
(5)目标定位和测量
在智能制造中,最常见的工作就是对目标工件进行安装,但是在安装前往往需要先对目标进行定位,安装后还需对目标进行测量。安装和测量都需要保持较高的精度和速度,如毫米级精度(甚至更小),毫秒级速度。这种高精度、高速度的定位和测量,倚靠通常的机械或人工的方法是难以办到的。在机器视觉中,采用图像处理的办法,对安装现场图像进行处理,按照目标和图像之间的复杂映射关系进行处理,从而快速精准地完成定位和测量任务。
(6)目标检测和跟踪
图像处理中的运动目标检测和跟踪,就是实时检测摄像机捕获的场景图像中是否有运动目标,并预测它下一步的运动方向和趋势,即跟踪。并及时将这些运动数据提交给后续的分析和控制处理,形成相应的控制动作。图像采集一般使用单个摄像机,如果需要也可以使用两个摄像机,模仿人的双目视觉而获得场景的立体信息,这样更加有利于目标检测和跟踪处理。
在机器视觉的智能图像处理技术的发展中,还存在不少技术瓶颈,如:
(1)稳定性:某种处理方法往往在研究和开发中表现良好,但在复杂多变的应用环境中,却不时地出现问题。例如人脸识别系统,在目标配合时识别率可高达95%以上,但在实际监控环境下,识别率就会大大下降。
(2)实时性:如果图像的采集速度、处理速度较慢,再加上新近引入的深度学习类算法,加大了系统实时处理的难度,跟不上机器运行和控制的节奏。
(3)准确性:机器视觉系统要求图像识别和测量的准确性接近100%,任何微小的误差都有可能带来不可预测的后果。例如目标定位的误差会使装配出来的设备不符合要求。
(4)系统能力:目前的嵌入式图像处理系统,存在芯片的计算能力不足,存储空间有限等问题,常常不能满足运算量较大的图像处理运算,如神经网络的迭代运算,大规模矩阵运算等。
今后机器视觉中智能图像处理的发展主要体现在以下几个方面:
(1)算法:传统算法继续不断有所突破,新一波人工智能浪潮带来不少新的性能优良的图像处理算法,如深度学习(DL),卷积神经网络(CNN),生成对抗网络(GAN),等等。
(2)实时性:出现更多结构新颖、资源充足、运算快速的硬件平台支撑,例如基于多CPU、多GPU的并行处理结构的计算机,海量存储单元等。
(3)嵌入式:新的高速的信号处理器阵列,超大规模FPGA芯片。
(4)融合处理:从单图像传感器发展到多传感器(多视点)的融合处理,可更加充分地获取现场信息。还可融合多类传感器,如图像传感器、声音传感器、温度传感器等共同完对现场目标定位、识别和测量。
东莞乐视自动化科技有限公司高端实验室内标配了全系列的光源种类和相机镜头种类,我们有优秀的视觉工程师,可以根据应用的不同,帮助客户选型,并协助编写视觉软件。