先进制造网，聚焦技术升级

机器如何“看”世界？计算机视觉让AI插上想象力翅膀（下）

2024-08-30

Ai赋予的机器“慧眼”，如何破解视觉数据“万花筒”

相较于机器视觉侧重于量的分析，计算机视觉主要是对质的分析，比如分类识别，这是一个香蕉那是一条鱼；或者做身份确认，比如人脸识别、车牌识别；或者做行为分析，比如人员入侵、跳伞、聚集等。

计算机视觉并不仅停留在浅层的感知层面，同时有大量高级智能参与，因此，计算机视觉本身蕴含更深远的通用智能的应用。

神经网络是图像处理的“得力助手”。这是计算机视觉核心技术，也是最早和最简单的技术。深度学习的许多研究成果，都离不开对大脑认知原理的研究，尤其是视觉原理的研究。

人类视觉皮层结构是分级的。比如，人在看一只气球时，大脑的运作过程是：“飞机”进入视线（信号摄入）——大脑皮层某些细胞发现“飞机”的边缘和方向（初步处理）——判定“飞机”是几何形状（抽象）——确定该物体是“飞机”（进一步抽象）。

由此，利用人类大脑的这个特点，构建一个类似的多层神经网络，由若干底层特征组成更上一层特征，最终通过多个层级的组合，作出顶层的分类和识别。

这就是深度学习系统中最重要的一个算法——卷积神经网络（CNN）的灵感来源。

AI究竟是怎么去“看”世界的？CNN的算法模型就是AI的“大脑”。

CNN具有输入层、输出层和各种隐藏层。它将结果经过分析，再传递给连续的层。

为了更好地训练AI，就需要大量的被标记的图像数据。神经网络会学习将每个图像与标签对应、联系起来，还可以将之前未见过的图像与标签进行配对。这样，AI系统就能够梳理各种图像、识别图像中的元素，不再需要人工标记输入，让神经网络自我学习。这就又涉及到神经网络的学习能力的深度应用——GAN算法的深入进行。

GAN算法赋予AI“想象力”，目前的主要应用之一就是我们在网络上看到的AI对老旧、破损图像的修复,比如从古代武则天、朱元璋等皇帝的模糊的人像构架中，逐渐显示出来的活灵活现的“真脸”动作。

对于一些经典的、年代久远的老电影时，用传统的方式对那些“高糊画质”进行修复速度慢不说，如果遇到图像缺失部分很大的情况，更是无力回天。但是AI的效率就高了，能够通过机器学习和模型训练来填充细节，提高画质，再利用神经网络上色，最后进行转录和人脸识别，半天就完成了。对于原图像缺失的部分，AI还能“开动大脑”，发挥自己的“想象力”，对缺失部分进行补充。

GAN是基于CNN的一种模型，其特点在于它的训练处于一种对抗博弈的状态中。

行业内常用“球员与裁判”的比喻来解释GAN的基本原理：球员“假摔”来迷惑裁判，使自己的进攻或者防守动作看上去是合规的，但裁判要找出这些“假摔”的球员的犯规动作做出惩罚。在二者的不断对抗中，球员“假摔”水平越来越高，裁判识别“假摔”的水平也越来越高。球员“假摔”的水平“炉火纯青”，裁判已经无法识别出该球员是“假摔”还是“真摔”时，该球员就实现了以假乱真，这就是GAN的基本原理。

GAN的结构包括一个生成器（G）和一个判别器（D），球员=生成器，裁判=判别器。生成器是任意可以输出图片的模型。判别器与生成器一样，是任意的判别器模型。

以图片生成为例，G随机生成一张图片，需要D来判别是不是真实的图片，D代表真实该图片的概率，如果D为1，表示100%为真实，如果D为0，则表示为假图。在理想状态下，D无法判别G生成的图片是否为真实的，D为0.5时，当前的目的就达到了：得到了生成式模型G，就可以用它来生成图片。

在训练过程中，G的目的就是尽量生成真实的图片去欺骗D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这就是一个“博弈”的过程。相较于CNN，GAN采用的是一种无监督的学习方式训练。

GAN的作用广泛，不仅仅是图像处理和生成，更在于对于各种噪点的识别，同时可实x现各种涉及图像风格转换的任务，如自动生成动漫角色并上色、让马变成斑马、生成人脸、作曲等。

计算机视觉的世界，有巨量的市场在助推

AI席卷百业，作为AI时代的主要入口之一，计算机视觉正成为AI落地规模最大、应用最广的领域。官方数据显示，2016年，我国计算机视觉市场规模仅11.4亿元，到2019年，市场规模增长至219.6亿元。全球范围内，到2025年，计算机视觉市场规模将从2016年的11亿美元增长到262亿美元。

作为是人工智能领域的一个重要分支，计算机视觉实时地对环境进行感知和理解的应用于广泛的领域：‌

手机拍照，身后有路人入镜，对背景不满意怎么办？最近流行的ai拍照“消除功能”，只需手指一滑，便可轻松消除。这一华为手机应用，正来源于姜育刚团队的视觉计算研究。

不仅仅是消费环节，生产领域也一样。铁路的基础设施包括轨道扣件、电务线缆等，传统检测方式是人工巡检，效率特别低，经常出现漏检的情况，姜育刚团队基于视觉计算的理论成果，可以成功解决轨道扣件等高铁设施的故障检测难题，已经成功发现并排除了若干重大安全隐患。

而针对大众的计算机视觉技术的应用，‌包括且不限于——‌

人脸识别：‌通过捕捉和分析人脸特征，‌用于身份验证、‌安全监控等。‌

物体识别：‌识别图‌这在自动驾驶、‌智能监控等领域尤为重要。‌

场景理解：‌‌理解图像中的场景和背景，‌对于智能助手、‌智能家居等应用非常关键。

预测诊断：‌在医疗领域，‌视觉AI通过多种数据分析，帮助医生提高疾病的预测、‌诊断和治疗效率；‌

而实现这些功能，就在于‌计算机视觉技术具备这些关键能力——‌

特征提取：‌从图像中提取出有用的特征信息，‌如边缘、‌纹理、‌颜色等。‌

模式识别：‌通过机器学习和深度学习算法，‌对提取的特征进行分类和识别。‌

图像处理：‌对图像进行预处理，‌如增强、‌滤波等，‌以提高识别的准确性。‌

此外，‌人工智能的“看”的能力不断提升，在越来越“了解”这个丰富多彩的世界的同时，‌帮助人类更高效、‌智能地完成更多工作，可以说，计算机视觉必将成为人类生活不可或缺的强大助手，与人类共同创建一个更加美好和智慧的新世界。

难以想象的可能性，让你看不懂世界

走进一家科技展馆，AI导览机器人向你行“注目礼”；肚子饿了走进无人超市，AI售货员亲切地提醒你是否需要购物袋；不想开车了，叫一辆无人车，让“老司机”载你出行……AI正在为我们打开一个新“视”界。随着算法的改进、硬件的升级、以及5G与物联网技术带来的高速网络与海量数据，计算机视觉技术似乎也有着无穷的想象空间。

AI的未来将是什么模样？从美国《福布斯》双周刊网站的报道中，我们可以看到IA当前发展的几个趋势——

生成式AI开辟新天地

AI系统将能撰写复杂的叙事文章，编排交响乐，并有可能与人合著畅销书。该领域一个关键性的技术是多模态生成式AI，此类系统能处理文本、声音、旋律和视觉信号等各种输入信息，并将其融合起来进行综合理解。

想象一下，AI一听到描述性语音，就能迅速起草一篇内容丰富而全面的文章，画出一幅画，为其配上合适的背景音乐，并能用多种口音和语言讲述出来。人类技术结晶与AI作品之间的界限变得模糊起来。

正式成为人类“左膀右臂”

外科医生在AI诊断结果的辅助下进行手术；律师在庭审过程中可得到AI提供的参考案例；软件开发人员在写代码时得到AI的同步帮助；随着远程办公和在线教育激增，AI将彻底改变课程设计并优化虚拟教育团队.....我们已经看到，人类正在迈入与AI协同发挥作用的时代。

AI道德将被优先考量

AI前所未有的发展态势和在各个领域的长驱直入，不仅令科技爱好者痴迷，也引发全球决策者的密切关注。因为的AI“野蛮生长”，必然将对民众造成影响。因而 AI研发领域的道德考量将被置于优先位置。这方面，包括欧美在内的主要经济体已经开始设法制定比较全面的AI政策。例如，欧洲议会打算在2024年就欧盟的《AI法案》文本达成协议。2023年10月30日，美国总统拜登签署了美国首份关于AI的行政命令。这些政策将就全球制定AI基准和规范展开合作的愿望得以实现。

量子计算为AI插上翅膀

量子计算已经来到AI研究的前沿。利用量子计算机的特殊性质，如量子叠加和量子纠缠，AI加速机器学习和优化算法，以实现更高效、更准确的AI应用。这将成为AI领域的未来发展的重要方向。

曾经,人类用眼睛“记录”了波澜壮阔的历史，未来，AI真的能够能够像人类一样去“观察”世界吗？

从目前来看，即便人类已经创造了许多在单个项目上超越自身的高级AI，但是机器仍然能力有限，还无法成为人类的替代品，无法像人一样去观察与思考，有自我意识的AI还不会很快出现，目前看来，AI很难真正像人一样去“看”世界万物。‌

但是人工智能视觉却能够超越人眼的功能，难以想象的可能性让未来变得不可预测，比如——‌

‌人工视网膜等仿生眼技术，其部分性能，‌如极限视觉距离、‌显微视觉能力、‌红外观测能力等，‌甚至可以远远超过人眼；‌

复刻人类视网膜的人工智能设备，‌能够感知的波长范围更广，可‌提供更精确的视觉识别能力；‌

‌机器视觉的处理速度可以超过人眼，如果在智能和感知能力上取得进一步的突破，AI之眼的能力将大大超过人类。

机器与人，人眼与计算机视觉，鸡生蛋后蛋化鸡，灿烂与迷途，都必将展现！

撰稿：博简科学融媒平台

声明：此篇为先进制造原创文章，转载请标明出处链接： https://m.tech-works.cn/h-nd-498.html