机器如何“看”世界?计算机视觉让AI插上想象力翅膀(下)

2024-08-30

2.jpg


Ai赋予的机器慧眼如何破解视觉数据“万花筒”


相较于机器视觉侧重于量的分析,计算机视觉主要是对质的分析,比如分类识别,这是一个香蕉那是一条;或者做身份确认,比如人脸识别车牌识别;或者做行为分析,比如人员入侵、跳伞、聚集等。

计算机视觉并不仅停留在浅层的感知层面,同时有大量高级智能参与,因此,计算机视觉本身蕴含更深远的通用智能的应用

神经网络是图像处理的“得力助手”。这是计算机视觉核心技术,也是最早和最简单的技术。深度学习的许多研究成果,都离不开对大脑认知原理的研究,尤其是视觉原理的研究。

人类视觉皮层结构是分级的。比如,人在看一只气球时,大脑的运作过程是:飞机”进入视线(信号摄入)——大脑皮层某些细胞发现“飞机”的边缘和方向(初步处理)——判定“飞机”是几何形状(抽象)——确定该物体是“飞机”(进一步抽象)。

由此,利用人类大脑的这个特点,构建一个类似的多层神经网络,若干底层特征组成更上一层特征,最终通过多个层级的组合,作出顶层分类和识别。

这就是深度学习系统中最重要的一个算法——卷积神经网络(CNN)的灵感来源。

AI究竟是怎么去“看”世界的?CNN算法模型AI的“大脑”

CNN具有输入层、输出层和各种隐藏层。它将结果经过分析,再传递给连续的层

为了更好地训练AI,就需要大量的被标记的图像数据。神经网络会学习将每个图像与标签对应、联系起来,还可以将之前未见过的图像与标签进行配对。这样,AI系统就能够梳理各种图像、识别图像中的元素,不再需要人工标记输入,让神经网络自我学习。这就又涉及到神经网络的学习能力的深度应用——GAN算法的深入进行。

GAN算法赋予AI“想象力”,目前的主要应用之一就是我们在网络上看到的AI对老旧、破损图像的修复,比如从古代武则天、朱元璋等皇帝的模糊的人像构架中,逐渐显示出来的活灵活现的“真脸”动作。

对于一些经典的、年代久远的老电影时,用传统的方式对“高糊画质”进行修复速度慢不说,如果遇到图像缺失部分很大的情况,更是无力回天。但是AI的效率就高了,能够通过机器学习和模型训练来填充细节,提高画质,再利用神经网络上色,最后进行转录和人脸识别,半天就完成了。对于原图像缺失的部分,AI还能“开动大脑”,发挥自己的“想象力”,对缺失部分进行补充。

GAN是基于CNN的一种模型,其特点在于它的训练处于一种对抗博弈的状态中。

行业内常用“球员与裁判”的比喻来解释GAN的基本原理球员“假摔”来迷惑裁判,使自己的进攻或者防守动作看上去是合规的,但裁判要找出这些“假摔”的球员的犯规动作做出惩罚。在二者的不断对抗中,球员“假摔”水平越来越高,裁判识别“假摔”的水平也越来越高。球员“假摔”的水平“炉火纯青”,裁判已经无法识别出该球员是“假摔”还是“真摔”时,该球员实现了以假乱真这就是GAN的基本原理。

GAN的结构包括一个生成器(G)和一个判别器(D),球员=生成器,裁判=判别器。生成器是任意可以输出图片的模型。判别器与生成器一样,是任意的判别器模型。

以图片生成为例,G随机生成一张图片,需要D来判别是不是真实的图片,D代表真实图片的概率,如果D1,表示100%为真实,如果D0,则表示为假图。在理想状态下,D无法判别G生成的图片是否为真实的,D0.5时,当前的目的就达到了:得到了生成式模型G,就可以用它来生成图片。

在训练过程中,G的目就是尽量生成真实的图片去欺骗D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这就是一个“博弈”的过程。相较于CNNGAN采用的是一种无监督的学习方式训练。

GAN的作用广泛不仅仅是图像处理和生成,更在于对于各种噪点的识别,同时可实x各种涉及图像风格转换的任务如自动生成动漫角色并上色、让马变成斑马、生成人脸、作曲等。

210.jpg



计算机视觉的世界,有巨量的市场在助推


AI席卷百业,作为AI时代的主要入口之一,计算机视觉正成为AI落地规模最大、应用最广的领域。官方数据显示,2016年,我国计算机视觉市场规模仅11.4亿元,到2019年,市场规模增长至219.6亿元。全球范围内,2025年,计算机视觉市场规模将从2016年的11亿美元增长到262亿美元。

作为是人工智能领域的一个重要分支,计算机视觉实时地对环境进行感知和理解的应用于广泛的领域:

手机拍照,身后有路人入镜,对背景不满意怎么办?最近流行的ai拍照“消除功能”,只需手指一滑,便可轻松消除。这一华为手机应用,正来源于姜育刚团队的视觉计算研究。

不仅仅是消费环节,生产领域也一样。铁路的基础设施包括轨道扣件、电务线缆等,传统检测方式是人工巡检,效率特别低,经常出现漏检的情况姜育刚团队基于视觉计算的理论成果,可以成功解决轨道扣件等高铁设施的故障检测难题,已经成功发现并排除了若干重大安全隐患。

而针对大众的计算机视觉技术的应用,‌包括不限于——

人脸识别:‌通过捕捉和分析人脸特征,‌用于身份验证、‌安全监控等。‌

物体识别:‌识别图‌这在自动驾驶、‌智能监控等领域尤为重要。‌

场景理解:‌‌理解图像中的场景和背景,‌对于智能助手、‌智能家居等应用非常关键。

预测诊断:‌在医疗领域,‌视觉AI通过多种数据分析,帮助医生提高疾病的预测、‌诊断和治疗效率;

实现这些功能,就在于‌计算机视觉技术具备这些关键能力——

特征提取:‌从图像中提取出有用的特征信息,‌如边缘、‌纹理、‌颜色等。‌

模式识别:‌通过机器学习和深度学习算法,‌对提取的特征进行分类和识别。‌

图像处理:‌对图像进行预处理,‌如增强、‌滤波等,‌以提高识别的准确性。‌

此外,‌人工智能的“看”的能力不断提升,在越来越“了解”这个丰富多彩的世界的同时,‌帮助人类更高效、‌智能地完成更多工作,可以说,计算机视觉必将成为人类生活不可或缺的强大助手,与人类共同创建一个更加美好和智慧的新世界。

3.jpg



难以想象的可能性,让你看不懂世界


走进一家科技展馆,AI导览机器人向你行“注目礼”;肚子饿了走进无人超市,AI售货员亲切地提醒你是否需要购物袋;不想开车了,叫一辆无人车,让“老司机”载你出行……AI正在为我们打开一个新“视”界随着算法的改进、硬件的升级、以及5G与物联网技术带来的高速网络与海量数据,计算机视觉技术似乎也有着无穷的想象空间。

AI的未来将是什么模样?美国《福布斯》双周刊网站的报道中,我们可以看到IA当前发展的几个趋势——

生成式AI开辟新天地

AI系统将能撰写复杂的叙事文章,编排交响乐,并有可能与人合著畅销书。该领域一个关键性的技术是多模态生成式AI,此类系统能处理文本、声音、旋律和视觉信号等各种输入信息,并将其融合起来进行综合理解。

想象一下,AI一听到描述性语音,就能迅速起草一篇内容丰富而全面的文章,画出一幅画,为其配上合适的背景音乐,并能用多种口音和语言讲述出来。人类技术结晶与AI作品之间的界限变得模糊起来

正式成为人类“左膀右臂”

外科医生在AI诊断结果的辅助下进行手术;律师在庭审过程中可得到AI提供的参考案例;软件开发人员在写代码时得到AI的同步帮助随着远程办公和在线教育激增,AI将彻底改变课程设计并优化虚拟教育团队.....我们已经看到,人类正在迈入AI协同发挥作用的时代

AI道德将被优先考量

AI前所未有的发展态势和在各个领域的长驱直入,不仅令科技爱好者痴迷,也引发全球决策者的密切关注。因为的AI“野蛮生长”,必然将对民众造成影响。因而 AI研发领域的道德考量将被置于优先位置。这方面,包括欧美在内的主要经济体已经开始设法制定比较全面的AI政策。例如,欧洲议会打算在2024年就欧盟的《AI法案》文本达成协议。20231030日,美国总统拜登签署了美国首份关于AI的行政命令。这些政策将就全球制定AI基准和规范展开合作的愿望得以实现

量子计算为AI插上翅膀

量子计算已经来到AI研究的前沿。利用量子计算机的特殊性质,如量子叠加和量子纠缠,AI加速机器学习和优化算法,实现更高效、更准确的AI应用。将成为AI领域的未来发展的重要方向。

    曾经,人类用眼睛“记录”了波澜壮阔的历史,未来,AI真的能够能够像人类一样去“观察”世界吗?

从目前来看,即便人类已经创造了许多在单个项目上超越自身的高级AI,但是机器仍然能力有限,还无法成为人类的替代品,无法像人一样去观察与思考,有自我意识的AI还不会很快出现,目前看来,AI很难真正像人一样去“看”世界万物。‌

但是人工智能视觉能够超越人眼的功能,难以想象的可能性让未来变得不可预测,比如——

‌人工视网膜等仿生眼技术,其部分性能,‌如极限视觉距离、‌显微视觉能力、‌红外观测能力等,‌甚至可以远远超过人眼

复刻人类视网膜的人工智能设备,‌能够感知的波长范围更广,‌提供更精确的视觉识别能力

‌机器视觉的处理速度可以超过人眼,如果在智能和感知能力上取得进一步的突破AI之眼的能力将大大超过人类。

   机器与人,人眼与计算机视觉,鸡生蛋后蛋化鸡,灿烂与迷途,都必将展现!


撰稿:博简科学融媒平台


b.jpeg


分享
写评论...