Ai赋予的机器“慧眼”,如何破解视觉数据“万花筒”
相较于机器视觉侧重于量的分析,计算机视觉主要是对质的分析,比如分类识别,这是一个香蕉那是一条鱼;或者做身份确认,比如人脸识别、车牌识别;或者做行为分析,比如人员入侵、跳伞、聚集等。
计算机视觉并不仅停留在浅层的感知层面,同时有大量高级智能参与,因此,计算机视觉本身蕴含更深远的通用智能的应用。
神经网络是图像处理的“得力助手”。这是计算机视觉核心技术,也是最早和最简单的技术。深度学习的许多研究成果,都离不开对大脑认知原理的研究,尤其是视觉原理的研究。
人类视觉皮层结构是分级的。比如,人在看一只气球时,大脑的运作过程是:“飞机”进入视线(信号摄入)——大脑皮层某些细胞发现“飞机”的边缘和方向(初步处理)——判定“飞机”是几何形状(抽象)——确定该物体是“飞机”(进一步抽象)。
由此,利用人类大脑的这个特点,构建一个类似的多层神经网络,由若干底层特征组成更上一层特征,最终通过多个层级的组合,作出顶层的分类和识别。
这就是深度学习系统中最重要的一个算法——卷积神经网络(CNN)的灵感来源。
AI究竟是怎么去“看”世界的?CNN的算法模型就是AI的“大脑”。
CNN具有输入层、输出层和各种隐藏层。它将结果经过分析,再传递给连续的层。
为了更好地训练AI,就需要大量的被标记的图像数据。神经网络会学习将每个图像与标签对应、联系起来,还可以将之前未见过的图像与标签进行配对。这样,AI系统就能够梳理各种图像、识别图像中的元素,不再需要人工标记输入,让神经网络自我学习。这就又涉及到神经网络的学习能力的深度应用——GAN算法的深入进行。
GAN算法赋予AI“想象力”,目前的主要应用之一就是我们在网络上看到的AI对老旧、破损图像的修复,比如从古代武则天、朱元璋等皇帝的模糊的人像构架中,逐渐显示出来的活灵活现的“真脸”动作。
对于一些经典的、年代久远的老电影时,用传统的方式对那些“高糊画质”进行修复速度慢不说,如果遇到图像缺失部分很大的情况,更是无力回天。但是AI的效率就高了,能够通过机器学习和模型训练来填充细节,提高画质,再利用神经网络上色,最后进行转录和人脸识别,半天就完成了。对于原图像缺失的部分,AI还能“开动大脑”,发挥自己的“想象力”,对缺失部分进行补充。
GAN是基于CNN的一种模型,其特点在于它的训练处于一种对抗博弈的状态中。
行业内常用“球员与裁判”的比喻来解释GAN的基本原理:球员“假摔”来迷惑裁判,使自己的进攻或者防守动作看上去是合规的,但裁判要找出这些“假摔”的球员的犯规动作做出惩罚。在二者的不断对抗中,球员“假摔”水平越来越高,裁判识别“假摔”的水平也越来越高。球员“假摔”的水平“炉火纯青”,裁判已经无法识别出该球员是“假摔”还是“真摔”时,该球员就实现了以假乱真,这就是GAN的基本原理。
GAN的结构包括一个生成器(G)和一个判别器(D),球员=生成器,裁判=判别器。生成器是任意可以输出图片的模型。判别器与生成器一样,是任意的判别器模型。
以图片生成为例,G随机生成一张图片,需要D来判别是不是真实的图片,D代表真实该图片的概率,如果D为1,表示100%为真实,如果D为0,则表示为假图。在理想状态下,D无法判别G生成的图片是否为真实的,D为0.5时,当前的目的就达到了:得到了生成式模型G,就可以用它来生成图片。
在训练过程中,G的目的就是尽量生成真实的图片去欺骗D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这就是一个“博弈”的过程。相较于CNN,GAN采用的是一种无监督的学习方式训练。
GAN的作用广泛,不仅仅是图像处理和生成,更在于对于各种噪点的识别,同时可实x现各种涉及图像风格转换的任务,如自动生成动漫角色并上色、让马变成斑马、生成人脸、作曲等。
计算机视觉的世界,有巨量的市场在助推
AI席卷百业,作为AI时代的主要入口之一,计算机视觉正成为AI落地规模最大、应用最广的领域。官方数据显示,2016年,我国计算机视觉市场规模仅11.4亿元,到2019年,市场规模增长至219.6亿元。全球范围内,到2025年,计算机视觉市场规模将从2016年的11亿美元增长到262亿美元。
作为是人工智能领域的一个重要分支,计算机视觉实时地对环境进行感知和理解的应用于广泛的领域:
手机拍照,身后有路人入镜,对背景不满意怎么办?最近流行的ai拍照“消除功能”,只需手指一滑,便可轻松消除。这一华为手机应用,正来源于姜育刚团队的视觉计算研究。
不仅仅是消费环节,生产领域也一样。铁路的基础设施包括轨道扣件、电务线缆等,传统检测方式是人工巡检,效率特别低,经常出现漏检的情况,姜育刚团队基于视觉计算的理论成果,可以成功解决轨道扣件等高铁设施的故障检测难题,已经成功发现并排除了若干重大安全隐患。
而针对大众的计算机视觉技术的应用,包括且不限于——
人脸识别:通过捕捉和分析人脸特征,用于身份验证、安全监控等。
物体识别:识别图这在自动驾驶、智能监控等领域尤为重要。
场景理解:理解图像中的场景和背景,对于智能助手、智能家居等应用非常关键。
预测诊断:在医疗领域,视觉AI通过多种数据分析,帮助医生提高疾病的预测、诊断和治疗效率;
而实现这些功能,就在于计算机视觉技术具备这些关键能力——
特征提取:从图像中提取出有用的特征信息,如边缘、纹理、颜色等。
模式识别:通过机器学习和深度学习算法,对提取的特征进行分类和识别。
图像处理:对图像进行预处理,如增强、滤波等,以提高识别的准确性。
此外,人工智能的“看”的能力不断提升,在越来越“了解”这个丰富多彩的世界的同时,帮助人类更高效、智能地完成更多工作,可以说,计算机视觉必将成为人类生活不可或缺的强大助手,与人类共同创建一个更加美好和智慧的新世界。
难以想象的可能性,让你看不懂世界
走进一家科技展馆,AI导览机器人向你行“注目礼”;肚子饿了走进无人超市,AI售货员亲切地提醒你是否需要购物袋;不想开车了,叫一辆无人车,让“老司机”载你出行……AI正在为我们打开一个新“视”界。随着算法的改进、硬件的升级、以及5G与物联网技术带来的高速网络与海量数据,计算机视觉技术似乎也有着无穷的想象空间。
AI的未来将是什么模样?从美国《福布斯》双周刊网站的报道中,我们可以看到IA当前发展的几个趋势——
生成式AI开辟新天地
AI系统将能撰写复杂的叙事文章,编排交响乐,并有可能与人合著畅销书。该领域一个关键性的技术是多模态生成式AI,此类系统能处理文本、声音、旋律和视觉信号等各种输入信息,并将其融合起来进行综合理解。
想象一下,AI一听到描述性语音,就能迅速起草一篇内容丰富而全面的文章,画出一幅画,为其配上合适的背景音乐,并能用多种口音和语言讲述出来。人类技术结晶与AI作品之间的界限变得模糊起来。
正式成为人类“左膀右臂”
外科医生在AI诊断结果的辅助下进行手术;律师在庭审过程中可得到AI提供的参考案例;软件开发人员在写代码时得到AI的同步帮助;随着远程办公和在线教育激增,AI将彻底改变课程设计并优化虚拟教育团队.....我们已经看到,人类正在迈入与AI协同发挥作用的时代。
AI道德将被优先考量
AI前所未有的发展态势和在各个领域的长驱直入,不仅令科技爱好者痴迷,也引发全球决策者的密切关注。因为的AI“野蛮生长”,必然将对民众造成影响。因而 AI研发领域的道德考量将被置于优先位置。这方面,包括欧美在内的主要经济体已经开始设法制定比较全面的AI政策。例如,欧洲议会打算在2024年就欧盟的《AI法案》文本达成协议。2023年10月30日,美国总统拜登签署了美国首份关于AI的行政命令。这些政策将就全球制定AI基准和规范展开合作的愿望得以实现。
量子计算为AI插上翅膀
量子计算已经来到AI研究的前沿。利用量子计算机的特殊性质,如量子叠加和量子纠缠,AI加速机器学习和优化算法,以实现更高效、更准确的AI应用。这将成为AI领域的未来发展的重要方向。
曾经,人类用眼睛“记录”了波澜壮阔的历史,未来,AI真的能够能够像人类一样去“观察”世界吗?
从目前来看,即便人类已经创造了许多在单个项目上超越自身的高级AI,但是机器仍然能力有限,还无法成为人类的替代品,无法像人一样去观察与思考,有自我意识的AI还不会很快出现,目前看来,AI很难真正像人一样去“看”世界万物。
但是人工智能视觉却能够超越人眼的功能,难以想象的可能性让未来变得不可预测,比如——
人工视网膜等仿生眼技术,其部分性能,如极限视觉距离、显微视觉能力、红外观测能力等,甚至可以远远超过人眼;
复刻人类视网膜的人工智能设备,能够感知的波长范围更广,可提供更精确的视觉识别能力;
机器视觉的处理速度可以超过人眼,如果在智能和感知能力上取得进一步的突破,AI之眼的能力将大大超过人类。
机器与人,人眼与计算机视觉,鸡生蛋后蛋化鸡,灿烂与迷途,都必将展现!
撰稿:博简科学融媒平台