专家在探讨:人工智能会在10年内代替人类。
电影界传言:人工智能正在密谋接管世界。
现实中的人工智能(AI): 指猫为狗; 指狗为猫; 一条鱼在问:老子是猫还是菠萝? 4白色全等于雪景; 5 黑+白等于熊......
种种场景,使人工智能变智障,但智障情景还有很多:
原本设计为模仿一个十几岁的青少年女孩,但在与用户开放对话后不到一天的时间里,就变成了一个“热爱希特勒、讥讽女权主义、带有种族歧视、性别歧视、同性恋歧视”的喷子,不得不被微软从社交网络中撤销;
误把裁判的秃头认成足球、对于不能被标准化的任务,如采茶工作,难以准确表达或错误百出.....
这些例子展示了人工智能在处理复杂任务时遇到的挑战和限制,提示了在人工智能技术的发展带给我们许多便利的同时,实现与我们的生活工作完全融合的理想依旧任重道远。
“偏爱”纹理的AI
计算机视觉,是人工智能的核心方向之一,它是研究如何使机器能够“看”并理解现实世界的关键钥匙。
对于人类而言,“看”几乎是与生俱来的能力——出生几个月的婴儿看到父母的脸会露出笑容,暗淡的灯光下我们仍能认出几十米之外的朋友。人类的眼镜具有凭极少的细节就能认出彼此的能力,然而这项极度“轻浅”的能力,对计算机而言则“望尘莫及”。
因为我们的大脑有超过40亿以上的神经元处理视觉信息,因为视觉占据着人对外界70%的感知能力,当你看见一张狗的图片,你能轻松地知道这只狗的毛发、品种,甚至能大概知道它的身高体重——无论这张图片是否模糊、有噪点或者条纹。因为人看的是相对高层的语义信息,比如形状;而AI面对这些会“犯傻”的原因,是因为计算机看的则是相对底层的细节信息,比如纹理。也就是说,一只“披着羊皮的狼”,人类看到的是狼,而AI则看到的是羊。
一小部分的噪点,机器就完全无法识别,答案就是纹理。因为在图像中加入噪点,图中对象的形状不会受到影响,但是纹理的识别却只针对表象。研究人员曾将一头大象的皮披在一只猪的轮廓上和将铁罐制作成一只小猫。即便分别给它们贴上“猪”、“猫咪”的标签,然后用不同的算法进行测试。系统给出的答案依旧是:大象、铁罐。由此更证明,计算机确实关注的只是纹理。
但AI的神经网络架构也是根据人的视觉系统开发的,这使得图片像素进行“干扰处理”后,系统对像素进行修复的能力比人的能力更高,但如果图像扭曲的方式稍有不同,算法就完全无能为力了。
“偏爱”纹理,是因为AI还不具备人类一样的理解能力。如果说人类通过“智慧的大脑”来认识世界的话,那么算法模型,就是AI的“大脑”。
AI目标是创造设计出具有高级智能的机器,所以算法和技术最直接的借鉴,就是利用当下科学界对人脑的研究成果。
AI脑的“智慧”难题
当下流行的AI系统使用的人工神经网络,就是模拟人脑神经网络建立的简单模型,是按照不同的连接方式组成的网络。这些网络虽然跟人脑一样可以学习,比如简单的模式识别、翻译语言、逻辑推理、甚至创建图像或者形成新设计。但是,视觉计算要充分挖掘视觉数据中多元信息间的关联,也就是要挖掘不同拍摄视角、模态特征、视觉语义之间的关系,发现并利用这些关联线索提升视觉计算性能。由于旧的方法往往忽略对关联的建模,无法取得理想的结果,导致ai生成的视频中,沙滩上的椅子会飘在空中等,这些怪异图景都是忽视了真实世界的自然、物理规律关联导致的结果。
“尽管最近十几年来视觉计算取得了较大的进展,复杂动态视觉数据的理解这块硬骨头还没有被完全啃下。”以“多元协同的视觉计算理论与方法”获国家自然科学奖二等奖的复旦大学教授姜育刚解释说,“拿视频数据举例,不同于静态图像,因为有了时间这个维度,视频蕴含非常丰富的时序、声音、文本等多模态信息交织在一起,给动态视频数据的理解带来极大挑战,这也是当前视觉计算领域亟待解决的难题。”
人脑与计算机的区别在于:人类的“识别”依赖于自身以往的经验和知识,一旦面对数以万计的陌生面孔,就很难进行识别了。而AI的“杀手锏”就是处理海量数据,但这些神经网络却与处于“理解”角度上的“分离割裂”状态。
“我们的想法就是首先将多元信息解耦,然后在高维空间中施加约束,从而充分挖掘并利用多元信息间的关联关系,这对于复杂视觉数据的理解特别重要”,姜育刚说。
虽然现在计算机视觉的应用场景已经很广泛,作为消费者,我们已经能够看到AR/VR、机器人、无人驾驶、自动驾驶汽车等场景,而在企业市场,也有医疗图像分析、视频监控、房地产开发优化、广告插入等的应用。但这些已经落地的应用案例中,很多项目还处于小范围的试用阶段。由于相关理论的不完善,这些先行者与创新者实际上遇到不少困难。其中最大的问题是缺少可用于AI模型训练的大规模数据集,以及动态图像识别、实时视频分析等技术瓶颈等。
多元协同的视觉计算——复旦大学的贡献
2023年度6月24日国家科学技术奖揭晓,复旦大学计算机科学技术学院姜育刚教授等共同完成的项目“多元协同的视觉计算理论与方法”获国家自然科学奖二等奖。这一成果解决的就是让机器更好地理解和处理动态视觉数据的问题,特别是在提高人工智能在“看”和“理解”图片或视频动态视觉数据的能力方面取得了显著进展。这一理论和方法的应用,不仅提升了视觉计算的性能,还使得机器人能够更好地感知环境,实现了“具身智能”的核心技术。此外,它还促进了自动生成的图像和视频内容质量的提升,为设计师提供了更多的创作灵感。它的关键技术成果是——揭示了视觉数据在数据层、特征层、语义层不同形式的耦合模式,提出了适应各层特性并逐层解耦的关联建模方法,形成了多元协同的视觉计算理论体系,在多项视觉计算任务上取得了性能突破。
通过提高人工智能在处理视觉数据方面的能力,机器能够更好地理解和分析图像和视频中的信息,从而在各种应用场景中表现出更高的效率和准确性。例如,在面对大规模数据集时,能够有效地提取和利用关键信息,更准确地识别和分类图像中的对象。
同时,这项技术还强调了大规模数据集的开放共享,通过与全球研究团队合作构建的数据集,进行视觉计算领域的基准测试和性能比较,从而推动了全行业的技术进步和发展。
人工智能的发展历程大致可以分为三个阶段:符号主义阶段、专家系统阶段和深度学习阶段。深度学习阶段,需要有效整合算法、算力和数据,推动“制造”智能转移到“习得”智能。这一阶段的进步,以使机器能够理解视觉信息,实现机器视觉的重大突破。
因此,大规模数据集不仅是视觉计算至关重要的组成部分,对于模型的训练和性能提升还起着关键作用。相比于大量的图像数据集,动态视频数据集更少,其构建更有挑战性。一方面视频数据的收集、存储更为困难,另一方面是给视频数据进行标注非常耗时耗力。尽管耗时长、成本高,姜育刚带领团队还是构建了多个高质量、大规模视频数据集,涵盖视频识别、视觉匹配、动作定位等多个视觉计算任务,秉持着“开源开放是推动技术发展的重要方式”这一理念,长期致力于数据集、工具集的开放共享,被斯坦福大学、加州大学伯克利分校、微软等千余家机构使用。
中国在人工智能领域的发展中,拥有广阔的市场和海量的数据资源,这为计算机视觉等应用提供了丰富的训练数据。中国在人工智能专利数量上也处于遥遥领先的地位,这为视觉人工智能的发展提供了强大的技术支撑。
“多元协同的视觉计算理论与方法”项目不畏复杂动态视觉数据之交织莫测,赋予机器“慧眼”,“机器能识别出沙滩、椅子,也能懂得椅子在沙滩上的自然规律,并基于多元信息间的关联关系,进一步施展拳脚、发挥作用。”姜育刚说。
道路总是被那些披星戴月风雨兼程的人踩出,早在十七年前ai并不那么受关注、甚至有些“冷门”时,姜育刚就进入视觉计算领域。回望来路,姜育刚说,“我们不是‘预见’,只是感兴趣,愿意迎难而上。”(上)
撰稿:博简科学融媒平台