回到顶部
对人类而言,高达70%至80%的信息是通过视觉获取的。同样地,在人工智能领域,视觉AI技术被视为目前最具应用潜力的技术之一。它赋予机器“从识别人物到辨识万物”的能力,使机器能够感知并理解这个世界,从而在生产与工作中极大地提升信息处理效率。
根据多个市场研究机构的报告,近年来全球视觉AI市场的销售额持续增长。具体而言,2022年的销售额已高达113.51亿美元,并预计将在2029年增长至218.10亿美元,年复合增长率(CAGR)高达10.51%。
在中国,视觉AI市场同样展现出强劲的增长势头。2023年,中国计算机视觉(作为视觉AI的关键组成部分)市场规模已达到571.9亿元,同比增长20.2%。这一数据不仅凸显了中国视觉人工智能市场的庞大规模,还表明其增长速度远超众多其他行业。
在本期“宁点访谈”中,我们有幸邀请到英特灵达信息技术(深圳)有限公司董事长朱才志先生,分享他对AI视觉技术当前面临的挑战及未来发展趋势的深刻见解。
朱才志,自2000年起,开始从事图像处理、计算机视觉相关的研究工作,先有在微软亚洲研究院、日本理光公司的工业界经历,后有在日本国立研究所、日本名古屋大学从博士后、助理教授到副教授的学术界经历,期间三次获得NIST视觉算法的年度世界冠军,共发表30余篇国际学术论文,30余项专利。
回国后,朱才志首先加入了中科院深圳先进技术研究院汤晓鸥教授(商汤科技创始人)的视觉团队,一年后全职创业,任英特灵达公司董事长、总经理,曾获评为“GAISC Award 2018 AI TOP10先锋人物”。
作为中国视觉AI的首批创业者,您是怎么定义视觉AI这个概念?
朱才志:如今当人们提及AI时,往往会狭义地联想到大模型或深度学习。但实际上,AI的范畴远不止于此。例如,聊天机器人就利用了AI在文本处理上的能力,然而视觉信息在现代社会中更为重要,高达80%的信息来源于视觉。在深度学习和大模型风靡之前,AI已经涵盖了诸如基于统计的机器学习理论、符号主义等多种技术和理论,它们同样构成了视觉研究的重要部分。
视觉AI是研究如何让机器“看得见”和“看得懂”的科学,即利用摄像机和计算机代替人眼对图像和视频进行识别、跟踪、测量和解析,从而实现对现实世界中物体的识别、检测和跟踪。它训练计算机复制人类视觉系统,使数字设备能够像人类一样识别和处理图像和视频中的物体。
视觉AI的应用领域极为广泛,不仅限于视觉本身,还涉及到语音、文本理解等多个方面。视觉AI的本质在于取代人眼和人脑的部分功能。例如,在人脸识别门禁系统中,AI已经能够准确地识别并验证身份,取代了保安人员繁琐的身份核查工作。
在工业生产流水线上,AI通过检测产品或配件的缺陷,提高了生产效率和产品质量,同时减轻了工人的劳动强度。此外,在银行、保险公司等领域,AI能够自动识别并录入票据信息,大大提高了工作效率。
英特灵达提出的“看得清”跟“看得懂”,应该如何理解在视觉AI中,两者的关系?
朱才志:“看得清”与“看得懂”是视觉AI领域的两大核心挑战!在当今快速发展的视觉技术领域,众多企业纷纷聚焦于解决“看得懂”的难题,这一领域涵盖了人脸识别、工业元器件的精密检测、物流机器人的高效物体辨识,以及交通系统中对违规行为的智能监控等多个方面。这些应用无一不依赖于先进的图像与视频捕捉技术,以及高度智能化的数据分析能力,它们共同构成了机器视觉系统的核心,旨在通过机器的智慧之眼,替代人类进行更为精准、高效的判断与决策。
然而,在追求“看得懂”的同时,我们绝不能忽视“看得清”这一基础而关键的问题。如果说“看得懂”是机器视觉的智慧大脑,那么“看得清”则是其感知世界的敏锐双眼。一旦数据在源头——即图像采集阶段出现问题,比如因光线不足导致的图像模糊,那么无论后续的分析算法多么先进,都无法得出准确可靠的结论。
在实际应用中,“看得清”的挑战无处不在。夜晚的黑暗、边海防等军事区域的隐蔽性、港口建设等全天候监测的复杂性,以及森林火灾预防等广阔区域的监控需求,都使得补光成为不可能或不可取的选择。在这些场景下,机器视觉系统必须依靠自身的感知能力,在极端条件下依然保持清晰的成像效果。
“看得清”之所以成为一个难以攻克的难题,原因在于它受到物理极限的严格制约。镜头、传感器等核心部件的性能,直接决定了图像的清晰度和细节表现。在暗光环境中,光子数量急剧减少,传感器在光电转换过程中的损耗也随之增大,再加上电子元器件的热噪声等干扰因素,使得最终输出的信号变得极其微弱,甚至难以辨认。
为了突破这一物理极限,英特灵达团队进行了长达六年的深入研究,深入剖析了相机成像的每一个环节,从光线的入射、镜头的聚焦、传感器的光电转换,到信号的放大、量化与传输,每一步都进行了细致的考察与优化。同时,充分利用了人工智能技术的优势,通过深度学习等算法,对图像进行智能增强与修复,从而在源头上提升了图像的清晰度。
光学、计算机视觉、硬件设计、芯片制造等多个领域的专家共同参与了这一项目,他们各自发挥所长,共同攻克了一个又一个技术难关。在这个过程中,我们不仅发表了一系列世界顶级的学术论文和专利成果,还成功设计并制造出了具有自主知识产权的芯片和产品。
不单单是解决技术痛点,视觉AI将会在哪些产业带来一些变革?
朱才志:在低照度环境下,普通摄像机往往难以还原出真实的色彩。而AI图像智能识别技术则可以通过对图像的色彩信息进行分析和处理,从而还原出更加真实和自然的色彩效果。AI算法能够实时识别图像中的目标物体和人员,并对其进行跟踪和记录。
除了目标识别外,AI算法还可以对图像中的人员行为进行智能分析。例如,它可以识别出奔跑、摔倒等异常行为,并自动触发告警。这不仅可以提高监控的准确性和响应速度,还可以有效预防安全事故的发生。
在商业应用层面,我国在这一波AI浪潮中走在世界前列。CV(计算机视觉)方向更受国内资本与创业者追捧。安防是早期大家不约而同选择的应用场景,但传统安防厂商如海康、大华等巨头更有优势。之后,工业缺陷检测、医疗辅助诊断、机器人、辅助驾驶等行业也吸引了视觉AI公司的加入。同时,传统安防也在物联网化,出现了非常多的泛安防细分场景。
那么我们就可以引入多个实际场景。首先,矿井环境是一个典型的例子,由于安全和照明限制,需要一种既能保证亮度又不会引发安全问题的照明解决方案。同时,矿井内的设备损耗问题也不容忽视,因此低照度成像技术显得尤为重要。
此外,高速公路上的爆闪灯是另一个应用场景。这些爆闪灯在车辆快速通过时补光以拍摄车牌,但强光对驾驶者造成困扰,且设备损耗大。低照度成像技术可以在不产生强光的情况下提高拍摄清晰度,从而解决这一问题。港口码头等开放场景同样需要24小时的监控和识别能力。在夜间,由于成像效果变差,识别率降低,而低照度成像技术可以保持较高的识别率。
除了上述场景,在刑事侦查中,低照度成像技术可以帮助警方在夜间拍摄清晰的图像,从而锁定犯罪嫌疑人。在防止狩猎偷鱼等违法行为方面,低照度成像技术可以监控湖泊、水库等区域,防止夜间有人进行危险行为。在工业瑕疵检测方面,低照度成像技术可以大大提高检测精度,降低人力成本。
在消费类产品上,视觉AI与智能硬件、智能家居类产品相结合,产品包括智能门铃、智能门锁、婴儿看护等,在海外有很大市场。国内运营商也在大力推动视觉AI的落地,如明厨亮灶、防溺水、高空抛物、烟火识别等应用场景。
虽然视觉AI获得极大发展和普及,但目前有没有制约其发展的因素?
朱才志:尽管AI视觉技术发展迅速,且在现有硬件如算力设备和成像设备上仍有潜力可挖,但仍面临诸多挑战。
首先,硬件基础设施的提升是一个重要方面。随着技术的不断进步,算力将持续提升,使得算法能够在更少的物理条件下运行,从而带来更复杂的算法效果和更好的性能。算力是AI视觉技术运行的基础。随着深度学习等算法的不断发展,对算力的需求也在不断增加。目前,虽然算力设备在不断提升,但仍存在成本、发热、能效比等方面的挑战。例如,高规格的算力设备虽然性能强大,但价格昂贵,且能耗较高,不利于大规模推广和应用。因此,如何在保证性能的同时降低成本和能耗,是算力设备发展的关键。
此外,元器件的发展也是关键,包括镜头等硬件条件的改善,都将为AI视觉技术的发展提供有力支持。成像设备是AI视觉技术获取信息的窗口。随着传感器技术的不断进步,成像设备的分辨率、帧率、色彩还原度等指标都在不断提升。然而,成像设备的发展也受到物理条件的限制,如镜头畸变、光照条件等。因此,如何在物理条件限定的条件下,通过算法优化等手段提升成像效果,是成像设备发展的关键。
随着算法的不断优化,AI视觉技术的性能和准确性都在不断提升。然而,算法的优化也面临着计算复杂度、数据依赖性等方面的挑战。如何在保证性能的同时降低计算复杂度,减少对数据的依赖,是算法优化的关键。
视觉AI技术的发展需要跨学科的支持。例如,结合物理学、生物学等学科的知识,可以进一步提升成像效果和算法性能。然而,跨学科研究需要不同领域专家之间的紧密合作,这对于资源整合和团队协作提出了更高的要求。
您是如何规划英特灵达未来的发展方向,您希望视觉AI未来的将有什么革新?
朱才志:作为一个已经拥有一定知名度和实力的创新团队,英特灵达深知自身的优势和潜力所在。我们认为机会在于成为视觉端边侧创新的一个平台型公司,填补中国在这一领域前瞻能力方面的空白。
目前,许多世界级的AI公司,如商汤科技等,都倾向于发展大模型和自动驾驶等业务,而忽略了许多行业细分领域的需求。然而,我们坚信未来的世界将是由大模型作为“大脑”,而端边侧的小模型则作为物理世界的采集终端。
这些采集终端,如我们研发的烟雾报警器,将基于视觉作为入口,成为各种传感器的重要组成部分。这些传感器将遍布各个角落,用视觉来定义和感知物理世界。
作为平台型公司,我们掌握了端边侧创新的所有要素,包括硬件设计能力、核心算法设计能力等。我们将致力于支撑行业内的专家,满足他们提出的产品需求,推动个性化产品和细分领域产品的发展。这是一个千亿级的市场机会,我们对此充满信心。
我们专注于提高摄像头的成像质量和智能识别能力,让摄像头不仅能看得清,还能看得懂。我们将这些信息传递给后端的大模型,让大模型进行总体的规划和决策。
“看得清”和“看得懂”并不是简单的等价关系。因此,在研发过程中,英特灵达将这两个问题结合起来,采用端到端的解决方案,这是我们的强项所在。
未来,英特灵达将提供核心技术,包括算法、芯片、硬件设计方案等,而硬件产品与销售渠道则依赖合作伙伴来提供。我们的目标是共同打造出差异化的智能产品,定位中高端增量市场,包括B端和C端。
在B端市场,我们主要与华为等行业巨头合作,借助他们的销售渠道和品牌影响力,将我们的优质算法和适配硬件推向更广泛的用户群体。在C端市场,我们同样看好其潜力,特别是海外市场。我们将与珠三角的方案公司紧密合作,发挥制造业优势,为生态合作伙伴提高毛利率与市场占有率,共同破除无序竞争的内卷现象。