回到顶部
声音识别技术,也称自动语音识别,即(Automatic Speech Recognition,ASR),是一种以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言或者文字的技术。
在科技飞速发展的今天,声音识别技术已逐渐渗透到我们生活的方方面面。从智能语音助手到安防监控系统,从智能家居控制到金融交易认证,声音识别技术正以其独特的优势,为我们的生活带来前所未有的便利。
但是,声音识别并不局限于将人类语音识别为电信号,在非生物物体识别中也可以通过分析物体发出的声音特征来识别物体,如不同金属的敲击声,电力设备正常运行和异常运行的声音。
而在这一领域中,安徽中科昊音智能科技有限公司凭借其卓越的技术实力和创新精神,成为了行业内的佼佼者。本期《清桥》国际期刊“宁点访谈”栏目邀请到中科昊音创始人、董事长刘敏,共同探寻物声识别的奥秘。
2019年,刘敏与中科院合资成立安徽中科昊音智能科技有限公司,专注于声纹AI领域。同时他也担任PCCP管廊断丝声纹监测评审专家、合肥市政协委员、安徽省人民政府参事室特约研究员、武汉大学安徽校友会副会长、安徽省湖北商会副会长、安徽省城市安全与应急产业联盟委员、安徽省科学家企业家协会会员、安徽省大数据企业协会常务理事、中国民用航空疲劳检测系统评审专家等职务,荣获专利24项目。
刘敏:20世纪50年代,贝尔实验室成功研制出能够识别10个英文数字的实验系统,标志着语音识别技术研究的起步。随着计算机技术的进步,动态规划(DP)和线性预测分析技术(LP)被应用于语音信号的声学模型构建,使语音信号能够转换为数字形式以便计算机处理。1970年,模式识别概念被引入语音识别领域,线性预测编码(LPC)技术应运而生并广泛应用。1978年,动态时间规整(DTW)算法解决了不同时长语音的匹配问题。
80年代,语音识别研究从特定人的小规模独立词识别转向说话人无关的连续语音识别。IBM的Jelinek团队开发出语音激活打字机,尽管需要单独训练且需停顿,但证明了统计方法的有效性。到80年代中期,该打字机的词汇识别量达到20000字,推动了技术发展。1989年,隐马尔科夫模型(HMM)的提出,将语音识别从模板匹配转向基于概率统计的建模,奠定了理论基础。
2000年后,人机语音交互成为焦点,即兴口语识别、自然口语对话理解及多语种同声翻译成为重点。2011年,苹果推出Siri,改变了人机交互方式,使语音识别技术进入大众生活。2012年,Google首次在语音识别中使用深度神经网络,大幅提升了准确性和速度,推动语音识别在物联网、智能家居等领域的广泛应用。此后,百度、科大讯飞、阿里巴巴等公司也提出了各自的端到端模型,推动技术向更高水平发展。
提到声纹识别,大多数人第一时间想到的往往是人声识别。那么,中科昊音是如何进入物声识别这一相对小众的领域呢?
刘敏:早在 2010 年,公司团队就开始聚焦于声纹识别、声学成像、机械噪声识别、故障预测性分析等技术研究和应用。在最初的研究过程中,团队主要关注的是人声识别技术,但随着研究的深入和对市场需求的不断探索,我们发现物声识别领域蕴含着巨大的发展潜力。
相对于视觉来讲,声纹这一块专门做研发的是非常少的,尤其是在物声识别领域,我们的竞品公司确实不多。而且,随着工业 4.0 和智能制造的快速发展,对工业设备的状态监测和故障预警提出了更高的要求。传统的监测方法往往依赖于人工巡检和复杂的传感器技术,不仅效率低下,而且准确性难以保证。而声纹识别技术可以通过对设备运行时发出的声音进行分析,实现对设备状态的实时监测和故障的提前预警,具有成本低、效率高、准确性强等优势。”
基于这样的市场需求和技术优势,中科昊音开始将研究重点逐渐从人声识别转向物声识别,并不断加大研发投入,致力于打造具有自主知识产权的物声识别技术和产品。经过多年的努力,公司在物声识别领域取得了一系列重要成果,成为了该领域的领军企业。
通过声音准确 “听诊”,实现对设备状态的监测和故障的诊断,这背后需要哪些技术、硬件及软件的支持呢?
刘敏:在技术方面,中科昊音拥有多项自主知识产权的核心技术,其中最具代表性的就是 Cmfmc3.0 信道和格式转换引擎。该技术通过对声音信号的频谱、幅值、倒谱、波形等声学特征进行提取和分析,能够准确识别出设备运行时发出的各种声音,并判断其是否正常。据介绍,中科昊音自主研发的 Cmfmc3.0 技术声纹识别准确率达到 95%~99%,远超国内外同行的 40~60%。
除了核心技术外,还需要一系列的硬件设备来实现声音的采集和传输。中科昊音采用了先进的传感器技术,能够实时采集设备运行时发出的声音信号,并通过边缘计算网关将这些信号传输到后端的核心引擎进行分析处理。在硬件设备的选择上,中科昊音注重设备的稳定性、可靠性和抗干扰能力,以确保采集到的声音信号准确无误。
软件方面,中科昊音自主研发了一套完整的声纹识别软件系统,该系统包括声音信号处理、特征提取、模型训练、故障诊断等多个模块。通过对大量设备运行声音数据的采集和分析,系统能够不断学习和优化,提高对各种故障声音的识别准确率。同时,该软件系统还具备良好的人机交互界面,方便用户进行操作和管理。
如果,无法发声的物体,是否仍旧识别它的声纹?
刘敏:我们提出了“万物互联,万物皆有声音”的理念,即使是不会主动发出声音的物体,我们也可以通过一些特殊的方法让它发出声音,并对其声纹进行识别。
比如对于输电铁塔,我们可以发射固定频段的声音,然后用我们的“神器”去收集声音。因为我们知道发射声音的频率,所以可以更好地分析它的螺栓松动情况,进而检查铁塔的稳固性。这种方法不仅成本低,而且效果好,目前在行业内处于领先水平。
此外,对于桥梁等大型基础设施,中科昊音也采用了类似的方法进行监测。通过在桥梁上安装特殊的传感器,发射和接收声音信号,分析声音的变化来判断桥梁的结构健康状况。这种非接触式的监测方法,不仅能够及时发现桥梁存在的潜在问题,而且不会对桥梁的正常使用造成任何影响。
在哪些行业,物声识别具有不可替代性呢?
刘敏:首先是电力行业。在电力系统中,变压器、开关柜、输电线路等设备的运行状态直接关系到电力供应的稳定性和可靠性。通过物声识别技术,能够实时监测这些设备的运行声音,及时发现设备的故障隐患,避免因设备故障而导致的停电事故。例如,中科昊音为长江三峡的 700 兆瓦水轮机组提供监测服务,通过磁吸方式安装传感器,无需停电停机作业,就能对高电压和强磁场环境下的机组运行噪音进行监测,提前预判故障的可能。
其次是石油行业。在石油开采和运输过程中,各种机械设备和管线的运行状态对生产安全至关重要。物声识别技术可以对石油设备的电力类、动力类和管线类三个板块进行监测,在复杂的工况下精准地抓取设备的故障声音,提前预警预判,减少人员和财产损失。中科昊音在胜利油田的五个应用场景中,就成功地通过物声识别技术发现了皮带机断裂等故障,为企业的安全生产提供了有力保障。
此外,物声识别技术还在交通、工业机械、新能源等领域具有广泛的应用前景。在交通领域,可用于监测车辆的运行状态,提前发现车辆故障;在工业机械领域,可对各种机械设备进行状态监测和故障诊断,提高生产效率和产品质量;在新能源领域,可对风力发电机、太阳能电池板等设备进行监测,确保新能源的稳定供应。
物声识别技术在发展过程中,是否也面临着一些限制因素?
刘敏:一方面,声音信号的复杂性和多变性给物声识别带来了很大的挑战。不同设备在不同运行状态下发出的声音千差万别,而且还会受到环境噪音、电磁干扰等因素的影响,这就要求物声识别技术具备更高的准确性和鲁棒性。
另一方面,物声识别技术的应用还面临着数据缺乏和标准不统一的问题。由于物声识别技术相对较新,相关的数据积累还不够丰富,这就限制了模型的训练和优化。同时,目前行业内还没有统一的物声识别标准,不同企业和机构之间的数据和算法难以兼容,这也制约了物声识别技术的推广和应用。
此外,公众对物声识别技术的认知度和接受度还相对较低,这也在一定程度上影响了该技术的市场拓展。
面对这些挑战和机遇,中科昊音未来的发展方向又在哪里呢?
刘敏:我们的目标是成为全球领先的声纹AI技术提供商,不仅在技术上保持领先,还要在应用场景上不断拓展。我们希望通过声纹技术,为工业设备的健康监测和故障预警提供更加智能、高效的解决方案。
未来,我们将继续拓展物声识别技术在电力、水利、石油、交通、工业机械、新能源等领域的应用,全力打造“物声纹工业监控”一揽子解决方案。同时,我们将持续加大研发投入,提升技术水平,提高物声识别的准确率和鲁棒性。在数据方面,建立中国最大的声纹故障库,为模型训练提供更丰富的数据支持;在标准制定方面,积极参与行业标准的制定,推动物声识别技术的规范化和标准化发展;在海外市场拓展方面,努力将企业打造成为声纹故障识别领域的领军企业。
在创新方面,中科昊音将不断探索新的应用场景和商业模式,推动物声识别技术与人工智能、大数据、物联网等新兴技术的深度融合,为客户提供更加智能化、个性化的解决方案。例如,结合人工智能技术,实现设备故障的自动诊断和智能预警;结合大数据技术,深度分析设备运行数据,挖掘潜在价值信息,为企业决策提供支持。