在中国科学院语言声学与内容理解重点实验室,浪潮AGX-5支撑着数十项以音频为核心的人工智能重大项目研究。相比原AI集群方案,AGX-5以强大的单机训练性能,将人工智能模型的整体训练速度提升了2-3倍。
语音是人类进行信息交互的一种重要方式,但对计算机或者机器人来说,理解语音并不是一件容易的事情。让机器“能听会说”是人工智能科学家期望实现的一大重要目标。如今很多语音技术已经走出实验室,在现实中应用落地,如智能音箱、迎宾机器人、智能语音导航、语音输入……让人们的生产生活更加便利。这些成果离不开众多科研机构的努力,其中就包括中国科学院语言声学与内容理解重点实验室(以下简称实验室)。
该实验室是我国语言声学领域最大的国立研究机构。经过近20年发展,实验室从最初的6人发展成为包含51名固定人员、总人数200余人的科研力量,被誉为“中国智能语音人才的摇篮”。
语言声学研究改变中国
实验室布局于音频听感知、语音识别和面向声学应用的大数据分析等研究方向,全方位覆盖了以音频为核心的媒体内容理解研究内容。目前,实验室承担着多项国家级和国际合作研究项目,如中科院战略性先导专项“面向感知中国的新一代信息技术”媒体内容项目、中日韩前瞻计划A3项目“面向下一代互联网的超临场感声通信应用研究”、自然科学基金杰青项目“面向语音处理的言语声学数字化建模”、基金重大研究计划重点支持项目“多人多方对话中的语音分离、内容分析与理解”、声学所率先行动计划项目“以音频驱动的媒体深度理解关键技术研究“等等,科研任务十分繁重。
实验室的研究项目对于社会生产、生活的发展有着十分重要的价值和意义。以语音听觉感知研究方向为例,通过深入研究多种复杂因素对语音听觉感知的影响机理,探索复杂声学环境下的语音感知机制及其建模方法,可能会使听力障碍患者过上正常人的生活。据2016年3月公布的《全国听力障碍与耳病调查结果》,我国有15.84%的人患有听力障碍,其中中度以上听力障碍的人占到总人口数的5.17%。伴随着我国老龄化趋势加剧,听力障碍总现患率仍在进一步升高,以语音技术为核心的助听器具能够直接为听障患者带来福音。此外,该研究方向所包含的三维音频技术,通过研究人对真实三维声学环境的感知机理,能够将虚拟现实技术的用户体验提高约50%,进一步促进真正的”沉浸式”用户体验实现。
目前,实验室的部分研究成果已在多个领域得到应用:在智能终端领域,推出了智能电视交互系统;在互联网领域,先后跟百度、腾讯和阿里巴巴进行了卓有成效的合作,推出了语音输入、语音和音乐检索、语音客服等应用;在广电领域,实验室的连续语音识别引擎成为该行业主流企业的标配,被索贝、大洋集成到各自的媒资管理系统和多媒体信息检索系统,同时也被天脉聚源在其为电视台提供新闻素材整理服务的云平台中采用。
AGX-5助力语言声学研究突破AI算力瓶颈
为了支撑重大项目的科研工作,实验室在音频内容分析核心技术方面建立了全面的、具有国际水平的开发工具和处理平台,主要包括非特定人大词表连续语音识别系统、语种识别系统、说话人识别/确认系统、识别置信度评价关键词检测系统、发音评估系统、固定音频检测系统、口语理解和对话系统、噪声消除系统、音频水印编解码系统、基于Hadoop的信息安全大数据分析系统等。同时,在基础资源数据库方面,实验室建立了大规模的汉语、英语、朝鲜语、维语、日语等语种的语音基础资源数据库和音乐数据库。
随着研究项目的增多以及数据量的快速增加,实验室的人工智能相关研究出现了AI计算资源紧张的局面,很多研究项目不得不“排队”等待,科研进度与成果产出均受到重大影响。如自动语音识别的部分研究项目,每次需要训练的语音数据样本规模高达数万小时,使用原有的分布式集群进行训练,单次耗时就长达2周左右,AI算力已成为科研的“瓶颈”之一。
实验室希望在短时间内完成海量非结构数据的高速吞吐与并行训练,需要计算平台具备强大的模型优化处理能力和高可扩展性,能够支持更大规模设备间的分布式组网联合训练。为此,浪潮为实验室设计并构建了一套以AGX-5为核心的AI计算平台,其单机训练效率相比以往训练集群实现了2-3倍的提升。
AGX-5是浪潮自研的新一代AI服务器,专为解决现代AI和深度学习需求的扩展难题而设计,单机计算性能高达2 PetaFLOPS。AGX-5采用业界最先进的AI计算芯片高速互联架构,可提供近乎线性的AI计算性能加速比。
实验室主任颜永红表示:“在以前,我们的研究人员经常需要花费很多时间去等待计算资源,严重影响项目进度。使用浪潮AGX-5计算平台后,模型训练效率得到了很大的提升,开发周期大幅缩短。科研人员可以将更多精力放在项目本身,推动了语言声学研究和应用落地的进程。”