最新资讯 | 百度公众号发布:想用AI,帮助这2000万人
明静不想去医院了。
她不想每次走进医院时,都被护士或是分诊台导医劝说,回家带上父母再来。
“我只是嗓子不舒服,爸妈都65岁了,我不想这点事都让他们陪。”
明静是一名听障人士。去医院看病、接外卖电话、打一辆网约车或是办一张银行卡,每一件日常小事,对她这样的听障人士而言,都是困难重重。
“执教的这几年,我做得最常见的工作,是陪学生去医院看病。”明静的老师——天津理工大学聋人工学院副院长袁甜甜感慨。
这所专门面向听障人士的高等工科特殊教育学院,人称“聋人小清华”,这里,容纳着500多名像明静这样的学生。
2018年,聋人工学院的老师和学生们共同启动了智能手语翻译项目,并孵化出成果公司“鲸言科技”。
近几年,百度先后与天津理工大学、鲸言科技合作,共同研发出百度智能云曦灵AI手语平台与双向手语翻译机,让手语的“声音”,被更多人听见。
// 缺失的“基础设施”
理解AI手语,先要了解听障人群面临的问题。第二次全国残疾人抽样调查数据显示,我国大约有2004万的听力残疾人,是世界上听力残疾人数最多的国家。 然而,无论线下线上,都鲜有能真正帮助听障人群的服务设施。据调查,我国全职从事手语翻译职业的人员不足千人,约97%的聋人因为手语翻译的缺失面临就诊困难的问题。 手语是大多数听力残疾人的第一语言。但是,作为视觉语言,手语与健全人使用的有声语言有着天然的不同,这种不同造就了听障人群特有的思维逻辑,也构成了他们对有声语言的理解困难。 袁甜甜从语言学的角度举例,如果听障人士说“灭火”,最先打出的手语是“火”,因为在视觉语言里最先出现的是所要阐述的重点人事物,听障人士习惯于先表达人事物,再表达处理方式或多者之间的关系。 在她的课堂上也是如此,即使有实时翻译语音的字幕,袁甜甜还是会用手语配合口语,方便同学们理解。
// 会打手语的数字人
张帆在《无声的绽放》中写道,对于听障问题,重要的是消除社会歧视,而非消除“不正常”;重要的是公正,而非药物与慈善。 为帮助听障人群解决“从手语到口语”的交流问题,2022年,百度推出了AI手语平台,研发了针对线上场景的AI手语数字人和针对线下场景的双向手语翻译机,实现了“手语-汉语”的智能互译。 在手语动作的专业性方面,百度智能云曦灵数字人产品团队联合手语语言学专家、特殊教育专家以及天津理工大学聋人工学院等,制定了面向人工智能应用的自然手语标注规范,建设了大规模自然手语翻译语料库,使模型能够生成符合听障人群习惯的自然手语。 通过百度数字人4D扫描技术训练的AI手语数字人,不仅能呈现出真实生动的面部表情,还能借助动作融合算法,如真人般流畅表达11000多个《国家通用手语词典》所涵盖的手语动作,为听障群体打造更具情感表现力的沟通体验。 目前,百度的AI手语数字人已经能够识别语音、打出手语,在实时直播中用数字人形象进行手语同步翻译,在央视NBA直播、冬奥会开幕式上,都出现过百度的AI手语数字人主播。
// 从输出到理解,让AI“听懂手语”
随着AI技术爆发与数字人的广泛应用,大模型的对话也变得更加生动。 AI手语数字人在“打出手语”的基础上,也开始尝试“理解”听障人士的手语表达。与只能单向输出信息的模式相比,理解了手语的数字人能够更好地完成双向沟通的闭环。 从2024年开始,百度正式投入双向手语翻译机的研发及生产,这是多模态AI模型的典型应用,也是百度各项AI技术的集成。
当听障人士打出手语之后,翻译机需要先通过视觉识别及自然语言处理技术,将手语翻译为汉语;健全人理解后,将要回复的内容通过语音识别驱动数字人翻译,最终以手语和文字的形式,再呈现给听障人士。其中,无论是视觉识别还是自然语言处理,都是AI模型的核心能力。 不过,只有模型能力远远不够。 实际使用场景中,面临着更多的技术考验,比如:
◎ 听障人士快速打出的手语时,会导致手部轮廓细节模糊,增加模型理解成本;
◎ 混杂的画面背景会分散模型对手部区域的注意力,造成识别错误;
◎ 数据采集时出现的手语孤立词会增加模型识别错误概率;
◎ 手语-汉语在语义等层面是多对多的关系,和具体使用场景有很强的相关性,任何不考虑语言学规律的“蛮力”翻译都可能会造成天差地别的错误,影响聋健沟通的质量。
解决这些技术问题之后,模型还需要更多的训练数据,而数据的标注要求工作者具备手语能力。因此,手语翻译模型训练及测试数据的生产、处理、分析基本都需要由手语使用者来完成。 近几年,百度、天津理工大学、鲸言科技在全社会范围内收集了近千万自然手语(含视频、文本、标注等)作为多模态模型训练数据,终于在2024年完成了“双向手语翻译机”的研发。
// 听见手语的声音
明静也接触了手语数据的采集工作。对产品进行交互性测试之后,她非常开心,“终于有人开始做这件事了”。 她是一个很乐观的女孩,微信个性签名是,“我还会选择这滚烫的人生啊”。她希望自己的人生充满可能性,而不是恐惧。她说,愿意拾起破碎的自己,愿意释怀,愿意活在当下,愿意相信未来会更好。 2025年1月,中国残联等9部门联合印发了《关于推进科技助残的指导意见》,其中明确提到了“推动智能手语翻译”的助残措施。 越来越多的听障人士,会在充满声音的世界中找到自己的位置;也会有越来越多的普通人,听到手语翻飞的声音。