为什么AI语音不能用本地方言即时回答,我是说使用者本人的本地方言?
为什么AI语音不能用本地方言即时回答,我是说使用者本人的本地方言? ?
?
这个问题是一个系统工程的问题,不仅仅是ASR及TTS单点的问题。
ASR:自动语音识别技术(Automatic Speech Recognition)TTS:语音合成(Text To Speech)
语料及模型训练ASR、TTS作为语音AI产品主要的输入和输出方式,是需要一个基于一定量数据的标注训练过程,流程中各个基于NLP处理的环节同理。目前多数的模型是需要基于较大数据量的,如果要解决差异很大的方言,那么就需要n*m数据以及对应的标注量。
同时,各地方言不仅仅只是发音上的不同,还有词汇、语序、省略等各种语言习惯。
为了保证标注质量,避免错标、乱标,经常还需要多次标注,这样就变成了m*n*p(并非表达严格逻辑,只是示意)。
仅从这几点,支持方言就需要大量各地的本地人的人力支持,以及非常庞杂的工作量、管理投入才能做到第一步。
方言判断如果一些公司搞定了识别方言和输出方言的算法问题,那么接下来就是如何判断该用什么方言。如果要做到因人而异,那么就需要所有使用者都首先录入声纹,AI先通过声纹判断说话人是谁,再通过对应这个人预设的方言进行识别和回复。举个例子,如果你预设是AI接收四川话,这时你对它说普通话,如果没做好额外容错的话,那么可能无法识别这句普通话。
人判断应当说方言还是应当说普通话的逻辑,主要是看听者的身份,AI实际上也是这样的逻辑判断,但是AI获取信息的手段更少,需要更加海量的数据支持,才能做到自动,还不一定能对,所以还是设置一下最靠谱。
系统工程AI对话的后端也有一个非常庞大的系统支持,方言这一逻辑的加入,每一个环节都可能遇到类似上述问题,从而使整个项目开发运营的难度都上升。
成本考虑目前会主动使用语音技术的人群,多数是普通话群体,处理各地方言解决的问题有限,但成本巨大,如果支持,可能也只是个别功能上的支持,无法做到有限成本内的广泛方言的支持。
同时,AI之所以能够很好地回答各种问题,幕后是有非常多开发和运营人员的支持,为了支持方言而让庞大的团队舍弃更有价值的需求,也是划不来的。
总结基于上面简单列举的几个点,基本可以总结出:
1、语音对话AI产品普通话群体还是绝大多数;
2、用本地方言即时回答不是做不出,而是成本巨大,收效甚微;
3、如果要做到部分方言识别、方言回答等,产品体验难以保障。
ai通话怎么不能设置了?
点击进入手机通话功能,再点击进入设置。
2.点击进入AI通话。
3.选择AI机器人使用男声或女声,再点击自动接听。
4.选择自动接听的方式,比如选择响铃30秒未接听时手机自动接听。
5.返回选择自定义文本,在下方输入回复文字内容,机器人就会读取文本内容进行回复。
6.如果选择录制语音,录制好自己的声音,AI接通后会自动播放录音。