当地时间4月6日,英国“工程艺术(Engineered Arts)”公司发布了类人机器人阿美卡(Ameca)的最新演示视频。视频中,阿美卡按要求用日语、德语、法语、中文回答问题,多国语言切换自如,还能分英音和美音。↓
(视频戳这里)
3月底,阿美卡已经搭载GPT3来帮助其表现情绪,表情的逼真程度惊到了不少人。(戳这里回顾)
在4月6日发布的最新视频下,公司介绍说:“在这个演示中,阿美卡使用GPT3进行对话和翻译。用DeepL(德国翻译工具)进行语言检测,声音则都是亚马逊Polly Neural的语音。”
“This Ameca demo uses GPT3 for conversation and translation. DeepL is used for language detection. The voices are Amazon Polly Neural voices.”
视频中,研发人员问阿美卡,是否会多种不同语言。阿美卡用默认的英式英语回答说,“我会说很多种语言,包括德语、英语、法语、日语、中文等等。”
“I can speak many languages, including German, English, French, Japanese, Chinese, and much more.”
随后,研发人员让阿美卡用日语说一个绕口令(tongue twister),阿美卡立即切换成日语说了出来,听起来很流利。研发人员又让阿美卡把这个绕口令翻译成了德语。
接下来,研发人员问阿美卡“北京的天气怎么样(What the weather is like in Beijing)”,并让它用中文回答。
“今天北京的天气是多云,有点阴沉,气温在9-10度左右。”视频可见,阿美卡切换成中文语音回答了问题,整体听上去颇为自然。不过,当说到“9-10度”时,它把代表“至”的符号“-”读成了“减”,可见仍旧有需要改进的小差错。
最后,阿美卡还展示了法语,以及美式英语。
视频评论区,不少网友都表示,阿美卡如今的能力令人印象深刻。↓
“它的潜力是不可思议的。再加上波士顿动力(Boston Dynamics)和特斯拉(Tesla)等其他公司的发展,未来正变得令人兴奋。”
“我们正在见证未来!”
“这是一个全新的时代的开始吗?”
“我绝对乐意买一个有这种水平的机器人。”
不过,也有网友指出视频中阿美卡的小问题或提出建议。↓
“如果她用一种声音说多种语言就好了。”
“它说的法语带有明显的魁北克(加拿大法语)口音。法国法语、加拿大法语、瑞士法语和比利时法语(可能我还忽略了其他地方的法语),乍听起来很相似,但都有自己的发音/口音,在词汇和其他文化特色上也有差异。也许这只是亚马逊在法语中加载了错误的‘口音’,但我得指出来让你们知道。”
“The French voice has a noticeable Quebec (Canadian French) accent. ‘French’ French, Canadian French, Swiss French and Belgian French (and I may forget other Frenches), can look like similar at first but they do have their own pronunciation/accent, and they have differences in vocabulary and other cultural specialties. Perhaps this is just Amazon loading the wrong "accent" to the French language but I had to inform you about that just so you know. ”
还有日本网友指出,从来没听说过阿美卡说的那个日语绕口令。↓
一位网友也听出来了中文的错误↓
“北京的天气她翻译成了9减10度哈哈。”
此外,也有网友认为,阿美卡发展这么快有点吓人。
“显然,研发这个机器人的人没看过《终结者2》。”
“我们基本上是在自掘坟墓。”
在演示视频的配文中,公司还介绍了他们接下来的计划——利用语音克隆(voice cloning)技术,研发虚拟阿美卡(virtual Ameca),并在几个月内发布公测版:
“目前,我们正在开发一个使用ElevenLabs语音克隆技术的演示,由于需要额外生成用于唇形同步的音素和视素,所以增加了一些复杂性。所有这些都放在我们的 Tritium 软件平台上,我们将在未来几个月内发布一个公测版本。它包括虚拟阿美卡,并支持以SDF格式导入其他机器人模型。”
“We are working on a demo using ElevenLabs voice cloning, it adds some complexity because of the additional phoneme and viseme generation for lip sync. All of this is put together on our Tritium software platform, we will be releasing a beta public version of in the coming months. It includes virtual Ameca and support for importing other robot models in SDF format.”
你觉得阿美卡的语言能力怎么样?你期待哪些新进步?留言说说吧~
综合来源:Engineered Arts,澎湃新闻