PCMag编辑选择和审查产品独立.如果您通过附属链接购买,我们可以赚取佣金,这有助于支持我们的测试

你听说过假肢,但假肢的声音呢?

VocaliD通过一种新颖的众包方法为那些有语言障碍的人创造了逼真的声音。创始人鲁帕尔·帕特尔博士解释了你可以如何提供帮助。

(图片来源:Thomas Faull/iStock/Getty Images)

捐献人体器官并不是什么新概念。由于现代医学的进步,我们可以提供血液、血浆、骨髓,甚至器官给那些需要帮助的人。但是现在,在一副耳机和你的电脑的帮助下,你可以给别人一个新的声音。

语音AI公司VocaliD(在新窗口打开)相信声音是人类身份的一个关键方面。为此,它为品牌创造了商业用途的人工智能语音,并为那些需要语音辅助技术的人创造了定制的假肢语音。这些声音并不是像已故的伟大的斯蒂芬·霍金(Stephen Hawking)所使用的语音合成器中那种普通的声音。相反,VocaliD的假肢是由客户自己的声音和捐赠给它的众包人的声音混合而成人类话音存贮(在新窗口打开)

我们采访了她的创始人兼首席执行官鲁帕尔·帕特尔博士,了解她的组织、声音捐赠和创作背后的后勤工作,以及人们如何帮助那些有需要的人发出声音。为了篇幅和清晰度,本文经过了编辑。

PCMag:非常感谢您今天同意接受我们的采访!你能告诉我语音创建的过程吗?
Patel博士:
当然!所以,有两件事。定制声音是指我们把两个人的声音组合在一起,因为有人的语言能力很有限。你有一个声音捐赠者,还有一个不能说话的人,你把两者混合在一起。在制作定制声音时,我们会考虑年龄、性别和口音等人口统计特征,以便将捐赠者和接受者匹配起来,然后再进行分析。

卢帕尔·帕特尔
鲁帕尔·帕特尔(图片来源:VocaliD)

偏好也扮演着非常重要的角色。所以在一开始,我们真的试图让它更准确,比如,哦,这个人的声音听起来会是什么样子,对吧?我认为,当我们开始传递这些信息时,我们学到的一个重要教训是,准确性是一方面——显然,它听起来应该像是它属于(接收者)。但偏好确实是一个大问题。

你想要取悦的人通常是用户,但也是他们的父母和周围的人。我们有过这样的案例,即使声音与用户提交的声音样本非常准确,但它也不会让家人满意,或者与[用户]没有联系。例如,他们会对我们说,‘这听起来不够自信,我女儿要自信得多。’所以偏好也会影响采用。

你们会为那些无力发声的人提供经济援助吗?
是的,我们有。事实上,这就是为什么我们经常与组织和基金会合作,看看我们能不能为这些人争取到赞助。另一件事是我们现在正在与退伍军人管理局合作,他们已经承认我们是官方供应商。事实上,大多数保险公司,当我们与他们接触并讨论这个问题时,他们说,‘是的,我们只需要一个临床医生来写剧本。’所以阻力通常不是在保险水平,或者其他水平。有时临床医生只是不知道VocaliD的存在,因为我们没有积极营销。

其次,有时他们只是说,‘嗯,我对这项技术不太确定,我们要先试试其他的东西。’然后就太迟了,特别是对那些失去声音的人来说,他们没有第二次机会再次录制他们的声音。回到你的问题;我们从这些声音上赚不到钱。我们甚至要补贴我们现在卖声音的成本。但这是我们使命的一部分,这就是我们这么做的原因。

你觉得VocaliD大概创造了多少声音?
我们可能已经建立了几千个声音。对一些人来说,由于技术的升级,能发出多种声音其实是件好事。现在有大约400个活跃用户有语言障碍。这种起伏的部分原因是有时人们去世了,或者不得不使用不同的系统。

所以机器学习在制作VocaliD声音中扮演着重要的角色,但我想人们在管理算法,可能也有音响工程师。他们的角色是什么?
我们团队的大多数人都是技术人员。所以他们要么有语音合成的博士学位,机器学习计算语言学,诸如此类。它有多个角色,比如质量保证、训练算法和调优。所以,虽然算法正在学习如何像这个特定的人一样说话,或者像它正在训练的样本一样说话,但仍然有很多科学和艺术混合在一起。

通过“声音驱动器”进行慈善

回到语音捐赠的过程,VocaliD的人类语音库有一个大使项目,鼓励人们托管和参与语音驱动器。
声音驱动器基本上是一种让社区聚集在一起记录他们的声音的方式。这是我们已有的信息在我们的网站(在新窗口打开)它告诉人们如何网络托管一个语音驱动器,这是一种步骤。你必须把很多人聚集在一起,然后你可以注册成为一个语音驱动大使,然后邀请人们加入。

现在,我们的志愿者为我们录制了大约2000个句子,然后用来发出声音,大使是那个能够推动人们录音并确保他们完成录音的人。人们开始录制,并且非常热心。但在他们记录了足够多的数据之前,我们不能将这些数据用于那些不说话的人。而且必须是可靠的数据。所以大使项目帮助我们提高了数据的质量。

因此,对志愿者来说,一个潜在的障碍是网络安全问题deepfakes人们把音频用于邪恶的手段,以及生物特征数据的敏感性。你如何让那些想要捐赠但又感到紧张的人放心?
我们做了很多事情来[保护]数据,从人口统计特征中匿名化数据……当我们保存声音文件时,你的名字不会与它们联系在一起。另一件事是我们在人类语音库系统方面所做的一切都是一个完全不同的数据库,而不是我们在商业方面所做的任何事情。同时,我们把声音混合在一起。这并不是说我们把你的声音给别人听。它和接受者的声音样本混合在一起。所以它发生了变形。不仅仅是你的录音被用来训练算法。

人类话音存贮
VocaliD的虚拟工作室

任何人都可以捐献自己的声音

在第一次录制清晰的音频时,有什么建议吗?
所以我们现在有一个试镜,你必须用10句左右的句子来试镜。然后在24小时内,我们的团队会对它进行审查,并就该做什么给出一些反馈。beplay手机官网下载网站上也有关于人类话音存贮(在新窗口打开)页面会告诉你你需要什么样的设备。这里有一个常见问题来帮助你理解如何最好地录制一个非常好的音频质量。

考虑到你周围的环境,可能最好是在一个小一点的房间里,一个有更多垫子的房间。所以你想要一个有地毯的房间,而不是有某种窗帘的硬木地板,或者理想情况下,如果你有一个步入式衣橱,你可以在那里录音,那就太好了。耳机式麦克风非常重要,因为如果你面前只有一个麦克风,当你前后移动时,嘴巴到麦克风的距离会发生变化,这实际上会对记录的数据造成严重破坏。

全球无障碍意识日(在新窗口打开)5月19日。你打算举办什么活动或特别的致谢活动吗?
实际上,现在有两件事正在我们的雷达上!可能会有公司举办语音活动,作为员工参与的机会,我们目前正在与之洽谈。我们也会在社交媒体上讨论[全球无障碍意识日]。我们在世界之声日(在新窗口打开)

在这一年里,我们会举办大约10到12场活动来提高声音贡献的可见度,特别是在西班牙裔宣传月和黑人历史月这样的时期,因为我们确实需要多样化的声音。我们需要来自不同群体的各种声音。

What's New Now<\/strong> to get our top stories delivered to your inbox every morning.","first_published_at":"2021-09-30T21:30:40.000000Z","published_at":"2022-08-31T18:35:24.000000Z","last_published_at":"2022-08-31T18:35:20.000000Z","created_at":null,"updated_at":"2022-08-31T18:35:24.000000Z"})" x-show="showEmailSignUp()" class="rounded bg-gray-lightest text-center md:px-32 md:py-8 p-4 mt-8 container-xs">

获取我们最好的故事!

报名参加最新消息让我们的头条新闻每天早上发送到您的收件箱。

本通讯可能包含广告、交易或附属链接。订阅通讯即表示您同意我们的服务使用条款而且隐私政策.你可以随时退订时事通讯。beplay体育苹果下载


感谢您的报名!

您的订阅已确认。留意你的收件箱!

注册其他时事通讯beplay体育苹果下载

你会喜欢的PCMag故事

关于杰奎琳·戈德布拉特

PCMag社交媒体研究员

Baidu
map