您的位置:首页 >电信 >

成千上万的亚马逊员工正在听您告诉Alexa的内容

数以千万计的人使用智能扬声器及其语音软件来玩游戏,寻找音乐或拖网琐事。由于担心有人可能在听,数以百万计的人不愿邀请设备及其强大的麦克风进入家中。有时候,有人是。

Amazon.com Inc在全球拥有数千名员工,以帮助改善为其Echo扬声器系列提供动力的Alexa数字助理。团队收听Echo所有者的房屋和办公室中捕获的录音。录音被转录,注释,然后反馈到软件中,以消除Alexa对人类语音理解的差距,并帮助其更好地响应命令。

由参与该程序的七个人描述的Alexa语音审查过程突出了在训练软件算法中经常被忽视的人类角色。亚马逊在营销材料中表示,Alexa “生活在云中,并且总是变得越来越聪明。”但是,就像许多为从经验中学习而构建的软件工具一样,人类正在进行一些教学。

据《人民报》报道,该团队由承包商和亚马逊全职员工组成,他们在波士顿到哥斯达黎加,印度和罗马尼亚的前哨基地工作,他们签署了保密协议,禁止他们公开谈论该计划。据亚马逊布加勒斯特办公室的两名工作人员称,他们每天工作9个小时,每个审阅者每班解析多达1,000个音频剪辑,该办公室占据了罗马尼亚首都即将到来的皮佩拉区Globalworth大楼的前三层。现代化的设施在不断崩溃的基础设施中脱颖而出,没有任何外部标志来宣传亚马逊的存在。

<iframe src = "https://www.dailymotion.com/embed/video/ k60O7fegbQXg95uejpO" width = "100%" height = "363"></iframe>

这项工作大多是平凡的。波士顿的一名工作人员说,他为诸如 “泰勒·斯威夫特” 之类的特定话语挖掘了累积的语音数据,并对其进行了注释,以表明搜索者的意思是音乐艺术家。有时,听众会捡起一些东西,Echo所有者可能宁愿保持私密: 例如,一个女人在淋浴时唱得不好,或者一个孩子尖叫着寻求帮助。当团队需要帮助解析一个混乱的单词或遇到有趣的录音时,他们会使用内部聊天室共享文件。

有时他们会听到录音,他们会感到沮丧,或者可能是犯罪。其中两名工人说,他们捡起了他们认为是性侵犯的东西。当这样的事情发生时,他们可能会在内部聊天室分享经验,作为缓解压力的一种方式。亚马逊表示,当工人听到令人不安的事情时,它已经制定了适当的程序,但两名罗马尼亚员工表示,在要求对此类案件提供指导后,他们被告知干预不是亚马逊的工作。

亚马逊发言人在一封电子邮件声明中说: “我们认真对待客户个人信息的安全和隐私。”“我们只注释一个非常小的Alexa录音样本,以改善客户体验。例如,这些信息有助于我们训练我们的语音识别和自然语言理解系统,因此Alexa可以更好地理解您的请求,并确保服务对每个人都有效。

“我们有严格的技术和运营保障,并对滥用我们的系统采取零容忍政策。员工无法直接访问可以识别此工作流程中人员或帐户的信息。所有信息都具有很高的保密性,我们使用多因素身份验证来限制访问,服务加密和对控制环境的审核以保护它。”

亚马逊在其营销和隐私政策材料中并未明确表示人类正在收听Alexa录制的一些对话的录音。“我们使用您对Alexa的请求来培训我们的语音识别和自然语言理解系统,” 该公司在一份常见问题列表中说。在Alexa的隐私设置中,亚马逊为用户提供了禁用其语音记录以开发新功能的选项。该公司表示,选择退出该程序的人可能仍会在审核过程的常规过程中移交其录音进行分析。彭博社审阅的屏幕截图显示,发送给Alexa审阅者的录音没有提供用户的全名和地址,而是与账号以及用户的名字和设备的序列号相关联。

今年早些时候,《拦截报》报道说,亚马逊拥有的Ring的员工在公司门铃摄像头拍摄的视频中手动识别车辆和人员,这是为了更好地训练软件自己完成这项工作。

密歇根大学 (University of Michigan) 教授弗洛里安·绍布 (Florian Schaub) 研究了与智能扬声器相关的隐私问题,他说: “你不一定会想到另一个人在家里亲密地倾听你在告诉你的智能扬声器。”“我认为我们已经适应了 (假设) 这些机器只是在做神奇的机器学习。但事实是,仍然涉及人工处理。“

他补充说: “这是否是隐私问题,取决于亚马逊和其他公司在手动注释的信息类型上的谨慎程度,以及他们如何向某人展示这些信息。”

当Echo 2014年首次亮相时,亚马逊的圆柱形智能扬声器迅速普及了语音软件在家庭中的使用。不久之后,Alphabet Inc推出了自己的版本,称为Google Home,随后是Apple inc. 的Homepod。各种公司也在中国销售自己的设备。据研究人员Canalys称,在全球范围内,消费者去年购买了7800万个智能扬声器。数以百万计的人使用语音软件与智能手机上的数字助理进行交互。Alexa软件旨在连续记录音频片段,聆听唤醒单词。默认情况下,这是 “Alexa”,但人们可以将其更改为 “Echo” 或 “computer”。当检测到唤醒词时,回声顶部的光环变成蓝色,表明设备正在记录并向Amazon服务器发送命令。

大多数现代语音识别系统都依赖于人脑上的神经网络。该软件时学习它,发现模式中大量的数据.为Echo和其他智能扬声器提供动力的算法使用概率模型进行有根据的猜测。如果有人问Alexa附近是否有希腊地方,则算法会知道用户可能正在寻找餐厅,而不是教堂或社区中心。

但是有时Alexa会弄错-尤其是在使用新的语,地区口语或英语以外的其他语言时。在法语中,avec sa (“with his” 或 “with her”) 可以将软件混淆为认为有人在使用Alexa唤醒词。Hecho,西班牙语的事实或行为,有时被误解为回声。等等。这就是为什么亚马逊招募人力助手来填补算法遗漏的空白。

苹果的Siri也有人力助手,他们致力于评估数字助理对请求的解释是否与该人所说的一致。根据苹果安全白皮书,他们审查的录音缺乏个人身份信息,并且与随机标识符相关地存储了六个月。之后,将数据从其随机识别信息中删除,但是可以将其存储更长的时间以改善Siri的语音识别。

该公司表示,在谷歌,一些评论者可以从其助手那里访问一些音频片段,以帮助培训和改进产品,但它与任何个人身份信息都没有关联,音频会失真。亚马逊最近的一份职位发布,在布加勒斯特寻找Alexa数据服务的质量保证经理,描述了人类扮演的角色: “她 (Alexa) 每天都会听成千上万的人和她谈论不同的话题和不同的语言,她需要我们的帮助来理解这一切。”想要的广告继续: “这就是大数据的处理,就像你从未见过它.我们正在创建,标签,策划和分析大量的日常.”

一位熟悉该程序设计的人士说,亚马逊对语音数据的审查过程始于Alexa随机抽取少量的客户语音录音样本,并将音频文件发送给遥远的员工和承包商。一些Alexa审阅者的任务是转录用户的命令,将录音与Alexa的自动成绩单进行比较,或者注释用户与机器之间的交互。那个人问了什么?Alexa是否提供了有效的响应?

其他人则注意到演讲者听到的所有内容,包括背景对话-即使在孩子讲话时也是如此。有时,听众会听到用户讨论私人详细信息,例如姓名或银行详细信息; 在这种情况下,他们应该勾选一个对话框,表示 “关键数据”。然后,他们进入下一个音频文件。

根据亚马逊的网站,除非Echo检测到唤醒词或通过按下按钮激活,否则不会存储任何音频。但是有时Alexa似乎根本没有任何提示就开始录制,并且音频文件以刺耳的电视或难以理解的噪音开始。无论激活是否错误,都需要审阅者将其转录。其中一位人士说,当Alexa没有收到唤醒命令或被意外触发时,审核员每天抄录多达100条录音。

据两名评论者称,在世界各地的房屋中,Echo所有者经常猜测谁可能在听。“你为国家安全局工作吗?” 他们问。“阿列克谢,有人在听我们说话吗?”

相关推荐

猜你喜欢

特别关注