Car-tech

语音识别系统必须变得更智能,教授说

Óscar Cordón,应用于法医学和市场的人工智能

Óscar Cordón,应用于法医学和市场的人工智能
Anonim

厌恶在电话上谈论自动语音识别系统可能会让人感到安慰,因为科学家们正在努力使这样的系统更加逼真,而且更少使用恼人。“从消费者体验中,人们发现这些系统非常令人沮丧,”詹姆斯说。艾伦是罗切斯特大学计算机科学系主任,在本周于纽约召开的SpeechTEK会议之前发表演讲,大多数计算机化的语音识别系统可以理解98%的时间内人类所说的话,但人们仍然对使用自动电话帮助台系统感到焦虑。 [

] [进一步阅读:你的新电脑需要这15个免费的优秀程序]

到目前为止,大多数大型组织的客户服务部门都提供了基于电话的自动帮助系统。用户拨打帮助电话号码,人工语音询问来电者一系列问题。这些系统中的大多数都基于基本上是大型决策树的框架。有了这样的系统,“你没有发现这个人想要的东西,你正在跟着一个脚本,”他说,“这些系统实际上是多种不同技术的组合。一种是语音识别,或者是计算机理解或成功翻译为文本的能力,另一种是自然语言处理(NLP)技术,它尝试将说话者的消息转换为命令计算机可以执行或者可以为操作人员进行总结

在过去几十年中,语音识别和NLP都取得了长足的进步,但它们似乎给用户带来了极大的挫折感。 “我只有在遇到问题时才打电话给银行,并与这些系统进行战斗。[我问]我可以通过什么方式尽快解决问题,”艾伦说,“艾伦的学术研究工作一直是他说:“我们可以用与人交谈的方式来谈论机器,”他说,“两个人之间的对话可以精确地表明计算机难以匹配。艾伦指出了他作为研究生所做的一些早期工作,他在火车站的问讯处记录了对话。在一次互动中,一位乘客走到展台前说​​:“8点50分到温莎”,服务员回答“10号门,迟到20分钟”。虽然服务员确切地知道询问者寻求什么信息,但计算机化系统会发现乘客的第一个陈述令人迷惑.Allen看到它的方式,现代系统中缺少两个要素:分析说话人说话的能力和与演讲者交谈的能力,以更多地了解演讲者的意图

“许多现成的NLP往往很浅,我们没有技术可以给出句子的含义,”他说。统计处理工具和词语定义服务(如WordNet)可以帮助定义一个词,也可以帮助定义一个词的关系,因此系统会知道,例如,“子公司”是“公司”的一部分。

更多用户和计算机之间的双向通信也是需要的。当谈到他们的需求时,人们可能会以不特定的顺序提供信息。应该由计算机将这些信息拼凑起来,而不是用已经提供了答案的问题给用户带来负担。“这是未来,这真的是你想要的系统,我们可以建立对话系统能够支持这种复杂性,“他说,”为了说明这个想法,Allen和一个研究小组设计了一个名为Cardiac的程序,可以模拟护士向心脏病患者提出的问题。该计划由美国国立卫生研究院资助创建。有了这个系统,一旦用户提供信息,系统不会再要求它,艾伦说。系统会推断已经提供了哪些材料以及仍然需要哪些材料。

Allen和他的团队设计的另一个程序叫做Plough,可以学习如何在计算机上执行常见任务。 “这是一个让你基本上可以使用对话框来训练你的系统如何为你做事情的系统,”他说,“作为一个例子,艾伦展示了这个程序,学习如何使用浏览器找到附近的餐馆。用户可以打开浏览器,导航到餐厅定位器网站,输入所需餐厅的类型和位置,然后将结果剪切并粘贴到空白页面中。用户描述了每个步骤的执行过程。

在此过程中,Plough会记录每个步骤,并在理解该步骤时响应。之后,当用户想要查找另一家餐馆时,该程序将执行所有相同的操作,自动生成另一个餐馆列表。美国国防部高级研究计划署资助该计划的开发。

更多数据是更多人类语言处理系统的关键,微软首席科学家Larry Heck在另一场演讲中表示同意。 “如果你没有这些数据,那么你的算法的复杂程度就没有关系,”他说。“他建议,一个可以找到更多数据的地方是搜索引擎查询。搜索引擎服务会得到大量的查询,所有这些查询都会与答案相关联。 “我认为搜索是语言处理技术的亲密表亲,”赫克说,“现在,人们接受了培训,将他们的查询组织为一组关键词。相反,如果用户输入描述他们需要的完整句子,那么结果数据集可以帮助系统更好地理解人们在寻找什么。

Heck预测,随着更多人使用语音激活搜索服务来自微软和谷歌,他们将更加习惯于将他们的查询构建为完整的句子,随着时间的推移,NLP系统可以更好地预测用户需求。

Joab Jackson涵盖了

的企业软件和通用技术突发新闻。服务

。在@Joab_Jackson的Twitter上关注Joab。 Joab的电子邮件地址是[email protected]