- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
交互新革命?浅谈语音控制面临的几点挑战
近几年,在新手机面世时的广告语中,"交互新革命""全新的交互体验"等名词层出不穷,在众多交互方式中最为突出的一种当属语音交互。语音交互,说白了就是采用语音助手等系统级应用或者第三方应用来对手机进行控制。自苹果的Siri打开了智能语音助手之门后,各类语音助手野蛮生长,互联网巨头、移动运营商、手机厂商等众多企业纷纷涌入,手机应用市场内多达几十款之多的语音助手让人看得眼花缭乱,各类内置语音操控的智能手机也陆续问世。但是,我们会一个奇怪的现象——并没有多少人去用它。就连整体性能最优的苹果的Siri助手,我们也鲜少看到有人使用,这是为什么呢?本文就粗略来分析一下。
不确定性
目前,大多数语音助手对于自然语言识别率已经达到了一个较高的水准,对于常用的手机语音操控短句识别率较高并且拥有极高的响应速度。但是,识别并不等同于理解,对于一些复杂句式的长句,在人看来很正常很容易理解,机器可能就无法理解。于是,这就导致了一个不确定性的问题:语音助手大多采取一问一答的方式来处理问题,很多情况下你问了却没有回复,一方面是无法准确识别语音内容,另一方面就是系统可能不支持你的语音控制命令。在使用手机助手时,如果经常遇到这样的问题,那就自然有了"说了后未必能得到回复"或是"可能要再说一遍"的潜意识。重复几次失败后,人们自然会对这种理解能力的东西意兴阑珊了。
针对不确定性的两个方面,首先固然是语音识别技术本身,自然语言的算法速率和准确率需要进一步提升,另外,还需要庞大的时间去机械地积累语料库,这些可能只能等待人工智能的进一步发展了。就算不用像人类这样聪明,其程度也必须要达到基本通过"图灵测试"(一种测试机器是不是具备人类智能的方法。其内容是,如果电脑能在5分钟内回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为是人类所答,则电脑通过测试)。
无法排除的环境干扰
由于手机使用的场所十分多变,有可能时常处于声音极其嘈杂的环境下,所以要实现准确的识别功能,智能设备也需要像人耳一样具有排除噪声的能力。这就涉及到噪声的过滤,这类良好的噪声过滤的实现需要软硬件共同的努力:硬件上,已有的方法例如使用两个麦克风进行信号收集比对,混合处理,达到剔除噪声的目的;软件上,主要依赖于各类滤波算法的使用,这也是最难的,目前大多还停留在实验阶段,并没有什么特别成熟的解决方案。
另外,现行的语音操作过程甚至还强迫用户手动辅助完成,这根本是语音助手类应用致命性的缺陷。语音交互的根本目的在于解放人的双手,人机的语音交流应该是具备相较于"触摸"更远的交互距离。比如你的手机在桌上,你躺在沙发上。这时候你拿手机会比较麻烦,所以就会用到语音交互的方式。但较远的距离也势必会影响声音的传达,所以除了噪声过滤算法之外,模糊人声识别也会成为一个必要的技术方向。
上一篇:千元拍照谁称王?
魅蓝Note竟难敌中兴V5
Max!红米2如何抵挡?
下一篇:塑料机换钢板:三星GALAXY
S6
配置外形设计大曝光