6月11日,百度“新声出道”的小度新品发布会在北京百度科技园K6熊掌报告厅召开,新品“小度智能音箱”正式在后厂村C位“出道”,尝鲜价89元。这款“后厂村C位出道”的百元AI实力担当产品——“小度智能音箱”凭借“好听、好用、好玩”的特性,新晋成为智能音箱届的“三好生”!
这款定价89元的小度智能音箱是如何成为智能音箱届的“三好生”?声智科技作为小度智能音箱的技术合作伙伴,带您一起解锁小度智能音箱背后的秘密武器!
(1)好听:采用全球首款3麦克风阵列设计,硬件毫不妥协!
小度智能音箱作为一款定价89元的智能音箱,其跨级音质体验是百元档音质最佳的人工智能音箱。小度智能音箱音质出众,却身量小巧,而且有着毫不妥协的远场语音交互体验。它是如何平衡ID、音质设计和产品体验之间的矛盾呢?
作为一款支持远场语音交互的智能音箱,一定离不开麦克风阵列。麦克风阵列的主要作用是帮助机器适应更加复杂的场景。麦克风阵列是由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统,将会影响真实环境下的语音唤醒和识别率,是决定用户体验的关键因素。
然而,当前市场上的麦克风阵列方案中,常见的阵型多为4麦,6麦,8麦等阵元的线型、环型、菱型等阵列方案,亚马逊的Echo还采用过6+1麦的方案,亚马逊主流产品仍在沿用6麦环形和8麦跑道型方案。从技术原理来看,更多数量麦克风的阵列方案在远场语音交互效果上更具有优势,但是多麦阵型也限制了ID设计的想象空间,对音箱设计提出包括ID、成本等更多苛刻要求。
图为麦克风阵列模组
声智科技为小度智能音箱量身打造的全球首款3麦环型麦克风阵列,很好的平衡了ID、成本、音质设计和产品体验之间的矛盾。这款全球首款3麦克风阵列构型灵活,打破了音腔设计的局限,并释放ID设计的无限空间,同时平衡了成本和效果之间的矛盾。
声智科技推出的这款全球首款的3麦环型麦克风阵列内置通话降噪、混响抑制、回声抵消、噪声抑制、语音增强、波束形成、增益控制、语音识别等远场语音交互技术,5米内的嘈杂环境中,仍可以有卓越的远场语音唤醒性能、精准的远近场语音识别,实现轻松唤醒,无惧环境,想说就说,声随心动,保证远场语音交互的完美体验。而且,相比4麦、6麦、8麦阵列方案的成本偏高,3麦阵列方案价格更加亲民,相比2麦又有效果优势。
不仅如此,为了释放ID设计的无限空间,声智科技针对小体积智能音箱尺寸特性,进行了独家的技术优化。小尺寸智能音箱的麦克风阵列与喇叭的位置,以及ID结构都较为受限,特别是麦克风阵列与大音量喇叭相距很近,带给语音交互技术处理极大的压力,特别是自噪声抑制和远场信号处理的难度极具增加。为了在这样的特殊结构设计获得更好的语音交互效果,声智科技独家设计优化,采用抗强噪唤醒技术(AKS技术)、垂直抗强噪识别技术(VAN技术)、OpenAEC技术等提升远场语音交互体验。
(2)好用:完整远场语音唤醒和识别服务,又快又准!
为了让小度智能音箱更好用,提升产品的净推荐值NPS,声智科技通过SoundAI Voice Kit(以下简称SVK)为小度带来更敏捷、更贴合人性化的语音交互设计。
SVK是一款集成声波配网、波束形成、声源测向、定向拾音、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、语义理解、语音合成、双工通话等全链路的智能语音交互开发套件,兼容主流智能语音硬件架构,支持DuerOS、AliGenies、小爱平台、腾讯叮当、Amazon Alexa等主流AI平台, 助力品牌厂商实现智能硬件产品的极速开发和量产上市。
什么样的响应时间才能带来完美的语音交互体验?人机语音交互是让机器模拟人的行为,让机器适应人类的交互习惯。大多数情况下,在生活中人与人对话时,一个过快的回答会给用户带来轻浮感和抢话感,而一个过慢的回答会给用户带来迟缓感和愚钝感。因此智能音箱的响应时间对于用户体验至关重要。
此次,小度智能音箱采用了声智科技的SVK完整的远场语音唤醒、远场语音识别(Far-Field ASR)服务。声智科技精准的“远场语音唤醒技术”和”远场语音识别技术”,面向垂直领域深度优化,达到平均96%以上的准确率。而且,不仅识别率极大的提升,也带来了更符合人性化的语音交互速度体验,使得小度智能音箱从唤醒到内容的全链条响应速度达到全球极致的1.4S以内,而用户唤醒以后的机器应答响应时间更是做到了400~500毫秒的极致速度。
什么样的语音唤醒体验才能带来完美语音交互体验?语音唤醒是智能音箱用户的第一体验。声智科技通过宽场景高灵敏唤醒技术,很好的平衡了唤醒率和误唤醒率。众所周知唤醒率和误唤醒是一对跷跷板,当唤醒效果很好的时候,误唤醒通常也会很高,智能音箱毫无征兆的突然唤醒也是很麻烦的事情。为解决这个矛盾,声智科技的技术不走讨巧路线,而是采用全新的唤醒模型,优先保证用户的体验,在此基础上再降低误唤醒率,同时还要提升强噪环境下的唤醒率。
当然,不同麦克风器件的选择带来不同的语音交互效果,信噪比(SNR)70dB以上的麦克风要比信噪比60DB的麦克风的远场和抗噪效果更好,但是选用高信噪比的麦克风,其结果就是成本会高出很多。彻底屏蔽硬件的差异化,面向低成本高失真产品,努力帮助客户降低成本,声智科技推出了低成本高容错唤醒技术。即便在一致性和失真度非常大的情况下,也要出色的保证用户体验的效果,这是声智科技给所有客户一直的承诺。
什么样的语音识别体验才能带来完美语音交互体验?由于远场智能产品的场景特殊性,远场语音识别相对更加垂直,比如智能音箱的识别偏重于音乐和百科领域,智能汽车的识别偏重于地图和音乐领域,而对于地域性的覆盖,则是远场语音识别着重考虑的,并不能简单把方言划归为一个技术系列,特别是消费电子领域的高度标准化思维,对于远场语音识别的场景兼容更加看重。所以声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题,不仅如此,为保证云端服务的稳定性和并发能力,声智科技采用端云强耦的技术架构,合理在端云分配计算能力,与Amazon AWS、阿里云等主流云计算平台采用相同的服务可靠性标准,SLA高达99.99%。
(3)好玩:满足儿童与极客不同需求,解决宽场景难题
真正的产品落地需要考虑众多应用场景的难题,声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题,比如老人和小孩的识别怎么办?南方和北方的语言差异怎么办?而并非只是简单的技术叠加。
智能音箱市场的用户群中有20%+是儿童,如何满足儿童用户群体的需求,提供零沟通距离,优质精选内容,保证健康安全又不失好玩有趣的语音交互体验?声智科技推出了远近场的儿童语音识别技术,针对儿童的语音特点,例如:儿童生理上发育不够成熟,不善于掌握发音部位与方法,辅音发音分化不明显。而且,儿童发音单音重复较多,往往发出单个的、重叠的音,他们会说“车车”、“糖糖”、“兔兔”、“饭饭”,而不说“汽车”、“糖”、“兔子”、“饭”这样的儿童的交流方式,声智科技进行声学模型优化训练,升级打造ASR技术,使得儿童识别率更准确,更贴合儿童的交互习惯。
除了儿童模式,小度智能音箱还推出了极客模式。极客模式下,一次唤醒之后,用户可以进行多轮对话。针对用户多轮对话的语音交互需求,声智科技推出了支持多轮对话的端云交互技术,从麦克风阵列、语音唤醒、端点检测和语音识别四个技术链条进行深度优化,满足了百度对于用户体验的极致追求。其中,端点检测技术既要保证响应速度,又要准确识别断句以保证语言连贯性,在复杂场景下的技术实现非常困难。声智科技率先突破这些技术难关,将会推动智能音箱技术向着更加智能的方向快速发展。
随着用户认知度提升、整体产业链的成熟、用户体验提升等因素,2018年智能音箱将会持续爆发。但语音交互技术仍需继续发力,声智科技作为国内知名的语音交互技术提供商,将持续聚焦在技术领域,与众多合作伙伴一道推动智能语音行业的发展。
听 你 所 言 , 知 你 所 想
声 智 科 技