语音行业在2000年左右,迎来了第一个产业高潮,起因是1997年IBM推出了一款语音录入软件ViaVoice。
当时人们把这个软件安装到PC上,就可以在计算机前面朗读报纸或者新闻内容,或者录入一些简单的日常用语,识别率也还不错。于是工业界有了一次大规模连续语音识别的产业化应用的热潮。
但由于当时PC是一个固定的环境,消费者已经习惯了键盘打字而不是对着屏幕说话,ViaVoice并没有获得广泛认可。最终IBM于2003年将这个产品卖了。
但语音识别的产业化应用热潮却并没有停止。4月12日,微软公布了公司历史上第二大金额的收购案,目标是语音识别巨头Nuance Communications,交易价值达197亿美元。
有意思的是,Nuance正是苹果Siri语音分析背后的技术供应商。
而几乎是同一时间,在大洋彼岸百度和罗技也宣布了一场围绕语音识别的战略合作。
4月13日,百度正式发布“语音输入服务”并宣布百度大脑和罗技达成合作,将领先的AI技术全面赋能罗技外设硬件,首款产品即是罗技即将发售的VOICE M380「智能鼠标」。这款鼠标嵌入了百度AI技术,支持多国语言语音输入、中英自由说和智能翻译等创新功能。
某种意义上,这可以看作是ViaVoice的一种精神继承,也是对微软收购Nuance的价值肯定。
1
百度AI全面赋能罗技硬件
ViaVoice被变卖的6年后,语音技术产业应用迎来了第二波高潮,这一波热潮以互联网需求和实现为基础。今天我们随处可见的机器对话,也是在这一波高潮的基础之上发展而来。
如今我们常在社交媒体上看到,一个大学生利用简单工具+一块芯片的结构,就能设计出可以语音操控的DIY设备。
当技术进步、产业成熟、消费者习惯养成、交互认知足够以及场景需求等等因素叠加,使得语音交互有了快速发展的沃土。
这些都可算作是百度AI对罗技产品赋能的充分条件,也是罗技迫切实现产品智能化的来由。
但落实到具体产品上,有两个不能忽视的因素:
在鼠标上加入「语音识别服务」模块,对技术提供商的水平要求很高;
融合语音识别服务的传统输入设备,是满足需求还是创造需求。
简单点说,「智能鼠标」作为一个「新物种」,我们要重点关注的就两个方面:好不好用和谁会用。
先说第一个因素。VOICE M380支持中、英、日三国语言,同时也支持中英文自由夹杂语音输入,以及7种方言的混合语音输入。同时,VOICE M380支持中译英、中译日、中译韩、中译法、中译西、中译泰、英译中、日译中8种语音翻译。
从功能上看,VOICE M380基本覆盖了日常生活、学习、商务等场景的语音和翻译需要。从语音识别服务的技术内核看,这一次百度是将百度大脑的优势技术语音识别和机器翻译功能拿出来优先赋能罗技,其2019年百度推出并上线使用的流式多级的截断注意力模型SMLTA,已经令中文语音识别率达到98.6%,且可以同时实现中英文混合识别、方言混合识别。
在机器翻译方面,百度已经支持203个语种的准确翻译,现在每天响应超过千亿字符的翻译请求,相当于2000部大英百科全书。而百度提出的语义单元驱动的AI同传模型,已经达到了与人类相当的翻译水平。
再说第二个因素。实际上,「智能鼠标」既是满足需求也是创造需求。
一方面,「智能鼠标」在学习、游戏、商务场景下,可以很好的满足用户跨语种的交流需要,譬如游戏、商务邮件。
另一方面,对于小孩、老人、视觉障碍人群等日常打字输入比较不方便的群体,语音输入显然更方便,这又是「智能鼠标」创造需求的一种体现。
而且,得益于百度AI技术的加持,VOICE M380在输入效率上语音输入每分钟可高达400字,而多数打字员的输入则为80-200字每分钟。
无疑,具备语音识别服务的VOICE M380,可以使用户摆脱大量敲击键盘产生的疲劳感,轻松实现所说即所得。
搞明白了好不好用和给谁用这两个因素,再回过头看这一次百度AI对罗技的赋能,实际上是一次典型的定制化AI技术输出,说明百度AI的技术落地已经可以实现模块化运作,更具灵活性的按需输出。同时,「智能鼠标」这样的新物种出现,也是对其它硬件设备的一种启示,万物皆可AI,万物皆可语音。
而且,就双方宣布的信息来看,罗技旗下的设备还将继续接入百度AI的技术,进而实现全面的智能化升级。2
为什么是百度?
2019年11月28日,在百度大脑语音能力引擎论坛上,百度CTO王海峰博士对外公布了一组数据,百度大脑语音能力引擎日均调用量已经超过100亿次。
而只过了不到一年时间,到2020年7月,这个数字就已超过155亿次。
这155亿次的语音能力调用量,除了百度App、百度地图、小度音箱、百度输入法等百度产品外,更多是来自被百度AI开放平台赋能的产业公司。
在百度AI开放平台官网,可以在「合作伙伴」这一栏下找到多达220家大大小小的公司,这些公司无一不是利用百度AI技术实现产业改造和升级。
而与语音技术有关的公司,可以举两个比较典型的案例,一个是创维电视,另一个是瓴岳科技信贷。
大屏IoT的行业痛点在于信息检索难和设备控制操作复杂,而如果增加语音交互能力,则相当于重构了整个AIoT设备生态的交互体验。基于百度AI技术,创维已经在10个电视芯片型号、2500万台电视上为消费者提供语音交互功能。
瓴岳科技信贷将百度大脑的语音技术应用在贷后领域,依托百度大脑呼叫中心实时语音识别等AI服务对用户语音的准确识别,瓴岳打造了降本提效的智能机器人。通过贷后智能机器人、智能语音质检的应用,贷后人力投入降低61.47%,有效实现了合规和高效的运营体系,提高了客户体验。
这次百度将百度大脑所具备优势的语音识别和实时翻译技术拿出来,全面赋能于罗技键盘、鼠标产品,也是百度首次通过罗技鼠标,在PC端实现了中英文自由夹杂语音输入。
而这也恰恰说明,百度AI的技术落地具有足够的灵活性。并且,通过这一次赋能罗技,外界也能清晰的感受到,AI所带来的产业升级和改造,并不仅仅是满足现有需求,更多的是创造需求,这就意味着传统硬件设备在AI技术加持下,能够产生新的溢价价值。
当然,迫切想要实现产业智能化改造和升级的合作伙伴,仍要看AI技术提供商的「底色」。
单以语音识别服务来说,作为国内AI领域的头雁,百度的语音技术无论从准确率还是识别速度角度,对比市面上其他的一些产品都是具备优势的,而且百度还针对罗技桌面级的场景进行了单独的优化和适配,具备较强技术壁垒。
而所谓的优势,无疑正是百度自研的鸿鹄芯片。
去年4月百度发布了自研的鸿鹄芯片,语音唤醒率更高,尤其高噪声下首次唤醒率提升10%以上,语音语义识别也更准确,识别错误率平均降低30%,同时待机功耗更低,相比传统芯片下降90%。
换句话说,今天的语音技术竞争已经从云端开始向端侧芯片延伸,而一颗芯片完成端侧信号处理和唤醒成为一个明显的市场需求。
这种AI语音芯片能够显著降低音箱的成本,并且提供更高精度的唤醒和识别能力。在汽车车载导航领域,AI语音芯片可以保证主芯片的负载安全,提升驾驶安全。
2020年,百度在智能音箱、车载导航和智能电视控制方面,落地了百度鸿鹄语音芯片。
3
结尾
实际上,罗技VOICE M380鼠标并不是市面上唯一的语音交互鼠标产品,早在几年前讯飞、小米、联想等品牌也推出过类似的产品。而百度与上述企业有所不同,作为语音技术服务提供商,百度已经跳出了技术输出这一阶段,它所提供的服务已经是一站式AIOT语音解决方案。
譬如在TCL发布的C12量子点Mini LED智屏上,"度家-AIOT语音语义平台"不仅为TCL提供语音识别单项调用服务,还提供语音语义全链路调用以及设备管理功能。
这或许是百度与其他语音技术服务提供商的最大区别之一,也是罗技选择百度的理由之一。
但从科技产业的变革来看,语音交互将是未来十年甚至二十年的主要内容。
市场调研机构Strategy Analytics此前发布报告称,到2023年,全球智能家居市场规模将达到1570亿美元,而语音交互作为智能家居的底层交互系统之一,无疑将会得到空前的普及。
与此同时,在汽车电动化的进程中,车载语音也将成为一个汽车的标准化产品。所以,语音技术的未来发展想象空间是非常大的。
而百度作为中国AI发展的标杆、AI新型基础设施,正持续对外输出领先AI技术,加速产业智能化升级。
百度与罗技在发布会上还提到,基于百度大脑技术引擎,在未来将持续推动更多百度AI技术赋能罗技各类优秀硬件设备。
这也让我们有所期待,AI技术可以全面落实在人们的衣食住行各个方面,未来用户在每个场景都能享受到百度AI带来的便利。
(审核编辑: 智汇小新)