百度大脑远场语音开发套件评测—快速上手,超赞语音交互体验
二、开发测试
本次测试环境为Ubuntu 16.04 64ibt 虚拟机,开发平台是RK3308。
登陆开发板后,可以进入/oem 目录,里面有开发相关说明以及一些测试示例。
(一)连接设备
1、安置在 adb 环境:sudo apt install adb
snow@snow-machine:~$ sudo apt install adb
正在读取软件包列表... 完成
正在分析软件包的依赖关系树
正在读取状态信息... 完成
下列软件包是自动安装的并且现在不需要了:
snapd-login-service xdg-desktop-portal xdg-desktop-portal-gtk
使用'sudo apt autoremove'来卸载它(它们)。
将会同时安装下列软件:
android-libadb android-libbase android-libcutils android-liblog
下列【新】软件包将被安装:
adb android-libadb android-libbase android-libcutils android-liblog
升级了 0 个软件包,新安装了 5 个软件包,要卸载 0 个软件包,有 6 个软件包未被升级。
需要下载 141 kB 的归档。
解压缩后会消耗 428 kB 的额外空间。
您希望继续执行吗? [Y/n] y
已下载 141 kB,耗时 2秒 (48.3 kB/s)
正在选中未选择的软件包 android-liblog。
(正在读取数据库 ... 系统当前共安装有 215288 个文件和目录。)
正准备解包 .../android-liblog_1%3a6.0.1+r16-3_amd64.deb ...
正在解包 android-liblog (1:6.0.1+r16-3) ...
正在选中未选择的软件包 android-libbase。
正准备解包 .../android-libbase_1%3a6.0.1+r16-3_amd64.deb ...
正在解包 android-libbase (1:6.0.1+r16-3) ...
正在选中未选择的软件包 android-libcutils。
正准备解包 .../android-libcutils_1%3a6.0.1+r16-3_amd64.deb ...
正在解包 android-libcutils (1:6.0.1+r16-3) ...
正在选中未选择的软件包 android-libadb。
正准备解包 .../android-libadb_1%3a6.0.1+r16-3_amd64.deb ...
正在解包 android-libadb (1:6.0.1+r16-3) ...
正在选中未选择的软件包 adb。
正准备解包 .../adb_1%3a6.0.1+r16-3_amd64.deb ...
正在解包 adb (1:6.0.1+r16-3) ...
正在处理用于 libc-bin (2.23-0ubuntu11) 的触发器 ...
正在处理用于 man-db (2.7.5-1) 的触发器 ...
正在设置 android-liblog (1:6.0.1+r16-3) ...
正在设置 android-libbase (1:6.0.1+r16-3) ...
正在设置 android-libcutils (1:6.0.1+r16-3) ...
正在设置 android-libadb (1:6.0.1+r16-3) ...
正在设置 adb (1:6.0.1+r16-3) ...
正在处理用于 libc-bin (2.23-0ubuntu11) 的触发器 ...
2、查看安装结果:adb version
3、查看硬件是否连接:adb devices
4、连接硬件:adb shell
(二)WIFI连接
1、进入/data/cfg 进行wifi配置:cd /data/cfg
使用 vi 编辑 wpa_supplicant.conf:vi wpa_supplicant.conf
在设置好 wpa_supplicant.conf 后,可以通过如下命令来重新联网
注意:第一次操作,调用 wpa_cli reconfigure 命令出错
切换联网命令:wpa_supplicant -B -i wlan0 -c
虽然显示操作成功,但是查看网络连接,发现还是未成功连接(可以看到wlan0并未显示IP地址):
重启系统(如果一次不行,可以进行多次重启),最后成功了(可以看到wlan0显示了分配的IP地址-192.168.1.110)
(三)运行语音识别示例
进入/oem目录,查看语音能力相关文件: cd oem
查看文档说明:cat readme.txt
根据文档,相关文件应该在data目录下,但是实际操作发现,相关文件在oem目录下,故进入oem目录,执行操作:
主要是运行以下四个命令(该命令是修改权限,启动 alsa_audio_main_service服务,根据说明书,使用语音识别功能需要先启动alsa服务):
执行上述命令后,可使用ps命令检测alsa服务是否正确启动:ps –A|grep alsa
根据说明书,BDSpeechSDK 目录下的sample目录中包含语音识别示例,由于语音识别运行时依赖lib、resources、extern目录中的库及资源文件,所以我们需要在启动时共享库。
进入目录,运行语音识别示例:
喊“小度小度,今天天气怎么样”的识别结果:
可以发现,本开发套件采用了流式识别,附带中间结果!
(四)语音识别效果测试
通过距离远近,语速快慢,中间是否有隔离物(隔离物为电脑桌,显示屏)等方式,对本开发套件进行了一次粗略的测试:
一米处:
有隔离:“一米一次唤醒测试”
有隔离,语速较快:“一米二次唤醒测试”
有隔离,语速较快:“今天天气怎么样”
无隔离,正常语速:“一米三次唤醒测试”
无隔离,语速较快:“今天天气怎么样”
2米处:(无隔离,正常语速)
“两米一次唤醒测试"
“两米二次唤醒测试”
“天天气比较凉爽”
3米处:(无隔离,正常语速)
“三米一次唤醒测试”
“三米二次唤醒测试”
“听说明天有台风”
5米处:(无隔离,正常语速)
“五米一次唤醒”
“五米二次唤醒”
“台风来了怎么办”
6米处:(无隔离,正常语速)
注:首先需要较大声唤醒小度,唤醒后,可识别正常音量的声音:
“六米一次唤醒”
“六米二次唤醒”
“今天天气好晴朗”
测试结果:
经过上述的语音识别测试,可以发现,本套件在5米内可以达到比较良好的唤醒、识别效果,超过5米后,唤醒、识别效果下降比较明显。
另外,对于一般性的用语,识别相当准确(即使达到6米,也能比较准确的识别),但是对于读音相近的词语(“一米”-“玉米”,“两米”-“杨幂”等),识别准确性就有点差了(也可能跟发音有关)。
发音源跟套件之间是否有隔离物(非完全隔离),对识别的影响不是很大(没有读音的影响大)。
语速不是很快的情况下,一般也能正常识别。
总体而言,对识别结果影响较大的,除了距离外,就是读音相近的词语(发音)了。
最新活动更多
-
即日-12.26立即报名>>> 【在线会议】村田用于AR/VR设计开发解决方案
-
1月8日火热报名中>> Allegro助力汽车电气化和底盘解决方案优化在线研讨会
-
即日-1.16立即报名>>> 【在线会议】ImSym 开启全流程成像仿真时代
-
即日-1.24立即参与>>> 【限时免费】安森美:Treo 平台带来出色的精密模拟
-
2月28日火热报名中>> 【免费试用】东集技术年终福利——免费试用活动
-
4日10日立即报名>> OFweek 2025(第十四届)中国机器人产业大会
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论