10年专注热水器设备研发产品质量有保 售后7×24小时服务
24小时咨询热线:4006666666
联系我们
热水器设备有限公司
全国免费服务热线:4006666666
地址 :中国·北京
联系人:陈经理
您的位置: 首页>>热门话题>>正文
热门话题

由于数据集的格式不同,需要进行一些清理,包括在WAV文件下生成相应的标记文件

时间:2023-03-06 作者:admin666ss 点击:57次

由于项目的频繁更新,请参阅项目下方的REAMME以了解该项目的详细介绍

没有10级卷积无法解决的问题。

如果有的话,添加10层,添加残差,添加。。

添加星星!

一个完整的语音识别框架,包括数据清理界面、数据读取界面、语音模型与声学模型的集成,以及一系列到UI的过程

目前,拼音声学部分的识别精度已经相对较高,但在语言模型中仍有许多问题有待解决。我希望这个项目可以是开源的,我们可以一起努力提高它的效果。

对于一些常用的数据集,数据接口易于使用和实现。在下载、解压缩和更改配置文件中的路径后,可以执行清理方法以自动获取所有音频和注释

它集成了当前开源项目中的几个模型,并训练相应的模型文件

详细的注释和清晰的代码,易于学习和修改

识别率仍然是一个大痛点,从语音到拼音的识别率可以有80%左右甚至更多,但有100%的正确识别概率,从拼音到汉字的正确识别率可能更低,但也有100%正确识别的概率,这与环境语言速度有关

包装有点死气沉沉,取出模型单独使用可能会很麻烦

蟒蛇

距离

解霸

凯拉斯

藏红花

努米

拼音

python语音功能

松软的

张量流

苏拉克

派杜布

打开Web链接并仅下载与链接名称对应的文件

超过10000个语音文件,大约40小时。内容主要由文章和诗歌组成,都是女性的声音。出版

超过100000个语音文件,大约100多个小时。内容通常是在线语音聊天和智能语音控制句子,有855个不同的说话人,男女语音同时出现,适合各种场景。

它包含大约100小时的中文语音数据。该语料库记录在296部以英语为母语的智能手机上。传输精度大于98%,可靠性为95%。转录本和传出消息之间的映射以JSON形式给出。

Wiki数据集

原始文件大小为1.6g。压缩文件大小为519M。数据更新时间为2019.2.7

在配置中,设置相应的语言路径和根路径

由于数据集的格式不同,需要进行一些清理,包括在WAV文件下生成相应的标记文件

数据清理完成后,只能选择性地清理数据集的一部分

拼音由空格分隔。忽略汉字的所有空格、字母和数字

您可以获得以下格式的输出:

由于找不到更多单词的时间,所以只写了洗维基的方法:

该清洁将花费2天以上的时间,并产生约2000W的语料库

对下载的数据集进行计数,并输出适当的信息和图像。否则,控制台将输出以下内容:。

确认数据清理后,执行:确认文件并取消对要训练的模型代码的注释

在运行之前,请小心打开文件并重命名模型

该项目构建了一个简单的UI,封装了识别

为了更好地理解项目架构,我将在这里介绍一些

读者可以读取各种数据集并提供数据生成器类

包含用于CTC、丢失和解码方法的软件包

谷氨酸

Muti_ gpu听说它可以在多个gpu上进行真正的并行计算,所以它没有尝试

根据实现自己模型的基类规范编写的base_model基类非常容易构建模型,并且数据集和训练过程被完美封装

培训演示

实际使用测试

简单的卷积网络性能较差,已被废弃

Mapmap:提供三个字典,即拼音-索引字符-索引汉字-索引,可以相互转换,支持listbatch三级转换

其他:小工具中也有临时的东西…不要写

可读性可能有点差,但实际上功能相当强大

吐痰清理,速度正常,普通话标注,部分识别效果可以接受,大部分拼音都可以准确识别,但语言模式仍然较差

开源中文语音识别项目介绍:ASRFrame_第1张图片 由于数据集的格式不同,需要进行一些清理,包括在WAV文件下生成相应的标记文件 热门话题

坦率地说,我没想到我的模型会如此有效。我真的很惊讶。

在这种情况下,它是superfit,但模型的实际使用将影响效果。或者数据集过于同质

开源中文语音识别项目介绍:ASRFrame_第2张图片 由于数据集的格式不同,需要进行一些清理,包括在WAV文件下生成相应的标记文件 热门话题

开源中文语音识别项目介绍:ASRFrame_第3张图片 由于数据集的格式不同,需要进行一些清理,包括在WAV文件下生成相应的标记文件 热门话题

开源中文语音识别项目介绍:ASRFrame_第4张图片 由于数据集的格式不同,需要进行一些清理,包括在WAV文件下生成相应的标记文件 热门话题

它至今仍在运行。所有数据集的损失减少到约15,准确率稳定在75%

这是反向应用程序。在发现SOMiAO输入法的结构工作得非常好之后,我将其移至声学模型部分,并构建了这样一个模型

我还没有运行,正在等待更新

目前,该模型已停止维护,相关培训代码无法保证运行

这个模型实际上借用了SOMiAO输入法,参考了Keras版本的网络结构,原始版本有700多万个参数,我去掉了GRU,减少了样条线层数,将参数减少到300万以下,发现它仍然有很好的效果。

开源中文语音识别项目介绍:ASRFrame_第5张图片 由于数据集的格式不同,需要进行一些清理,包括在WAV文件下生成相应的标记文件 热门话题

开源中文语音识别项目介绍:ASRFrame_第6张图片 由于数据集的格式不同,需要进行一些清理,包括在WAV文件下生成相应的标记文件 热门话题

同时,如果噪声系统地添加到由声学模型错误识别的拼音中,则关节模型可能工作得更好。我还没试过

拼音词典是从ASRT获得的词典,它删除所有汉字并在选定的五个数据集中进行测试,添加一些与拼音无关的声音。

此外,在培训期间删除了以下词语:。

而且剧本中有很多奇怪的新词,如果不删除可能会出错。建议您更改脚本路径并删除脚本

这些词中的大多数都是有见地的词,味道不好扔掉,但我个人认为最好删除它们

由于未知原因,SOMM模型的训练可以大致报告50000批次的错误停止,而没有错误代码提示,因为问题的具体原因尚不清楚,这里提出的解决方案是基于预先训练的模型继续训练

然而,由于语言模型的训练是从大量语言材料中读入的,因此必须从一开始就读出再训练,因为以后的语言材料训练可能不可能,因此存在问题。

因此,建议将其拆分为较小的语言,以便可以训练所有语言。在Linux中,您可以使用split命令进行拆分,但这里没有指定

音素词典的构建以音素为粒度训练模型

基于声学模型,在语言模型的语言材料中加入随机噪声

试试其他型号

提高用户界面代码的可读性

部署语言识别服务器

该项目于2019年5月22日启动,不时查看一些数据。2019年6月19日正式启动,2019年7月13日结束。项目仍存在一些问题。这就是说,我在待办事项清单上写下了,我认为这是我所有项目中最好的一个。

当前语音识别的开源环境非常糟糕,尤其是在Python语言中。我希望我的项目能为语音识别的开源环境做出一点贡献,并帮助有需要的人。我很高兴能做到这一点。


相关推荐

发表评论