清华普通话Thch-30语音识别竞赛

分享给好友

立即报名

立即报名

项目简介

THCHS30是由清华大学语音与语言技术中心(CSLT)录制的开放式中文语音数据库。原创录音于2002年,由朱晓燕教授,在清华大学计算机科学系智能与系统重点实验室监督下进行。13年后的音频由王东博士发起,并得到了朱晓燕教授的支持。希望为语音识别领域的新研究人员提供训练数据。训练集大小为25h音频,10000个句子,198252个词;测试集大小为6h音频,2495个句子,49085个词。

数据描述

字段说明:

字段名 字段类型 取值区间 字段描述
audio_path file_path 大于等于 0, 小于等于 673 音频文件相对路径
label string 大于等于 0, 小于等于 75 音频文件对应的中文

输入字段:

audio_path,

输出字段:

label,

数据集来源: THCHS30

附加文件:

名称 描述
vector.json 中文的词向量
words.json 中文的词汇表

奖励说明

1.总积分
- 本项目总积分为 INIT = 280000 FAI
2.积分获取计算方式
- 所获积分均为整数
- 根据【Score】得分值做为奖励基本依据
- FAI(N)表示该项目中用户第N次更新得分获得的积分数量(详见下方计算公式)
3.积分获取规则
- 获得的积分奖励均为整数值
- 不超过项目中现有的【Score】,无法获得积分奖励
- 由FlyAI提供的样例得分作为基准得分值,需超过基准得分才可以参与
- 通过更新项目的【Score】获得奖励.值越接近 100 ,获得的积分奖励相应也会越高
4.额外奖励机制
- 通过使用不同类型的深度学习框架提交算法,可额外获得FAI值奖励
- 上传的算法模型,其他用户成功下载后可额外获得FAI值奖励!奖励额度根据【Score】得分浮动计算

计算公式

排行榜

(每日 24 时更新)

暂无排行喔~不要急,马上就会有

万元奖金等你拿,挑战者,都在 FlyAI

点击立即报名

下载参赛资料

挑战者大赛 官方交流群

训练记录

你还没有任何提交记录喔...

使用指南

1. 下载项目并解压
2. 使用终端进入到项目的根目录下

cd /path/to/project

Mac和Linux用户使用 ./flyai 脚本文件

3. 初始化环境并登录

授权flyai脚本

chmod +x ./flyai

下载完成之后,执行下列命令并使用微信扫码登录

./flyai init

登录成功之后,会自动下载运行所需环境

4. 本地开发调试

执行

./flyai test

安装项目所需依赖,并运行 main.py

如果使用本地IDE开发,可以自行安装 requirements.txt 中的依赖,运行 main.py 即可

5.提交训练到GPU

项目中如有新的引用,需加入到 requirements.txt 文件中

在终端下执行

./flyai train

返回sucess状态,代表提交离线训练成功

训练结束会以微信和邮件的形式发送结果通知

默认训练成功后不公开在项目排行榜中,公开项目需在提交训练时执行

./flyai train -p=1

完整训练设置执行代码示例:

./flyai train -p=1 -b=32 -e=100

通过执行训练命令,本次训练循环 100 次,每次训练读取的数据量为 32 ,公开提交模型

$vue{ errorTip }

发送样例至我的邮箱

已发送

已发送成功

请查收FlyAI官方邮件查看详情 根据样例提高算法评分可以获得积分奖励 用来兑换GPU训练时长

确定

报名成功!

感谢您的参与!点击 下载资料 并及时提交您的作品

下载资料

打开微信,使用扫一扫功能分享给好友