ATEC-问题相似度计算练习赛(内置BERT)

分享给好友

2019-05-10 15:00:00
开始提交

2019-06-09 15:00:00
最终提交结束

自由训练

参赛权限提示

当前赛题需能力值达到 $vue{itemranking} 才可以正常提交训练哦~

当前赛题仅允许 600 能力值以下的新手可以正常提交训练哦~

报名参赛

下载当前代码

您可使用自己熟悉的编辑器实现算法并通过命令行
提交任务到FlyAI云端训练。确认下载体验吗?

$vue{upDataType ? '上传样例压缩包' : '上传代码压缩包' }

请将代码文件压缩为zip格式,文件大小不超过10M 提示:请确认删除"data"⽂件夹后进行上传操作

将文件拖拽至此处或点击此处选择文件

$vue{complete < 99 ? '上传中' : '上传完成'} $vue{complete}

$vue{fileName}
线上GPU运行环境:
FlyAl推荐如下配置,如有问题可手动添加或修改!

GPU环境

深度学习框架

其它依赖

提交
提交

提交确认

设置好参数后点击“确定“发布GPU训练任务

EPOCHS

BATCH SIZE

绑定你的微信账号

用于本地环境登录和实时接收训练通知

打开微信,使用扫一扫功能分享给好友

绑定你的微信账号

用于本地环境登录和实时接收训练通知

温馨提示

$vue{csv_msg}

知道了
提交结果文件

$vue{csvName == '' ? '仅支持上传 CSV 格式的文件' : csvName+' 上传中...'}

$vue{csvName}上传成功
取消 确认提交

提交成功

系统正在测评您的结果文件,

您可通过右侧【我的提交-查看记录详情】进行查看

知道了
  • 赛事介绍
  • 竞赛排行榜
  • 自由练习榜单
  • 讨论($vue{comment_count})
  • 学习资源

$vue{item.rank_name}

大赛简介

ATEC-问题相似度计算是由蚂蚁金服主办的赛题,在智能客服业务场景中提升用户体验、高效问题匹配、减轻客服压力等方面具有重要的价值。

基于对问题相似度计算研究,FlyAI为优秀的算法研究者提供此类赛题并通过FlyAI训练框架内置Google BERT 预训练模型。以客服业务为切入点,与大家一起探讨在自然语言处理领域的研究价值、普惠金融领域的商业发展价值。

Google BERT简介:2018年谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。

赛事主题和数据说明

赛题描述

通过实现算法并提交训练,获取奖金池奖金。小提示:抢先更新算法排行榜,有更大机会获取高额奖金哦!

数据来源

ATEC

数据描述

由于需要提交代码作品在云端进行训练,参赛数据集不对外开放。仅提供调试数据。

字段说明:

文件名 字段名称 字段类型 备注
id int 不为空 序号
texta string 不为空 文本1
textb string 不为空 文本2
label int 不为空 分类标签

参考文献:

[1]atec-text-similarity

[2]BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

评审标准

算法输入输出格式

输入字段: texta, textb,

输出字段: label,

评审指标说明

  • 准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
  • True,表示预测正确的样本数数量
  • Total Number of Samples,表示实际总样本数数量
  • 计算公式如下:
超过 85分 的成绩会在48小时内更新到排行榜,不要着急哦!
第三名

Notturno

暂未公开
batch数据为32,循环次数为20次,通过在线上环境完成训练,模型最优精度评分为85.68。

2019-07-22 17:08:48

暂未公开
第三名

444444

大神经验
batch数据为48,循环次数为5000次,通过在线上环境完成训练,模型最优精度评分为85.66。

2019-06-04 17:50:48

1007.00

大神经验
第三名

NLP-Learner

暂未公开
batch数据为100,循环次数为6次,通过在线上环境完成训练,模型最优精度评分为85.42。

2019-06-05 15:25:48

602.50

暂未公开
4

丶人狠话不多

暂未公开
batch数据为48,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为85.28。

2019-05-27 12:54:28

406.00

暂未公开
5

云中漫步的云彩

大神经验
batch数据为64,循环次数为5000次,通过在线上环境完成训练,模型最优精度评分为85.15。

2019-05-25 16:05:23

233.00

大神经验
6

麦小杨

暂未公开
batch数据为256,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为83.48。

2019-07-15 09:53:59

暂未公开
7

ChangeBio

暂未公开
batch数据为128,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为82.03。

2019-05-12 19:22:39

暂未公开
8

未名湖畔的落叶

暂未公开
batch数据为128,循环次数为5次,通过在线上环境完成训练,模型最优精度评分为82.00。

2019-07-12 19:01:37

暂未公开
9

彼得·帕克

暂未公开
batch数据为50,循环次数为2000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-10 21:34:09

暂未公开
10

Bin

暂未公开
batch数据为64,循环次数为10000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-12 01:25:47

暂未公开
11

天才一小本

暂未公开
batch数据为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-13 16:07:58

暂未公开
12

流浪的星星

暂未公开
batch数据为32,循环次数为64次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-14 15:07:44

暂未公开
13

DDBG

暂未公开
batch数据为64,循环次数为2000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-14 17:48:35

暂未公开
14

普六茹那罗延

暂未公开
batch数据为64,循环次数为4000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-14 21:40:17

暂未公开
15

菜菜来了

暂未公开
batch数据为16,循环次数为2000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-16 19:01:01

暂未公开
16

Frank1554103461

暂未公开
batch数据为64,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-17 05:52:32

暂未公开
17

大木淡漠

暂未公开
batch数据为16,循环次数为2000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-18 19:39:28

暂未公开
18

sixgod

暂未公开
batch数据为16,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-19 16:42:11

暂未公开
19

盼盼1558167739

暂未公开
batch数据为32,循环次数为320次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-20 22:06:29

暂未公开
20

huaiandaieren

暂未公开
batch数据为64,循环次数为5000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-22 19:06:05

暂未公开
21

Daiccccc

暂未公开
batch数据为40,循环次数为5000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-05-24 15:15:29

暂未公开
22

x

暂未公开
batch数据为32,循环次数为2000次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-06-01 20:36:37

暂未公开
23

阿良

暂未公开
batch数据为62,循环次数为2次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-06-05 11:59:14

暂未公开
24

trickornot

暂未公开
batch数据为32,循环次数为1500次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-06-09 04:58:56

暂未公开
25

暂未公开
batch数据为64,循环次数为100次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-06-10 14:34:49

暂未公开
26

Sun.R@in

暂未公开
batch数据为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-06-14 16:07:56

暂未公开
27

德鲁

暂未公开
batch数据为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-06-18 09:20:52

暂未公开
28

是眼缘不是演员

暂未公开
batch数据为32,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-06-19 23:34:58

暂未公开
29

朱!倩倩

暂未公开
batch数据为50,循环次数为200次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-07-20 10:10:36

暂未公开
30

changli

暂未公开
batch数据为16,循环次数为60次,通过在线上环境完成训练,模型最优精度评分为81.99。

2019-07-23 08:43:21

暂未公开
31

C

暂未公开
batch数据为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为81.70。

2019-05-27 15:19:13

暂未公开
32

lyming

暂未公开
batch数据为32,循环次数为1000次,通过在线上环境完成训练,模型最优精度评分为81.57。

2019-05-10 20:06:36

暂未公开
33

chris_zhang

暂未公开
batch数据为64,循环次数为100次,通过在线上环境完成训练,模型最优精度评分为68.26。

2019-06-18 20:09:12

暂未公开
34

暂未公开
batch数据为64,循环次数为3次,通过在线上环境完成训练,模型最优精度评分为42.89。

2019-08-12 19:54:53

暂未公开
35

一梦南柯

暂未公开
batch数据为32,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为18.02。

2019-06-19 21:39:53

暂未公开
36

gboy

暂未公开
batch数据为16,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为18.01。

2019-05-10 18:43:50

暂未公开
第一名
changli 2019-10-31 02:21:07
2019-10-31 02:21:07
85.67
第二名
yphacker 2019-08-22 15:59:05
2019-08-22 15:59:05
82.44
第三名
弱鸡瑟瑟发抖 2020-01-21 14:33:57
2020-01-21 14:33:57
82.25
4
天才一小本 2019-08-21 04:14:35
2019-08-21 04:14:35
81.99
5
Tulipa 2019-08-22 23:27:41
2019-08-22 23:27:41
81.99
6
cl 2019-08-25 00:02:33
2019-08-25 00:02:33
81.99
7
梦想家 2019-09-10 20:15:38
2019-09-10 20:15:38
81.99
8
早餐奶 2019-09-12 10:21:05
2019-09-12 10:21:05
81.99
9
向凌阳 2019-09-22 16:12:55
2019-09-22 16:12:55
81.99
10
此方一泉 2019-09-25 17:10:18
2019-09-25 17:10:18
81.99
11
EndlessLethe 2019-10-07 00:11:31
2019-10-07 00:11:31
81.99
12
远方1570513997 2019-10-09 13:18:10
2019-10-09 13:18:10
81.99
13
天雨龙马 2019-10-14 22:58:33
2019-10-14 22:58:33
81.99
14
郑行 2019-10-16 16:24:45
2019-10-16 16:24:45
81.99
15
许稳堂 2019-10-21 12:05:01
2019-10-21 12:05:01
81.99
16
rairu 2019-11-13 10:00:39
2019-11-13 10:00:39
81.99
17
路通 2019-11-14 14:52:18
2019-11-14 14:52:18
81.99
18
2019-11-22 14:15:02
2019-11-22 14:15:02
81.99
19
赵勇 2019-11-25 09:09:08
2019-11-25 09:09:08
81.99
20
xxl 2019-11-29 09:43:11
2019-11-29 09:43:11
81.99
21
charlenellll 2019-12-03 18:02:18
2019-12-03 18:02:18
81.99
22
wmqian 2019-12-15 10:18:46
2019-12-15 10:18:46
81.99
23
于斌 2020-03-13 17:53:01
2020-03-13 17:53:01
81.99
24
力口贝世因心 2020-04-15 21:49:54
2020-04-15 21:49:54
81.99
25
江小林 2020-04-19 18:13:46
2020-04-19 18:13:46
81.99
26
菜鸟报到 2020-11-11 19:44:56
2020-11-11 19:44:56
81.99
27
陈志坚 2020-11-19 20:05:54
2020-11-19 20:05:54
81.99
28
yasuo 2020-12-23 17:29:43
2020-12-23 17:29:43
81.99
讨论
500字
表情
发送
删除确认
是否删除该条评论?
取消 删除
$vue{item.user_name}

$vue{item.title} $vue{item.title}

$vue{items}
$vue{item.like_count}
$vue{item.comment_counts}
$vue{item.comment_counts}
阅读 $vue{item.views}

这里还没有内容哦

挑战者大赛 官方交流群

我的记录

你还没有任何提交记录喔...

  • 参赛流程
  • 常见问题

第一步:参赛选手从FlyAI官网选择比赛报名,需下载样例代码

下载的项目中不包含数据集,运行main.py会自动下载调试数据集

本地调试根据不同数据集会提供10%~100%数据,全量数据提交到GPU后会自动更新替换

下载样例代码,解压后在样例代码上编写自己的模型代码,压缩后再在上传代码位置进行上传,就可以查看自己得分。

第二步:本地代码调试

本地配置Python3.5以上的运行环境,并安装项目运行所需的Python依赖包 app.json是项目的配置文件

在main.py中编写神经网络,没有框架限制

在prediction.py测试模型是否评估成功

main.py中需在class Main(FlyAI) 类中实现自己的训练过程

第三步:提交到GPU训练,保存模型

本地调试完成之后,提交代码到GPU,在全量数据上训练模型,保存最优模型。

提交GPU的方式有:网站在线提交。

第四步:评估模型,获取奖金,实时提现

GPU训练完成后,会调用prediction.py中的predict方法进行评估,并给出最后得分

高分的参赛选手,可实时获取奖金,通过微信提现

Q:如何获得奖金?

A:超过项目设置的最低分,根据公式计算,就可以获得奖金。

Q:比赛使用什么框架?

A:比赛支持常用的机器学习和深度学习框架,比如TensorFlow,PyTorch,Keras,Scikit-learn等。

Q:怎么参加比赛,需不需要提交csv文件?

A:FlyAI竞赛平台无需提交csv文件,在网页上点击报名,下载项目,使用你熟练的框架,修改main.py中的网络结构和数据处理,在prediction.py中进行加载模型及预测。将代码文件压缩为.zip格式,文件大小不超过10M,之后在网站进行在线提交就可以了。

Q:比赛排行榜分数怎么得到的?

A:参加项目竞赛必须实现 prediction.py 中的predict方法。调用模型得出评分。

Q:平台机器什么配置?

A:目前每个训练独占一块V100显卡,显存10G。

Q:本地数据集在哪?

A:可以本地使用ide运行 main.py 下载数据。

Q:FAI训练积分不够用怎么办?

A:目前GPU免费使用,可以进入到:我的积分,通过签到和分享等途径获得大量积分。

Q:离线训练代码不符合规范问题?

A:main.py中可以使用args.EPOCHS和args.BATCH。