Quora-检测两个问题是否重复

分享给好友

剩余奖金 ¥ 1,757

报名参赛

体验云端免费GPU极速训练,还能赢奖⾦!

报名参赛

大赛简介

此数据集是Quora网站公开的数据集,包含了40万条数据。每条数据由两个看起来相似的问题及问题是否重复的标签组成。该数据集可用来训练具有判断能力的NLP模型。

参赛须知

参赛时间: 本次竞赛无时间限制,长期有效开放

参赛方式

  • 方式一:
  • 在线查看样例根据FlyAI样例模版实现算法并使用云端免费GPU进行模型训练获得最终成绩得分
  • 方式二:
  • 下载FlyAI样例模版进行本地调试并提交到云端使用免费GPU进行模型训练获得最终成绩得分,在本地进行代码调试的教程请查看[文档中心]

参赛选手说明

  • 参赛人员身份信息需保证真实、有效,大赛主办方仅将个人信息用于赛事数据授权及颁奖使用
  • 欢迎海内外的在校学生,算法工程师和所有AI爱好者参与
  • 本次竞赛报名形式:以个人形式本地提交作品线上审核,并且以最终提交算法得分作为唯一有效成绩
  • 在比赛截止日期前,团队中成绩最高分作为本团队的最终成绩
  • 报名成功后请加入FlyAI竞赛交流群,一起学习进步!重要通知也将在群内发布,不要错过哦

比赛作品说明

  • 最终比赛成绩以排行榜显示排名为准
  • 根据作品提交时间先后顺序进行人工审核,审核合格后提交至排行榜
  • 禁止使用外部链接下载代码替换本项目代码
  • 提交的代码具备可解释性并且其它开源框架可复现
  • 所有相似代码将一律不通过审核!!情况多次出现者封号处理
  • 如有发现利用非正常手段作弊行为,奖金一律不发放。之前所获得奖金金额官方有权收回,情节严重者封号处理
  • 提交代码即视为阅读并同意以上比赛作品说明

大赛奖项设置

奖项说明:

奖项设置 获奖人数 奖金额度说明(按最终得分评判)
参与奖(总奖金30%) 所有人 不同得分区间获得相应的竞赛奖金
突破奖(总奖金20%) 所有人 更新排行榜得分,获取相应竞赛奖金
排名奖(总奖金50%) 第一周/月前3名(冠、亚、季军) 项目上线第一周、第一个月; Time_P(周) = 0.5,Time_P(月) = 0.5;K1=0.5,K2=0.3,K3=0.2;
不同框架奖励 所有人 获得60FAI币用于GPU训练资源消耗

备注:

  • 上线时间:2019-04-25
  • 周排行奖结算时间:2019-05-02 15:00:00;月排名奖结算时间:2019-05-25 15:00:00
  • 奖金获取标准:80<Score 按照得分比例获取奖金
  • 获得奖金分为3部分:参与奖、突破奖为审核完毕实时获取的奖金,排名奖需在规定时间结束后根据排名顺序获得
  • Bouns表示为:奖金池总金额;Score表示为:模型得分;
  • 【参与奖】相同得分区间无法再次获得奖励
  • 各项奖金获得计算公式参考如下:
  • 参与奖(Participation Award)
  • R表示:得分的区间系数;T表示为:相同得分区间得分人数;
  • 100-标准分:分为5个区间系数;R1(0.02),R2(0.08),R3(0.15),R4(0.25),R5(0.5)
  • 奖金计算公式1
  • 突破奖(Prizes)
  • N表示:第N次更新排行榜;Prizes_N-1表示:排行榜更新后已发放的突破奖金
  • 奖金计算公式2
  • 排名奖(Ranking Award)
  • Time_p表示:相关截止日期的奖金发放系数;K表示:每次发放排行榜前三名的分配系数;
  • 奖金计算公式3

赛事主题和数据说明

赛题描述

通过实现算法并提交训练,获取奖金池奖金。小提示:抢先更新算法排行榜,有更大机会获取高额奖金哦!

数据来源

DuplicatedQusetions

数据描述

由于需要提交代码作品在云端进行训练,参赛数据集不对外开放。仅提供调试数据,可通过使用本地调试的方式获取调试数据集。本地调试和提交指南请查看[文档中心]

字段说明:

文件名 字段名称 字段类型 备注
question1 string 不为空 第一个问题
question2 string 不为空 第二个问题
labels int 大于等于 0, 小于等于 1 问题是否重复

参考文献:

[1]http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

评审标准

算法输入输出格式

输入字段: question1, question2,

输出字段: labels,

评审指标说明

  • 准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
  • True,表示预测正确的样本数数量
  • Total Number of Samples,表示实际总样本数数量
  • 计算公式如下:

比赛常见问题说明

Q:比赛使用什么框架?

  • 比赛支持常用的机器学习和深度学习框架,比如TensorFlow,PyTorch,Keras,Scikit-learn、MXNet、PaddlePaddle等。

Q:怎么参加比赛,需不需要提交CSV文件?

  • FlyAI竞赛平台提供免费云端GPU资源,报名后可以使用自己熟练的框架,修改main.py中的网络结构和processor.py中的数据处理;仅部分赛题支持CSV方式提交,请仔细阅读参赛方式相关内容。

Q:比赛排行榜分数怎么得到的?

  • 参加项目竞赛必须实现 model.py 中的predict_all方法。系统通过该方法,调用模型得出评分。

展开

  • 竞赛排行榜
  • 奖金记录
  • 讨论($vue{comment_count})
超过 80分 的成绩会在48小时内更新到排行榜,不要着急哦!
讨论
500字
表情
每日优质讨论奖励 20FAI
发送
每日优质讨论奖励 20FAI
删除确认
是否删除该条评论?
取消 删除
第三名

提供者:凉心半浅良心人

64.75

batch数据为64,循环次数为3次,损失函数优化完,最终完成评分为90.23。

2019-07-27 15:47:11

64.75

90.23

第三名

提供者:chenfengshf

4.22

batch数据为32,循环次数为10次,损失函数优化完,最终完成评分为89.1。

2019-10-11 00:51:32

4.22

89.10

第三名

提供者:NLP-Learner

147.50

batch数据为128,循环次数为4次,损失函数优化完,最终完成评分为88.87。

2019-06-05 11:18:46

147.50

88.87

4

提供者:唱跳RAP打篮球

636.00

batch数据为512,循环次数为100次,损失函数优化完,最终完成评分为87.58。

2019-04-28 21:39:30

636.00

87.58

5

提供者:liuchenxu

2.25

batch数据为256,循环次数为300次,损失函数优化完,最终完成评分为83.37。

2019-11-29 06:37:56

2.25

83.37

6

提供者:壹心壹翼科技_LIN

4.50

batch数据为32,循环次数为5次,损失函数优化完,最终完成评分为82.89。

2019-11-27 12:15:10

4.50

82.89

7

提供者:未名湖畔的落叶

9.00

batch数据为32,循环次数为32次,损失函数优化完,最终完成评分为82.24。

2019-07-23 19:38:05

9.00

82.24

8

提供者:cyh12315

1.13

batch数据为128,循环次数为50次,损失函数优化完,最终完成评分为81.22。

2020-03-30 18:21:13

1.13

81.22

9

提供者:KK1557441412

batch数据为1024,循环次数为5000次,损失函数优化完,最终完成评分为79.92。

2019-05-14 15:49:33

79.92

10

提供者:trick_or_treat

batch数据为256,循环次数为6000次,损失函数优化完,最终完成评分为79.87。

2019-04-27 16:05:19

79.87

11

提供者:huaiandaieren

batch数据为512,循环次数为6000次,损失函数优化完,最终完成评分为79.51。

2019-05-13 00:03:56

79.51

12

提供者:树泉

batch数据为92,循环次数为20次,损失函数优化完,最终完成评分为78.44。

2019-12-28 09:05:04

78.44

13

提供者:DaBing

batch数据为6,循环次数为1次,损失函数优化完,最终完成评分为78.2。

2020-03-05 23:46:10

78.20

14

提供者:菜菜来了

batch数据为1024,循环次数为3000次,损失函数优化完,最终完成评分为77.53。

2019-05-01 20:59:49

77.53

15

提供者:444444

batch数据为48,循环次数为3次,损失函数优化完,最终完成评分为76.19。

2019-06-12 17:48:52

76.19

16

提供者:Doson Leung

batch数据为32,循环次数为3次,损失函数优化完,最终完成评分为75.82。

2020-02-22 18:54:06

75.82

17

提供者:沙雕网友

batch数据为256,循环次数为3000次,损失函数优化完,最终完成评分为75.55。

2019-05-09 03:09:53

75.55

18

提供者:某某

batch数据为512,循环次数为512次,损失函数优化完,最终完成评分为75.02。

2019-07-16 23:00:14

75.02

19

提供者:www

batch数据为1024,循环次数为6000次,损失函数优化完,最终完成评分为74.19。

2019-04-29 14:54:35

74.19

20

提供者:Joshua

batch数据为512,循环次数为8000次,损失函数优化完,最终完成评分为73.83。

2019-04-29 18:41:36

73.83

21

提供者:yphacker

batch数据为256,循环次数为6000次,损失函数优化完,最终完成评分为73.75。

2019-04-30 18:44:07

73.75

22

提供者:zhiduanqingchang

batch数据为128,循环次数为3000次,损失函数优化完,最终完成评分为73.44。

2019-05-02 06:29:45

73.44

23

提供者:Daiccccc

batch数据为256,循环次数为3000次,损失函数优化完,最终完成评分为72.62。

2019-04-26 08:15:36

72.62

24

提供者:弱鸡瑟瑟发抖

batch数据为64,循环次数为2000次,损失函数优化完,最终完成评分为71.66。

2020-01-30 03:00:55

71.66

25

提供者:ChangeBio

batch数据为64,循环次数为3000次,损失函数优化完,最终完成评分为71.5。

2019-04-30 16:41:09

71.50

26

提供者:Notturno

batch数据为128,循环次数为20次,损失函数优化完,最终完成评分为71.16。

2019-06-24 06:02:50

71.16

27

提供者:flyai会员1577688705

batch数据为64,循环次数为3次,损失函数优化完,最终完成评分为71.01。

2020-01-07 00:41:55

71.01

28

提供者:叫我培基就好了

batch数据为256,循环次数为3000次,损失函数优化完,最终完成评分为70.93。

2019-04-28 11:59:37

70.93

29

提供者:hhy

batch数据为256,循环次数为3000次,损失函数优化完,最终完成评分为70.45。

2019-05-03 09:48:04

70.45

30

提供者:江枫渔火

batch数据为32,循环次数为2400次,损失函数优化完,最终完成评分为69.98。

2019-04-26 19:10:10

69.98

31

提供者:lyming

batch数据为128,循环次数为2000次,损失函数优化完,最终完成评分为68.45。

2019-04-29 20:40:09

68.45

32

提供者:哇咔咔

batch数据为256,循环次数为500次,损失函数优化完,最终完成评分为67.73。

2019-04-29 23:01:42

67.73

33

提供者:打脸啪啪啪

batch数据为128,循环次数为2000次,损失函数优化完,最终完成评分为67.46。

2019-04-30 11:16:15

67.46

34

提供者:Songsong

batch数据为512,循环次数为1000次,损失函数优化完,最终完成评分为66.34。

2019-04-29 23:18:03

66.34

35

提供者:xinlofi

batch数据为32,循环次数为100次,损失函数优化完,最终完成评分为63.16。

2019-04-27 21:33:11

63.16

36

提供者:No.7

batch数据为32,循环次数为10次,损失函数优化完,最终完成评分为63.16。

2019-05-05 17:44:38

63.16

37

提供者:夏天好热

batch数据为20,循环次数为32次,损失函数优化完,最终完成评分为63.16。

2019-05-12 15:40:23

63.16

38

提供者:心如止水

batch数据为300,循环次数为50次,损失函数优化完,最终完成评分为63.16。

2019-05-15 23:18:45

63.16

39

提供者:C

batch数据为256,循环次数为32次,损失函数优化完,最终完成评分为63.16。

2019-06-04 11:33:21

63.16

40

提供者:练字不能停

batch数据为1000,循环次数为3000次,损失函数优化完,最终完成评分为63.16。

2019-06-23 22:38:15

63.16

41

提供者:王翔

batch数据为32,循环次数为10次,损失函数优化完,最终完成评分为63.16。

2019-07-09 19:48:58

63.16

42

提供者:张咸鱼

batch数据为32,循环次数为100次,损失函数优化完,最终完成评分为63.16。

2019-07-10 11:03:55

63.16

43

提供者:Godning

batch数据为32,循环次数为5次,损失函数优化完,最终完成评分为63.16。

2019-07-11 15:48:15

63.16

44

提供者:JesseYule

batch数据为128,循环次数为30次,损失函数优化完,最终完成评分为63.16。

2019-09-13 21:07:31

63.16

45

提供者:AzilFlace

batch数据为128,循环次数为50次,损失函数优化完,最终完成评分为63.16。

2019-11-25 09:20:02

63.16

46

提供者:flyai会员1575685841

batch数据为64,循环次数为10次,损失函数优化完,最终完成评分为63.16。

2019-12-07 21:07:12

63.16

47

提供者:丶人狠话不多

batch数据为256,循环次数为5000次,损失函数优化完,最终完成评分为51.05。

2019-04-26 21:09:01

51.05

48

提供者:Rose何不言

batch数据为500,循环次数为1次,损失函数优化完,最终完成评分为43.77。

2019-12-28 13:50:06

43.77

49

提供者:xiaojing

batch数据为2048,循环次数为5次,损失函数优化完,最终完成评分为22.91。

2020-03-06 13:01:35

22.91

2020-03-30
cyh12315

模型得分为80.49,本次获得实时奖励奖金为1.13

2020-03-30 14:17:34

2019-11-29
liuchenxu

模型得分为83.25,本次获得实时奖励奖金为2.25

2019-11-29 10:33:57

2019-11-28
壹心壹翼科技_LIN

模型得分为82.89,本次获得实时奖励奖金为4.5

2019-11-28 14:23:09

2019-10-11
chenfengshf

模型得分为89.1,本次获得实时奖励奖金为4.22

2019-10-11 14:09:03

2019-07-29
凉心半浅良心人

模型得分为90.23,本次获得实时奖励奖金为6

2019-07-29 14:02:30

凉心半浅良心人

模型得分为89.97,本次获得实时奖励奖金为25

2019-07-29 12:34:19

凉心半浅良心人

模型得分为88.62,本次获得实时奖励奖金为33.75

2019-07-29 11:37:31

2019-07-24
未名湖畔的落叶

模型得分为80.51,本次获得实时奖励奖金为9

2019-07-24 10:54:42

2019-06-06
NLP-Learner

模型得分为88.87,本次获得实时奖励奖金为147.5

2019-06-06 10:46:49

2019-05-25
唱跳RAP打篮球

模型得分为87.58,本次获得排名奖奖金为375

2019-05-25 15:00:02

2019-05-06
唱跳RAP打篮球

模型得分为87.58,本次获得排名奖奖金为225

2019-05-06 15:00:02

2019-04-30
唱跳RAP打篮球

模型得分为84.32,本次获得实时奖励奖金为36

2019-04-30 17:50:36

挑战者大赛 官方交流群

训练记录

你还没有任何提交记录喔...

使用指南

  • windows客户端
  • windows命令行
  • Mac/Linux

1.进入代码编辑页下载当前代码

2.本地解压缩代码包文件,双击执行 flyai.exe 程序

第一次使用需要使用微信扫码登录 杀毒软件可能会误报,点击信任该程序即可

3.开启 FlyAI-Jupyter 代码调试环境

运行flyai.exe程序,点击"使用jupyter调试"按钮自动打开jupyter lab 操作界面

运行 run main.py 命令即可在本地训练调试代码

如果出现 No Model Name "xxx"错误,需在 requirements.txt 填写项目依赖

4.下载本地测试数据

运行flyai.exe程序,点击"下载数据"按钮,程序会下载100条调试数据

5.提交训练到GPU

运行flyai.exe程序,点击"提交GPU训练"按钮,代码将自动提交到云端GPU进行训练

返回sucess状态,代表提交离线训练成功,训练结束会以微信和邮件的形式发送结果通知

项目中有新的Python包引用,必须在 requirements.txt 文件中指定包名,不填写版本号将默认安装最新版

更多参赛帮助请查看文档中心

1.进入代码编辑页下载当前代码

2.打开运行,输入cmd,打开终端

Win+R 输入 cmd

3.使用终端进入到项目的根目录下

cd path\to\project

4.开启 FlyAI-Jupyter 代码调试环境

在终端执行命令 flyai.exe ide 打开调试环境(第一次使用需要使用微信扫码登录)

操作过程有延迟,请耐心等待

运行 run main.py 命令即可在本地训练调试代码

如果出现 No Model Name "xxx"错误,需在 requirements.txt 填写项目依赖

5.提交训练到GPU

在FlyAI-Jupyter环境下运行 !flyai.exe train 将代码提交到云端GPU免费训练

返回sucess状态,代表提交离线训练成功,训练结束会以微信和邮件的形式发送结果通知

项目中有新的Python包引用,必须在 requirements.txt 文件中指定包名,不填写版本号将默认安装最新版

6.下载本地测试数据

首次成功执行本地调试命令后,将在本地代码包中自动生成"data"数据集文件夹

7.使用自己的Python环境

flyai.exe path=xxx 可以设置自己的Python路径

flyai.exe path=flyai 恢复系统默认Pyton路径

更多参赛帮助请查看文档中心

1.进入代码编辑页下载当前代码

2.使用终端进入到项目的根目录下

cd path\to\project

3.初始化环境登录

使用如下命令授权 flyai 脚本: chmod +x ./flyai

4.开启 Jupyter 代码调试环境

在终端执行命令 ./flyai ide 打开调试环境(第一次使用需要使用微信扫码登录) 操作过程有延迟,请耐心等待

运行 run main.py 命令即可在本地训练调试代码

如果出现 No Model Name "xxx"错误,需在 requirements.txt 填写项目依赖

或使用终端

执行下列命令本地安装环境并调试

./flyai test 注意:如果出现 permission denied 错误,需使用sudo运行

如果出现 No Model Name "xxx"错误,需在 requirements.txt 填写项目依赖

执行test命令,会自动下载100条测试数据到项目下

如果使用本地IDE开发,可以自行安装 requirements.txt 中的依赖,运行 main.py 即可

5.提交训练到GPU

在FlyAI-Jupyter环境下运行 !./flyai train 将代码提交到云端GPU免费训练 返回sucess状态,代表提交离线训练成功,训练结束会以微信和邮件的形式发送结果通知

或者在终端下使用 ./flyai train -b=32 -e=10

项目中有新的Python包引用,必须在 requirements.txt 文件中指定包名,不填写版本号将默认安装最新版

6.下载本地测试数据

首次成功执行本地调试命令后,将在本地代码包中自动生成"data"数据集文件夹

7.使用自己的Python环境

./flyai path=xxx 可以设置自己的Python路径

./flyai path=flyai 恢复系统默认Pyton路径

更多参赛帮助请查看文档中心

$vue{ errorTip }

发送样例至我的邮箱

已发送

已发送成功

请查收FlyAI官方邮件查看详情 根据样例提高算法评分可以获得积分奖励 用来兑换GPU训练时长

确定

$vue{flag?'报名成功!':'参赛温馨提示'}

通过迭代赛题的样例代码提高模型准确率哦~
准确率越高,奖励越丰富!

查看样例代码

⼤神你好!当前能⼒值⽆法参加新⼿手赛

多给新手一些机会哦~

查看样例代码

打开微信,使用扫一扫功能分享给好友

绑定你的微信账号

用于本地环境登录和实时接收训练通知
参赛提示


申请参赛资格请扫描上方二维码联系FlyAI客服

当前赛题您未在 24小时内 报名参加
参赛资格已失效,如有疑问请联系FlyAI客服

当前赛题您未在 48小时内 提交有效成绩
参赛资格已失效,如有疑问请联系FlyAI客服

参加其他比赛
提交结果文件
提示:每次提交需消耗 10 FAI

仅支持上传 CSV 格式的文件

$vue{csvName}上传成功
取消 确认提交

评估成绩得分

$vue{csv_data.score}
$vue{csv_data.lable}
关闭结果

报名前需认证

请先完成个人的身份信息认证后再报名哦!

取消 前往认证
报名确认
报名参与本场比赛前请仔细阅读并勾选竞赛协议,点击确定报名即可报名成功!

参赛者须同意如下保密规则:

1.保密信息范围:平台方向参赛者披露或提供的全部信息,以及参赛者因参加本次大赛从平台方处获得、知晓所得的商业秘密和其他所有非第三方所知的信息,包括但不限于 :

(1)平台方提供的图片、语音、数据、代码等;

(2)平台方从第三方处获得但应承担保密义务的数据、信息;

(3)其他通常不为平台方以外的人所知晓、未在公共领域被正式公开的数据、信息;

2.参赛者保证仅按照平台方的指定要求在指定区域及系统内使用保密信息于参赛的合理目的使用,参赛者不得以不符合平台方要求的方式获取、使用保密信息,不得以任何形式向任何第三方泄露、披露、传播、出售、转让或用于任何商业用途及其用途等。

3.参赛者认可上述所有信息为平台方的保密信息,参赛者同意对平台方的上述保密信息严格保密,并采取所有必要的保密措施,不得向公众披露此等保密信息或向第三方披露此等保密信息。

4.参赛者承诺不发表对平台方及大赛举办等的任何不利言论,并不会在任何场合以及向任何媒体、网络等途径发表或泄露参赛者在参加大赛过程中知晓的保密信息、商业秘密等,否则,平台方有权取消参赛者的参赛资格、获得奖金等,且参赛者应对平台方造成的全部损失进行赔偿。

5.参赛者同意平台方有权随时对参赛者是否存在违约进行审查,参赛者未经授权而进行保密信息的使用或披露都将给平台方造成的损失和侵害,除所有法定的赔偿外,平台方将有权基于合理的判断而对任何实际或可能发生的违反保密条款的行为,向有管辖权的人民法院申请救济。参赛者应就违约行为而对平台方可能受到的全部损失、侵害,包括但不限于实际损失、可得利益和律师费用承担足额的赔偿责任。

如您不同意本协议,请不要进行任何后续操作;否则视为您已了解并完全同意本协议各项内容,本协议即在您和FlyAI之间产生法律效力。

滑动下拉阅读保密规则并勾选同意《FlyAI竞赛参赛协议》
确定报名
确定报名