Quora-检测两个问题是否重复

分享给好友

剩余奖金 ¥ 2,364

立即报名

立即报名

大赛简介

此数据集是Quora网站公开的数据集,包含了40万条数据。每条数据由两个看起来相似的问题及问题是否重复的标签组成。该数据集可用来训练具有判断能力的NLP模型。

参赛须知

参赛时间: 本次竞赛无时间限制,长期有效开放

如何参赛?

  • 请在项目详情页点击【立即报名】按钮,首次需验证手机号、完善报名信息
  • 请点击本页的【资料下载】按钮,下载参赛资料并详细阅读README.md文件

参赛选手说明

  • 参赛人员身份信息需保证真实、有效,大赛主办方仅将个人信息用于赛事数据授权及颁奖使用
  • 欢迎海内外的在校学生,算法工程师和所有AI爱好者参与
  • 本次竞赛报名形式:以个人形式本地提交作品线上审核,并且以最终提交算法得分作为唯一有效成绩
  • 报名成功后请加入FlyAI竞赛交流群,一起学习进步!重要通知也将在群内发布,不要错过哦

比赛作品说明

  • 最终比赛成绩以排行榜显示排名为准
  • 根据作品提交时间先后顺序进行人工审核,审核合格后提交至排行榜
  • 禁止私下与参赛选手分享代码,查出相似代码(包括微调参数)成绩无效
  • 多个账号提交相似代码,成绩无效
  • 同一用户多开账号提交相似代码,成绩无效
  • 不同账号在不同项目中提交相似代码,双方成绩无效
  • 禁止使用外部链接下载代码替换本项目代码
  • 如有发现利用非正常手段作弊行为,奖金一律不发放。之前所获得奖金金额官方有权收回,情节严重者封号处理

大赛奖项设置

奖项说明:

奖项设置 获奖人数 奖金额度说明(按最终得分评判)
参与奖(总奖金30%) 所有人 不同得分区间获得相应的竞赛奖金
突破奖(总奖金20%) 所有人 更新排行榜得分,获取相应竞赛奖金
排名奖(总奖金50%) 第一周/月前3名(冠、亚、季军) 项目上线第一周、第一个月; Time_P(周) = 0.5,Time_P(月) = 0.5;K1=0.5,K2=0.3,K3=0.2;
不同框架奖励 所有人 获得60FAI币用于GPU训练资源消耗

备注:

  • 上线时间:2019-04-25
  • 周排行奖结算时间:2019-05-02 15:00:00;月排名奖结算时间:2019-05-25 15:00:00
  • 奖金获取标准:80<Score 按照得分比例获取奖金
  • 获得奖金分为3部分:参与奖、突破奖为审核完毕实时获取的奖金,排名奖需在规定时间结束后根据排名顺序获得
  • Bouns表示为:奖金池总金额;Score表示为:模型得分;
  • 【参与奖】相同得分区间无法再次获得奖励
  • 各项奖金获得计算公式参考如下:
  • 参与奖(Participation Award)
  • R表示:得分的区间系数;T表示为:相同得分区间得分人数;
  • 100-标准分:分为5个区间系数;R1(0.02),R2(0.08),R3(0.15),R4(0.25),R5(0.5)
  • 奖金计算公式1
  • 突破奖(Prizes)
  • N表示:第N次更新排行榜;Prizes_N-1表示:排行榜更新后已发放的突破奖金
  • 奖金计算公式2
  • 排名奖(Ranking Award)
  • Time_p表示:相关截止日期的奖金发放系数;K表示:每次发放排行榜前三名的分配系数;
  • 奖金计算公式3

赛事主题和数据说明

赛题描述

通过实现算法并提交训练,获取奖金池奖金。小提示:抢先更新算法排行榜,有更大机会获取高额奖金哦!

数据来源

DuplicatedQusetions

数据描述

字段说明:

字段名 字段类型 取值区间 字段描述
question1 string 不为空 第一个问题
question2 string 不为空 第二个问题
labels int 大于等于 0, 小于等于 1 问题是否重复

输入字段: question1, question2,

输出字段: labels,

参考文献:

[1]http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

评审标准

评审指标说明

  • 准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
  • True,表示预测正确的样本数数量
  • Total Number of Samples,表示实际总样本数数量
  • 计算公式如下:

比赛常见问题说明

Q:如何查看数据集?

  • 请在【赛事主题和数据描述>数据来源】点击文字链接查看原始数据集

Q:如何顺利提交作品并训练?

  • 请查看本详情页右侧栏提交指南代码命令提示,根据flyai命令提交作品并训练

Q:提交样例代码是否可获得比赛奖金?

  • 不可以。样例代码仅供开发者学习参考,如提交相似代码,不会通过人工审核且无法获取奖励

展开

排行榜

(每日 24 时更新)

1

提供者:八级大狂风

261.00

batch数据为512,循环次数为100次,损失函数优化完,最终完成评分为87.58。

2019-04-28 21:39:30

261.00

87.58

2

提供者:KK1557441412

batch数据为1024,循环次数为5000次,损失函数优化完,最终完成评分为79.92。

2019-05-14 15:49:33

79.92

3

提供者:baseline

batch数据为256,循环次数为6000次,损失函数优化完,最终完成评分为79.87。

2019-04-27 16:05:19

79.87

4

提供者:huaiandaieren

batch数据为512,循环次数为6000次,损失函数优化完,最终完成评分为79.51。

2019-05-13 00:03:56

79.51

5

提供者:菜菜来了

batch数据为1024,循环次数为3000次,损失函数优化完,最终完成评分为77.53。

2019-05-01 20:59:49

77.53

6

提供者:沙雕网友

batch数据为256,循环次数为3000次,损失函数优化完,最终完成评分为75.55。

2019-05-09 03:09:53

75.55

7

提供者:www

batch数据为1024,循环次数为6000次,损失函数优化完,最终完成评分为74.19。

2019-04-29 14:54:35

74.19

8

提供者:Joshua

batch数据为512,循环次数为8000次,损失函数优化完,最终完成评分为73.83。

2019-04-29 18:41:36

73.83

9

提供者:yphacker

batch数据为256,循环次数为6000次,损失函数优化完,最终完成评分为73.75。

2019-04-30 18:44:07

73.75

10

提供者:zhiduanqingchang

batch数据为128,循环次数为3000次,损失函数优化完,最终完成评分为73.44。

2019-05-02 06:29:45

73.44

11

提供者:Daiccccc

batch数据为256,循环次数为3000次,损失函数优化完,最终完成评分为72.62。

2019-04-26 08:15:36

72.62

12

提供者:ChangeBio

batch数据为64,循环次数为3000次,损失函数优化完,最终完成评分为71.5。

2019-04-30 16:41:09

71.50

13

提供者:叫我培基就好了

batch数据为256,循环次数为3000次,损失函数优化完,最终完成评分为70.93。

2019-04-28 11:59:37

70.93

14

提供者:hhy

batch数据为256,循环次数为3000次,损失函数优化完,最终完成评分为70.45。

2019-05-03 09:48:04

70.45

15

提供者:江枫渔火

batch数据为32,循环次数为2400次,损失函数优化完,最终完成评分为69.98。

2019-04-26 19:10:10

69.98

16

提供者:lyming

batch数据为128,循环次数为2000次,损失函数优化完,最终完成评分为68.45。

2019-04-29 20:40:09

68.45

17

提供者:哇咔咔

batch数据为256,循环次数为500次,损失函数优化完,最终完成评分为67.73。

2019-04-29 23:01:42

67.73

18

提供者:打脸啪啪啪

batch数据为128,循环次数为2000次,损失函数优化完,最终完成评分为67.46。

2019-04-30 11:16:15

67.46

19

提供者:Songsong

batch数据为512,循环次数为1000次,损失函数优化完,最终完成评分为66.34。

2019-04-29 23:18:03

66.34

20

提供者:心如止水

batch数据为300,循环次数为50次,损失函数优化完,最终完成评分为63.16。

2019-05-15 23:18:45

63.16

21

提供者:No.7

batch数据为32,循环次数为10次,损失函数优化完,最终完成评分为63.16。

2019-05-05 17:44:38

63.16

22

提供者:墨写流年

batch数据为64,循环次数为300次,损失函数优化完,最终完成评分为63.16。

2019-05-20 14:31:06

63.16

23

提供者:我要拿钱

batch数据为20,循环次数为32次,损失函数优化完,最终完成评分为63.16。

2019-05-12 15:40:23

63.16

24

提供者:xinlofi

batch数据为32,循环次数为1000次,损失函数优化完,最终完成评分为63.16。

2019-04-28 13:01:11

63.16

25

提供者:丶favor

batch数据为256,循环次数为5000次,损失函数优化完,最终完成评分为51.05。

2019-04-26 21:09:01

51.05

万元奖金等你拿,挑战者,都在 FlyAI

点击立即报名

下载参赛资料

挑战者大赛 官方交流群

训练记录

你还没有任何提交记录喔...

使用指南

windows用户

客户端模式:

1. 下载项目并解压
2.进入到项目目录下,双击执行flyai.exe程序

第一次使用需要使用微信扫码登录

杀毒软件可能会误报,点击信任该程序即可

3.本地开发调试

运行flyai.exe程序,点击"本地调试"按钮,输入循环次数和数据量,点击运行即可调用main.py

如果使用本地IDE开发,需要执行安装“flyai”依赖并导入项目,运行main.py

4.下载本地测试数据

运行flyai.exe程序,点击"下载数据"按钮,程序会下载100条调试数据

4.提交训练到GPU

运行flyai.exe程序,点击"提交到GPU"按钮,输入循环次数和数据量,点击运行即可提交到GPU训练。

返回sucess状态,代表提交离线训练成功

训练结束会以微信和邮件的形式发送结果通知

命令行模式:

1. 下载项目并解压
2. 打开运行,输入cmd,打开终端

Win+R 输入cmd

3. 使用终端进入到项目的根目录下

首先进入到项目对应的磁盘中,然后执行

cd path\to\project

Windows用户使用 flyai.exe

4. 本地开发调试

执行下列命令本地安装环境并调试(第一次使用需要使用微信扫码登录)

flyai.exe test

执行test命令,会自动下载100条测试数据到项目下

安装项目所需依赖,并运行 main.py

如果使用本地IDE开发,可以自行安装 requirements.txt 中的依赖,运行 main.py 即可

5.提交训练到GPU

项目中如有新的引用,需加入到 requirements.txt 文件中

在终端下执行

flyai.exe train

返回sucess状态,代表提交离线训练成功

训练结束会以微信和邮件的形式发送结果通知

完整训练设置执行代码示例:

flyai.exe train -b=32 -e=100

通过执行训练命令,本次训练循环 100 次,每次训练读取的数据量为 32 。

Mac和Linux用户

1. 下载项目并解压
2. 使用终端进入到项目的根目录下

cd /path/to/project

Mac和Linux用户使用 ./flyai 脚本文件

3. 初始化环境并登录

授权flyai脚本

chmod +x ./flyai

4. 本地开发调试

执行下列命令本地安装环境并调试(第一次使用需要使用微信扫码登录)

./flyai test 注意:命令前面不要加sudo

执行test命令,会自动下载100条测试数据到项目下

安装项目所需依赖,并运行 main.py

如果使用本地IDE开发,可以自行安装 requirements.txt 中的依赖,运行 main.py 即可

5.提交训练到GPU

项目中如有新的引用,需加入到 requirements.txt 文件中

在终端下执行

./flyai train 注意:命令前面不要加sudo

返回sucess状态,代表提交离线训练成功

训练结束会以微信和邮件的形式发送结果通知

完整训练设置执行代码示例:

./flyai train -b=32 -e=100

通过执行训练命令,本次训练循环 100 次,每次训练读取的数据量为 32 。

$vue{ errorTip }

发送样例至我的邮箱

已发送

已发送成功

请查收FlyAI官方邮件查看详情 根据样例提高算法评分可以获得积分奖励 用来兑换GPU训练时长

确定

$vue{flag?'报名成功!':'参赛温馨提示'}

感谢您的参与!点击 下载资料 并及时提交您的作品

您在当前领域能力值未达到参赛标准,
请选择符合能力标准的项目哦!

下载资料

打开微信,使用扫一扫功能分享给好友