自然语言处理

自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言处理的主要范畴:文本朗读;语音识别;中文自动分词;词性标注;句法分析;自然语言生成;文本分类;信息检索;信息抽取;文字校对;问答系统;机器翻译;自动摘要;文字蕴涵;命名实体识别。来源:维基百科

排名奖金

医疗智能问答

可报名

奖金池 ¥ 40,000

人工智能技术在越来越多的医疗场景中体现出应用价值,医疗问答是自然语言处理领域的一个重要的方向,旨在让用户直接用自然语言提问并获得答案。通过建立可靠的算法模型,帮助用户缩短等待专业医生解决问题的问诊时间,同时在业务方面减少问诊医生的时间成本,协助问诊医生提供基础、可靠的问诊回复率。

179

阅读 28.3k

练习比赛

AI医疗—智能问答

可报名

奖金池 ¥ 0

医疗问答机器人非常适合解决医疗市场的长期低效率问题,在降低成本、减少医生时间负担的同时,能够将患者对自己病症的描述与标准医学知识库进行对比,从而完成患者导诊、问诊等服务。另外也能进行健康咨询以及“自我诊断”,通过症状、病史等描述获取轻问诊服务和用药指导以供参考。 24×7在线,能及时解决患者一些紧急问题。

4

阅读 22.9k

练习比赛

仇恨言论识别

可报名

奖金池 ¥ 5,000

此数据集包含25000多条推文内容。仇恨言论识别任务:查看短文,并确定它是否为 0(包含仇恨言论),1(冒犯性的,但没有仇恨言论),2(一点也没有冒犯性)。

练习比赛

ATEC-问题相似度计算练习赛(内置BERT)

可报名

奖金池 ¥ 4,000

ATEC-问题相似度计算是由蚂蚁金服主办的赛题,在智能客服业务场景中提升用户体验、高效问题匹配、减轻客服压力等方面具有重要的价值。 基于对问题相似度计算研究,FlyAI为优秀的算法研究者提供此类赛题并通过FlyAI训练框架内置Google BERT 预训练模型。以客服业务为切入点,与大家一起探讨在自然语言处理领域的研究价值、普惠金融领域的商业发展价值。 Google BERT简介:2018年谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。
简单 自然语言处理
语义相似度

0

阅读 11.4k

实时奖金

医疗文本分类

可报名

奖金池 ¥ 3,000

人工智能技术在越来越多的医疗场景中体现出应用价值,医疗文本分类是借助深度学习的技术优势,根据文本的特征将其分到预先设定的类别中。在解决医疗诊断任务的情况下必须满足预测模型的准确性,对数据的处理能力,对诊断结果的解释能力,保证最终结果的一个可靠性。

排名奖金

耶鲁文本转SQL

可报名

奖金池 ¥ 3,000

本赛题主要是英文文本转SQL任务,要求参赛者建立准确的模型识别自然语言意图达到数据的准确查询。本数据集是由11名耶鲁学生注释的大规模数据,它由200个数据库中的10,181个问题和5,693个唯一复杂SQL查询组成,其中多个表覆盖138个不同的域。

算法大赛

心理对话问答挑战赛

可报名

20,000元奖金+证书+企业内推

心理对话问答挑战赛是由测测APP主办的NLP领域算法挑战竞赛,本次比赛主要是针对心理学领域的单轮问答式对话进行研究。 人机对话在NLP领域是一项重要的研究分支,从技术上来说具有挑战性与趣味性。在AI+的科技创新背景下,测测以AI技术在心理领域的深度融合应用为企业目标,广发英雄帖邀请各界算法科学家前来参赛、研究。 本次赛题要求参赛者通过语义理解、合理文本生成等技术的实现,构建精准的算法模型,推动“AI+心理”的技术突破创新。

实时奖金

中文微博的立场检测

可报名

奖金池 ¥ 5,000

本次立场检测任务旨在自动确定微博作者对某一话题赞成给定topic(FAVOR),反对给定topic(AGAINST),或者两者都不是(NONE)。注意到给定topic可能不在微博文本中。这意味着立场检测不同于传统的目标检测/部分情绪分析。

实时奖金

中文的命名实体识别

可报名

奖金池 ¥ 5,000

命名实体识别,英文简称NER,主要任务是识别文本中具有特定意义的实体,主要包括人名、地名、机构名称、专有的名词等,以及关于时间、数量、货币、比例数值等文字。
简单 自然语言处理
命名实体识别

4

阅读 25.9k

实时奖金

中文垃圾短信识别

可报名

奖金池 ¥ 5,000

此数据集包含80万条中文短信,内容涉及广告、推销、生活等。 垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息,或用户不能根据自己的意愿拒绝接收的短信息,主要包含以下属性:(一)未经用户同意向用户发送的商业类、广告类等短信息;(二)其他违反行业自律性规范的短信息。垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。通过查看短信,确定它是否是垃圾短信 0)非垃圾短信,1)垃圾短信

实时奖金

社交网站消息内容分类

可报名

奖金池 ¥ 2,500

此数据集包含超过10000条社交平台Twitter上的推文,其中包括对一些'着火'、'隔离'、'混乱'等关键词的搜索,判断推文内容是否涉及灾难性的事件(这里排除对一些文字、电影评论或者非灾难事件等开玩笑的内容)。

实时奖金

用户商场评价情感分析

可报名

奖金池 ¥ 1,000

此数据集涵盖了24 万家餐馆,54 万用户,440 万条评论/评分数据。每条数据包含用户对餐馆的四个维度的评分(总体,环境,口味,服务),评分为从1到5的整数。该数据集适合做推荐系统、情感/观点/评论 倾向性分析
简单 自然语言处理
情感分类树

1

阅读 16.8k

实时奖金

Stanford-Sentiment-Treebank 情感分析

可报名

奖金池 ¥ 5,000

随着我们越来越多地通过社交网络分享这些观点,一个结果是创造了大量的情感储备,如果系统地分析,可以提供关于我们在产品,个性和问题方面的集体喜好和不喜欢的线索。 这个项目由斯坦福大学的研究生 Richard Socher 发起,在构建 NaSent 的过程中,Socher 和他的团队从烂番茄网站拿来了 1.2万 个句子,将其拆分为 21.4 万个短语,标记为非常消极、消极、中性、积极、非常积极等,然后将这些数据输入系统之中,并以此为基础对句子做分析。
中等 自然语言处理
情感分类树

0

阅读 18.8k

实时奖金

中文阅读理解练习赛

可报名

奖金池 ¥ 2,000

该数据集提供一个中文问题并列出与其有关联的句子描述,建立判断模型并从列出的所有句子中正确选择一个或多个具有相关联的句子作为答案. 数据格式为:提供的问题(第一列),问题的相对应句子(第二列),以及他们的答案注释(第三列);如果文档句子是问题的正确答案,则其注释将为1,否则其注释将为0。 所有数据集文件都以UTF-8编码。
简单 自然语言处理
文本相似度

1

阅读 12.7k

实时奖金

COLA 英文句子可理解性分类

可报名

奖金池 ¥ 5,000

完整句式的英文句子语料库(COLA)代表是可以被正常人听得懂的可接受语料,由语言学专家标记为可理解和不可理解的10657个英文句子组成。
中等 自然语言处理
文本可接受度

0

阅读 12.6k

实时奖金

今日头条新闻分类

可报名

奖金池 ¥ 2,000

今日头条中文新闻(文本)分类数据集由今日头条客户端提供,共计382688条数据,15个分类。 分类code:民生/文化/娱乐/体育/财经/房产/汽车/教育/科技/军事/旅游/国际/证券/农业/电竞

实时奖金

Quora-检测两个问题是否重复

可报名

奖金池 ¥ 3,000

此数据集是Quora网站公开的数据集,包含了40万条数据。每条数据由两个看起来相似的问题及问题是否重复的标签组成。该数据集可用来训练具有判断能力的NLP模型。
简单 自然语言处理
文本相似度

0

阅读 15.3k

实时奖金

美国点评网站Yelp评价预测赛

可报名

奖金池 ¥ 5,000

该数据集包含美国15万用户对18万家企业的100万条点评,涵盖超过140万个商业属性,包括营业时间,停车位,便利性和环境等等。每条数据包括企业名称,位置,属性和类别

练习比赛

搜狗新闻文本分类预测

可报名

奖金池 ¥ 2,000

该数据集来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。根据新闻正文内容分析新闻的类别