时间:2025-07-29 作者:游乐小编
本文介绍讯飞学术论文分类挑战赛的Paddle版本Baseline,提交分数0.8+。赛题为英文长文本分类,含5W篇训练论文(带类别)和1W篇测试论文(需预测类别)。Baseline基于PaddleHub预训练模型微调,包括数据读取处理(拼接标题和摘要等)、模型构建(选ernie_v2_eng_large等)、训练验证及预测提交等步骤,可优化空间大。
1.项目简介:
本项目为讯飞赛题-学术论文分类挑战赛paddle版本Baseline,提交分数0.8+。目前可优化的空间还比较大,可以多做尝试进行提升。感兴趣的也可以进行迁移用到类似的文本分类项目中去。
2.赛事地址:(详情可前往具体比赛页面查看)
学术论文分类挑战赛
3.赛题任务简介:
该赛题为一道较常规的英文长文本分类赛题。其中训练集5W篇论文。其中每篇论文都包含论文id、标题、摘要和类别四个字段。测试集1W篇论文。其中每篇论文都包含论文id、标题、摘要,不包含论文类别字段。选手需要利用论文信息:论文id、标题、摘要,划分论文具体类别。同时一篇论文只属于一个类别,并不存在一篇论文属于多个类别的复杂情况。评价标准采用准确率指标,需特别注意赛题规定不可使用除提供的数据外的其它数据。
4.Baseline思路:
本次Baseline主要基于PaddleHub通过预训练模型在比赛数据集上的微调完成论文文本分类模型训练,最终对测试数据集进行预测并导出提交结果文件完成赛题任务。需注意本项目代码需要使用GPU环境来运行,若显存不足,请改小batchsize。
比赛相关数据集已经上传AI Studio,在数据集那搜索‘讯飞赛题-学术论文分类挑战赛数据集’后添加即可。
In [ ]
# 解压比赛数据集%cd /home/aistudio/data/data100192/!unzip data.zip
/home/aistudio/data/data100192Archive: data.zip inflating: sample_submit.csv inflating: test.csv inflating: train.csv
In [ ]
# 读取数据集import pandas as pdtrain = pd.read_csv('train.csv', sep=' ') # 有标签的训练数据文件test = pd.read_csv('test.csv', sep=' ') # 要进行预测的测试数据文件sub = pd.read_csv('sample_submit.csv') # 提交结果文件范例
In [ ]
# 查看训练数据前5条train.head()
paperid title