一、赛题理解
本次竞赛[首页]针对学术领域的论文同名作者消歧问题,根据提供的AMiner中大量有挑战性的作者同名消歧数据集,表现在每个姓名关联的论文和学者数量有所增加。本次竞赛的任务是识别出哪些同名作者的论文属于同一个人。
常见的解决方案:
1. 基于规则:利用文献之间和作者关系、机构关系,通过人为设定一些规则将待消歧文献归类到相应已有类簇中。
2. 无监督聚类:按照设定的相似度度量方法,计算待消歧数据集中所有样本彼此之间的相似度,得到样本间相似度矩阵,利用计算出的相似度矩阵进行聚类。
3. 半监督聚类:利用已标注数据数据集,构建二分类训练样本,即标签为两个文献是否属于同一个作者或者两者之间的距离。通过训练样本训练模型,得到样本之间的距离函数模型。根据已训练的模型在待消歧数据集的预测结果,即样本之间的距离矩阵,运用聚类算法得到最终的聚类类簇,也就是消歧后的结果。
二、算法流程
针对该比赛,我们尝试了上述三类方法,最终采用第三种半监督聚类的方法在测试集上效果最好。具体算法流程包括:数据预处理、构造训练集、训练距离模型、聚类预测。
1. 数据预处理
1.1 作者姓名处理
将文献的所有作者姓名处理为统一的格式
1.2 机构名称处理
同名替换,通过观察数据,找出机构相同但书写或者表达不同的组织机构,构建一个同义词字典,根据字典将相同机构进行同义词替换,如下面的一些表达:
71834 Unit No.71834 Unit Unit 71834
Henan Agriculture University Henan Agricultural University
State Key Laboratory for Magnetism State Key Laboratory of Magnetism
Shanghai Inst. Opt./Fine Mechanics Shanghai Inst. of Opt./Fine Mech.
缩写还原,通过观察数发现,相同机构的表达中,有的包含缩写,有的为全称,所以需要对缩写单词进行复原,统一表达。下面为一些数据中常见的缩写及对应的原型:
缩写—原型 | 缩写—原型 | 缩写—原型 | 缩写—原型 |
---|---|---|---|
Sch.—School | Dept.—Department | Coll.—College | Mech.—Mechanics |
Inst.—Institute | Univ.—University | Natl.—National | Chem.—Chemistry |
Sci.——Science | Technol.——Technology | Tech.——Technology | Res.—Research |
2. 构造训练集
根据已标注数据集,构建同一姓名下的文献对数据集,标签为两者之间的距离,包含0和1,0表示两个文献属于同一作者,1表示两文献不属于同一作者。为了处理数据不均衡问题,将正负样本按比例随机采样,构造用于训练距离函数模型的数据集。
3. 训练距离模型
该步骤主要利用2中训练集,提取特征,训练分类器模型,即主要包含特征工程和模型选择。
3.1 特征工程
机构相似度:TF-IDF的余弦相似度、Jaro–Winkler 距离
合作者相似度:合作者交集数量、合作者交并比
合作机构相似度:合作机构交并比
标题相似度:文献标题的TF-IDF余弦相似度
关键词相似度:关键词的TF-IDF余弦相似度、关键词交并比
期刊相似度:是否为同一期刊
日期:年份差距
3.2 模型选择
由于时间原因,只采用了GBDT分类器模型,没有尝试效果更佳的XGBoost或者LightGBM模型。同时,参数也没有进行进一步调优、具体设置为:n_estimators=1500, max_depth=9, max_features=’sqrt’, learning_rate=0.1。
4. 聚类预测
根据上述训练得到的距离模型,在测试数据上进行预测,得到测试集的距离关联矩阵,采用层次聚类算法对每一个姓名下的文献进行聚类,得到消歧结果。
算法流程结构如下图所示:
算法流程结构图
三、代码说明
beard: 数据对操作及一些工具类,参考自here
data:数据目录
tmp:距离模型、训练pair集存储路径
sampling.py :pair集采样生成代码
distance.py :特征提取、距离模型训练代码
clustering.py:测试聚类输出结果
utils.py:部分工具函数
执行过程:sampling.py————》distance.py————》clustering.py(最终得分:0.7077)
rule.py:基于规则方法(最终得分:0.6384)
参考文献
- Louppe G , Alnatsheh H , Susik M , et al. Ethnicity sensitive author disambiguation using semi-supervised learning[J]. 2015.
相关报道- http://cs.cqupt.edu.cn/info/1034/6778.htm
- https://cloud.tencent.com/developer/news/370291
颁奖合影留念
与王国胤院长合影