订阅
纠错
加入自媒体

极链科技HPAIC人类蛋白质图谱分类挑战赛金牌经验分享

2019-01-18 11:06
张康康
关注

模型

我们最终使用的基础模型有Inceptionv3,Inceptionv4以及Xception三种,比赛前期我们测试了VGG,ResNet,ResNext,SeNet,但是效果不是很好,因此比赛末期没有再进行进一步测试。

我们使用了512,650和800三种尺度来增加网络对图像的理解,另外每个尺度进行10折交叉验证,保证验证集的划分对网络整体的影响,以及用验证集来评估模型预测的好坏和选择模型及其对应的参数。不同模型交叉验证时使用不同的随机种子划分验证集和训练集,以尽可能多的学到不同的样本组合。

Inceptionv3和Inceptionv4的512的结果不好(0.55+ public leaderboard 阈值0.15),因此没有做交叉验证,只是用512尺度训练了基础模型,并用在650和800的微调中。

模型修改:

1.第一层卷积的输入通道数由3修改为4,保持其他卷积参数不变,从而使网络应对4通道输入;

2.修改最后一的池化层为全局池化层,保证在多尺度时可以使用同一个网络;

3.全局池化后增加一层128的全连接,然后接一层28的全连接。

训练

训练过程的参数如下:

loss: MultiLabelSoftMarginLoss

lr: 0.05(512,imagenet 预训练),0.01(650和800,512预训练);

lrscheduler: steplr(gamma=0.1,step=6)

optimizer: SGD (adam,rms not well)

epochs: 25, 600和800一般在12-20直接提前结束,取loss最低的模型

10 folds CV

sampling weights:[1.0, 5.97, 2.89, 5.75, 4.64, 4.27, 5.46, 3.2, 14.48, 14.84, 15.14, 6.92, 6.86, 8.12, 6.32, 19.24, 8.48, 11.93, 7.32, 5.48, 11.99, 2.39, 6.3, 3.0, 12.06, 1.0, 10.39, 16.5]

scale:512,600,800

独立阈值

为每一个类别找到一个合适的阈值是一件很困难的事,但是多阈值是提升分数的关键,对我来说,大概可以提升0.005~0.008。 我们使用验证集来找阈值,我们训练单模型xception 512 ,验证集占13%。调整每一类的阈值使得f1 score达到最优,不过我们发现稀有类别的阈值普遍很高,public lb会变差,因此我们只调整了验证集1000张以上的类别,稀有类别控制阈值为0.15 通过这种方法找到的阈值在其他模型或者集成的时候同样有效。

测试

比赛结束以后我们将比赛中训练的模型重新提交查看private leaderboard成绩,得到如下结果:

比赛过程中我们发现做了10 fold ensemble不一定比single fold好,因此我们在最终集成的时候部分模型只选择了部分fold (根据loss选择)。

检索

我们使用检索的方法(特征使用inceptionv4 800 的128维特征)查找test与hpa相似的图片,使用余弦相似度进行度量,我们发现了许多相似的甚至相同的图片,直接使用相似度最高的300张图片的结果进行替换,分数在public lb上提升0.01~0.015,不过在private LB中并没有效果,官方在比赛过程中也说明部分test图像由于与HPA中部分图像重合,不再进行分数计算。

集成

我们将inceptionv3 inceptionv4以及xception 800的10fold 模型的特征进行concat(先进行l2),得到3840维的新特征,并在此基础上设计了2层的全连接网络进行训练, 并做10 fold CV,训练过程中使用不容参数训练过程如图所示,我们取了loss最低的参数。结果融合后private lb:0.55150 public lb:0.62791。

虽然上面方法在public lb上分数较高,但是当与其他模型结果融合时,public LB的分数反而降了,因此我们降低了这个模型的权重。

最后的结果是通过加权融合的方式得到的,权重根据模型的public lb分数设置, inceptionv4 800和inceptionv3 800的权重最高,xception 650 最低,同时也用到了inceptionv4、xception其他尺度的部分fold。

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号