新智元建议

知乎大神Seu Tao在短短半年时间里参加了5次卡格乐比赛,获得5枚金牌,成功成为赛会特级大师。最近,他分享了自己在比赛中的经历。

又一个卡格尔神!

Kaggle是全球领先的数据科学和机器学习竞赛与分享平台。企业和科研人员可以在Kaggle平台上发布数据,举办/参与竞赛,通过众包生成最佳模型。现在注册用户超过100万。

在Kaggle比赛列表中,有一个很多用户向往的称号,那就是“Kaggle特级大师”,他们是排名0.1‰的顶级高手。目前,卡格尔只有136名特级大师。

特级大师代表你参加过很多比赛,也拿过很多冠军。这个头衔在申请简历找工作的时候也很有吸引力。同时,参加大型企业组织的大型比赛也可以获奖。

知乎中有大神“Seu Tao”。2018年9月至2019年3月,他参加了5场卡格尔比赛,获得5枚金牌。他成功成为了竞赛特级大师!

苏涛告诉新智元,他17年后毕业于东南大学,获得硕士学位,目前在一家初创公司担任视觉算法工程师。这五个Kaggle比赛都是计算机视觉任务。最近Seu Tao分享了他的比赛经验,我们一起崇拜。

Kaggle在五场比赛中的成绩

2nd in Humpback Whale Identification 4th in TGS Salt Identification Challenge 8th in Airbus Ship Detection Challenge 9th in Human Protein Atlas Image Classification 12th in Google Doodle Recognition Challenge

SeuTao Kaggle主页:

https://www.kaggle.com/shentao

五场比赛介绍

1.2018年10月TGS盐鉴定挑战金奖

在TGS盐识别挑战中,挑战者需要开发一种算法,能够精确地分割表面下沉积盐的分布。地震数据是通过反射地震学收集的,这需要一个受控的能源和一个传感器来记录地下岩石界面的反射。之后,记录的数据被处理以创建地球内部的3D视图。地震反射类似于x射线、声学定位器和回声定位。

竞赛任务:地震图像的语义分割

这是我第一次完整的Kaggle比赛经历,坚持讨论的实验,追随蛙神。在比赛的中后期,一直保持着前5左右的排名,ddl一度上了前1,最后在公开赛中屈居第二,在私下赛中屈居第四。金牌+奖金,一次卡格尔全体验。

解决方案简介:

https://www . kaggle . com/c/TGS-salt-identification-challenge/discussion/69178

代码:

https://github.com/SeuTao/Kaggle_TGS2018_4th_place_solution

关于本次比赛的一些详细解读,请参考本次比赛第五队@AlexL的文章:

https://zhuanlan.zhihu.com/p/47412338

2.空客船舶检测挑战赛2018年11月金奖

空客的遥感图像分割与检测大赛,空客舰船检测挑战赛,也是空公交公司,奖励6万美元。航运流量迅速增加。更多的船只增加了海上违规的机会,这迫使许多组织更密切地监测公海。在过去的10年里,人们做了大量的工作来从卫星图像中自动提取目标,并取得了显著的效果,但在实际操作中存在许多不足。目前,空中国客车公司与kaggle联合举办竞赛,寻求更好更快的船舶自动检测方案。

比赛任务:从卫星图片中找到所有船只

在TGS比赛结束时,距离空客的最后期限只剩下不到一个月的时间了。幸运的是,以前培训过一个基本的联合国教育、科学及文化组织模式,TGS的经验得到了转移。最终的解决方案是unet语义分割模型+mask rcnn检测模型,几个队友成功上升到PB第二的位置。这个问题的AB列表很大。最后我们在PB队排第五,私底下排第八。不要相信LB,相信你的CV!

解决方案简介:

不要相信LB,相信你的简历。

https://www . kaggle . com/c/airbus-ship-detection/discussion/71601

代码:

https://github . com/SeuTao/Kaggle _ Airbus 2018 _ 8th _ place _ solution

附件:来自@Pascal的方案:

https://zhuanlan.zhihu.com/p/48381892

3.谷歌涂鸦识别挑战赛金奖2018.12

这场比赛确定了快,画!游戏的5000万涂鸦是由来自世界各地的1500多万玩家贡献的,大多是苹果、浴缸和计算器等日常必需品。

比赛任务:灵魂画涂鸦分类

就像空客的比赛,大概一个月就完成了。他们和在上次比赛中认识的伙伴组成了一个八人小组。比赛所需的数据量和计算资源非常大,模型迭代的效率相对较低。比赛结束前没有太多有效的探索。幸运的是,最后我还是能够逆转私榜,拿到金牌的最后一名。

获得这枚金牌后,我成功获得了卡格尔大师的称号:)

代码占用坑:

https://github.com/SeuTao/Kaggle_Doodle2018_code

4.2019年1月人类蛋白质图谱图像分类金奖

多标签蛋白质图像分类竞赛。数据极度不平衡,原始图像尺寸较大。

竞赛任务:蛋白质图像多标签分类

连续几个月每天花大量业余时间打游戏真的很难。拿到卡格尔大师级后,我想休息一下。我是BME硕士毕业的,看到和医学影像相关的题目都非常友好,所以决定试试蛋白质分类比赛。和两个队友整合基线成绩后进入金牌区。之后我加入了杨老师的团队:

杨基·库尔贝尔:凯格尔人类蛋白质图谱蛋白质分类竞赛第九名的总结与复赛

https://zhuanlan.zhihu.com/p/54734559

结果是公19,私9,金牌:)

5.2019年3月驼背鲸鉴定金奖

为了帮助保护鲸鱼,科学家使用照片监控系统来监控海洋活动。他们利用鲸鱼尾巴作为独特的标记,在连续的图像中识别鲸鱼,并详细分析它们的活动。在过去的四十年里,大部分工作都是基于科学家的手工工作,这也使得大量数据没有得到充分利用。有5004 id鲸数据,很多只有一次拍摄数据。这是一个少镜头学习和细粒度分类的问题。

比赛任务:座头鲸识别

Kaggle特级大师tier要求获得五枚金牌,其中包括一枚单人金牌,因此他决定尝试单人项目并赢得通用汽车冠军。比赛时间充裕,我面对的问题也比较熟悉。很快,成绩进入前十。但PB达到0.910后,实验毫无进展,排名逐渐下滑。急于打破僵局,我尝试了各种相关方案。sota face loss、Peer Reid、metric learning和pytorch的模型结构也重建了暹罗网的管道。但是你尝试的越多,每条路线上的实验不足,就越难改进。静下心来还是回到原计划,稳步前进,最后排名第二。

解决方案:

https://www . kaggle . com/c/humpback-鲸-identificati on/discussion/83885

代码:

https://github . com/SeuTao/Kaggle _ Whale 2019 _ 2nd _ palce _ solution

卡格尔参赛经验总结

关于成绩:六个月内连续五场比赛的金牌都是我拿的,这是我开始第一场比赛时没想到的,运气也占了很大一部分。每次比赛开始,我的期望都不会是金牌,但随着比赛的进行,我会不断提高自己的成绩要求.

投入精力:做比赛前,业余时间主要用来做自己的项目,学习充电。自从参加了六个月的kaggle比赛,我就把所有的业余时间都投入到这个平台上了。周末,国庆,元旦,甚至春节假期几乎都是在kaggle度过的,可以说是我的第二职业。

奖励:从学习的角度,对kaggle上的不同问题、不同数据有了了解,相关技能也有了很多提升;从荣誉上看,他获得了多枚金牌,成为特级大师,在平台10w用户中排名前38;也可以认识很多比赛爱好者,互相交流提高;最后,奖金也是不错的回报:)

比赛和工作:比赛和工作的关系,比如训练场和实战。作为从业者,比赛给我提供了一个非常好的训练环境,在有限的条件下有很多新鲜的问题和数据供我探索。这里我想说明的是,比赛中的好成绩永远不能代表实际工作中的好表现。但反过来说,如果一个算法工程师不具备在竞争中获得好位置的能力,又怎么能胜任实际工作呢?

本文授权转载自自知栏,原地址:

https://zhuanlan.zhihu.com/p/51876446

1.《kaggle比赛 Kaggle大神亲述:我是如何半年拿5次金牌晋升Grandmaster的?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《kaggle比赛 Kaggle大神亲述:我是如何半年拿5次金牌晋升Grandmaster的?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/caijing/1790365.html