16级。Master in ML @ USTC

作者是匡院16级统计方向的KYF,最后去向是中国科学技术大学 MIRA Lab 实验室,方向为强化学习与机器博弈。

写在前面

笔者本科就读于南大匡院统计方向,现保研至中科大信息科学技术学院王杰老师的 MIRA 实验室,组内研究方向为机器学习、强化学习和自然语言处理。

这篇文章我会对保研过程需要注意的点做一个简单的梳理,作为后来同学的一个参考。也祝 18 级的你们无论出国保研还是就业,都能收获自己满意的去向。

方向选择

本科统计的同学继续深造的选择,一般主要为以下三个

  • 继续统计学相关方向
  • 转商科相关方向,如金融/金工等方向
  • 转计算机相关方向,比如去机器学习相关的方向

这里提醒一下:

  • 关于统计方向:保研时“概率统计”和“统计”并不是同一个方向,前者偏数学,后者偏应用,两者往往也开设在不同的院系

我最后选择了转到机器学习方向,主要原因有

  • 机器学习方向非常好地综合了代码能力和数学基础,概率统计相关的知识在这里会非常有用
  • 机器学习近年来发展火热,有很多有趣的且亟待解决的问题,无论是做科研还是做项目,都会有很多有趣的问题等待解决

机器学习下面又细分了非常多的子方向,不同子方向研究的内容和需要的能力也相差极大。如何具体选择子方向,由于每个人的兴趣和擅长都不同,我不好给出推荐。想要了解的同学可以自行在知乎上搜索,里面有各个子方向研究内容的详细介绍和比较。

复习计划

我在大三下学期开始前制定的计划是:

  • 信息搜集方面:3-4 月尽可能全面地搜集实验室和导师的相关信息
  • 数学方面:4月份复习完数分、高代;5月份复习完概率论、数理统计、随机过程。其他的诸如实变、抽代之类的因为和目标方向关系不大(主要是复习门槛太高….),就没有考虑复习了
  • 代码方面:6月份开始全力准备机试,这样在保研夏令营开始时能够让自己处于最好的状态

回过头看,当时制定的计划整体还是晚了。如果我不是在6月初就已经定下合适去向的话,那么6月开始将会非常仓促。所以建议大家制定计划时,在我计划的基础上提前1个月左右。

此外还大家一个建议:联系导师的原则是越早越好。因为top的导师的组研究生申请竞争会非常激烈,早一些联系能够给老师留下积极的印象,也能让老师有更多时间深入了解你,会相对而言更有优势。

夏令营信息收集

关于保研夏令营信息获取的渠道,这里主要推荐:

  • 保研论坛:这个基本算是最全面最方便的保研信息获取渠道了,绝大多数学校的夏令营简章都能在这里及时获取
  • 保研公众号:相关的公众号包括保研论坛、中公保研等,会有一些不错的保研信息和经验分享等内容
  • 每个学校的招生官网:该校保研的一手信息都能在对应的招生官网找到。优点是信息最准确;缺点是需要自己动手逐个查询,效率较低

其他诸如保研交流QQ群之类的,里面相对鱼龙混杂,不做特别推荐。

导师选择

查到了夏令营信息后,第二步是找到感兴趣导师或实验室的详细信息,这个最直接的方法就是看导师的个人主页。

需要强调的是,一个好的导师、一个靠谱的组对研究生生涯的作用至关重要。那么如何选择一个靠谱的导师和实验室呢?

首先是判断导师的学术水平如何,最直观的体现就是导师组里的 publication,具体而言:

  • 组里导师作为一作的文章直接体现导师个人的学术能力
  • 组里导师作为通讯(通常在作者列表里最后一个名字)的文章直接体现导师培养学生的能力
  • 组里文章中顶会文章所占数量和比例直接体现这个组的整体科研实力

对于机器学习领域,ICML 和 NeurIPS(NIPS)一般算是公认的最有影响力的两个会议,因此也可以作为一个组科研实力的硬指标。

接下来可以进一步了解导师的口碑,了解的渠道包括

  • 导师评价网:一个匿名评价导师的网站,能够有效地帮助筛选掉一些口碑特别不佳的导师
  • 知乎:上面有很多学生对自己导师的评价,并且实名的回答往往比匿名的会更靠谱些

最后,还有一些其他的小tips可以作为参考

  • 相比较而言,年轻的导师往往会有更多的时间亲自指导学生,和学生的关系也往往更融洽
  • 有一定 title 的导师(如青千、优青、杰青)往往科研经费会更富足。而机器学习领域里,充足的经费、良好的硬件设备是做出好工作的前提
  • 如果有认识的学长学姐在导师的实验室里,他们对导师的评价至关重要

保研准备

保研过程里需要准备的材料很多,比如

  • 一份能够全面展示自己的简历(最好中英文各准备一份)
  • 你的成绩单、排名证明、获奖证书、四六级证书等硬件材料的纸质版与扫描版
  • 有的学校可能还会要求有推荐信和研究兴趣说明,如果可以的话,最好也能够提前准备好

除了这些,最重要的还是

  • 给有意向的导师主动发邮件介绍自己!

我是在大三保研的5月中旬在保研论坛看到了科大信院MIRA Lab的招生广告,然后试着发了封邮件介绍自己,才有机会来到了科大。现在想来仍然觉得非常的幸运,能够有机会遇见一位非常优秀的导师,以及一群优秀的实验室师兄师姐们。

最后:打个广告

给自己保研的实验室 MIRA Lab 做个宣传~

MIRA Lab 的研究方向目前集中在强化学习和知识图谱两个研究领域,组里老师和师兄的科研实力都非常强,近年来有很多顶级会议的文章产出(例如今年组内的两个研究领域就各自有一篇 NeurIPS 论文发表)。

实验室负责人王杰教授曾任美国密歇根大学研究助理教授,2017 年通过中组部海外高层次人才计划引进回国,2018 年入选国家优青项目,目前任中国科学技术大学信息学院教授。王老师是个非常注重培养学生的老师,为组内同学的培养制定了非常完善的培养制度(包括数学基础,代码训练和科研入门等多个方面)。

我在保研进组后的一段时间内学到了非常多。科研方面,接受了完整的理论基础和科研入门训练;跟着师兄发表了自己的第一篇科研工作(于 NeurIPS2020 );目前正在准备自己的第一篇独立科研投稿。代码方面,在互联网大厂的一线算法 leader 的指导下进行了系统的代码训练,目前已经能够在强化学习方向落地应用的重大国家级项目中独当一面。此外,还参与了和互联网公司大boss、国内顶级研究所负责人的面对面交流;获得了管理一个小团队的机会;并在王老师的带领下和组内同学一起读了很多不同方向的有启发意义的书。

为了将学生培养为能够独当一面成就一番事业的领军型人才,王老师对学生的要求非常高(可参见科大 评课社区 对王老师机器学习课程的评价),因此刚进组的一段时间里压力会非常大。但高压力伴随的是快速的成长。进组一段时间后自己的眼界有了很大的提升,在心理上,也由之前只关注学习科研一亩三分地的学生心态,转变为了注重综合素质全面发展的心态,对于未来的规划也有了更为清晰的认识。我很感谢我的导师,他给我开了一扇门,让我看到了这个世界我不曾见过的风景,并言传身教我应该如何做学术,做事,做人。

最后,欢迎关注我们的公众号 MIRA Lab,近距离了解我们组的科研内容与生活分享。也欢迎后续有保研意向的同学直接和我联系~(匡宇飞学长的QQ:1114976730)

附:

实验室主页链接 王老师主页链接 MIRA Lab 公众号二维码: 二维码


写在前面

这篇文章我会以时间为主线,简单地对保研过程的经历和心路历程做一个简单的梳理,作为后来同学的一个对比参考。也祝 17 级的你们无论出国保研还是就业,都能收获自己满意的去向。

方向选择

我们院统计方向的同学这几年虽然在逐年增多,但相对基数仍然很少。本科毕业后的去处也主要为是以下三个:

  • 继续统计学相关方向,以出国读统计 Phd 为主。毕竟统计这个学科国外发展远远比国内成熟,所以无论是学术导向还是就业导向,可以说申请国外统计都是最好的选择。
  • 转商科相关方向,如金融/金工等方向。这一块我不太了解,但国内的话感觉基本得冲着清北复交人去,其他可能都不是好的选择。
  • 转计算机相关方向,比如去人工智能相关的方向。而南大的 lamda 组在国内的名声还是非常强的,所以留本校本身就是统计方向同学的一个好选择。

这里提醒一下:

  • 关于统计:国内“概率统计”和“统计”并不是同一个方向,两者的关系类似“概率论公理化”和“贝叶斯统计”的关系,前者偏数学,后者偏统计,在国内两者往往也开设在不同的院系。
  • 关于金融:虽然这个方向的推荐学校只有清北复交人,但具体到下设的院系的话其实非常多。比如光是复旦开设金融/金数/金工等专业的院系就有:经院、管院、数院、大数据院、泛海金融学院等非常多个学院;北大也有光华、经院、汇丰、软微等很多院系下有金融相关专业(所以我猜广撒网多少总是能中一个的)。

我最后选择了转到机器学习方向,主要原因有:

  • 商科的话不太感兴趣,继续统计的话出国GPA竞争力不够。
  • 机器学习早期就叫统计学习,和统计的关系非常密切,可以说这门学科里计算机和数学各占半壁江山。
  • 近几年来是机器学习发展的黄金期(当然也可能是黄金泡沫期)。成熟的学科里往往会出现“够着着的果实全被摘完了”的情况,而这个领域目前还处在“大佬四处挖坑,民工跟进填坑”的阶段,科研民工和学术大佬不构成直接竞争关系,很适合有一定学术理想又担心被大佬吊打的部分同学(比如我这种菜鸡)。
  • 整个大方向的产学结合比较好,即使发现自己真不适合科研,也不耽误跑路找工作(不是)。

时间线

前前前准备:机考准备

因为我在大二上开始就有了比较明确的目标,所以截至到保研前已经完整修过计科的数据结构、算法设计与分析、数据库、人工智能导论等一系列课。这些课大多都相对硬核,整套的上下来确实对代码能力以及对写代码的理解会有一个很大的提高。而且上课有同学交流、有 DDL push,效率也会比自己看书刷题高很多。

因为很多学校(包括南大的lamda)都是有上机考的,所以提前打下一个好的代码基础挺有必要,会让你在保研期间减少很多的焦虑(否则要一边上课,一边复习数学专业课,一边刷题准备机试,可能会比较痛苦),至少我保研前是没有太过纠结代码能力的问题的。

前前准备:关于 C9 交换

大三下之前我把复旦作为了第一选择,然后一是因为大三下统计方向课不多了(想摸一个学期鱼),二是想提前考察找到靠谱的实验室或者老师,所以我申请了学校的 C9 交换跑去复旦呆了一学期。

学校里申请 C9 这个项目的同学不多,但据我观察这绝对是外保(特指华五,清北另算)的一个好途径:

  • 对于想要外保的同学,由于信息不对称,容易选到不满意的导师或实验室(而 读研/读博 导师非常非常重要!),从而不如保本校靠谱。而交换到目标学校一学期则可以实地考察目标老师或者实验室,从而把风险降到最小(但这样也会耽误大三下进本校实验室的机会,所以只推荐给在仙林呆久了想换个环境的同学….)
  • 对于外校老师和实验室,华五一级算是最好的生源了。所以只要你成绩不差,那么大老远跑来,老师肯定是非常欢迎的,毕竟老师也希望招到好的学生和扩大优质生源的范围。

当然,鉴于这个项目会耽误大三下的一些课程,所以感觉院里老师不会太推荐参加。所以有兴趣的同学千万别说是我教唆的….

另外,我大概说说我到复旦后的情况:我在复旦选修了一门人工智能导论,感觉老师讲课逻辑非常清晰,就借这个机会联系上并在组里呆了一段时间。老师是做 NLP 相关的,人非常 nice,属于年轻有为的类型,组里氛围也非常好。但后来我还是鸽了老师,非常非常惭愧….(所以如果有对 NLP 感兴趣的同学我私戳推荐给你)

我最后改变想法的主要原因有:

  • 实地考察后感觉复旦的整个氛围非常偏金融,几乎在任何一个教室自习都能看到有人在看金融的书,尤其以数院风气最盛,我个人不太喜欢这种氛围。
  • 复旦计算机的地位给人的感觉比较边缘。大数据学院很多人是做金融的,计算机系甚至不在本部….
  • 最重要的一点,真正体验之后感觉 NLP 不是我喜欢的方向,还是希望做更偏机器学习理论一点的东西。

前准备:复习计划

我在大三下学期开始前制定的计划是:

  • 信息搜集方面:3-4 月在复旦专心套磁(划掉)实地考察,同时搜集其他学校可能的实验室和导师信息
  • 数学方面:5月份复习完数分、高代、数值计算;6月份复习完概率论、数理统计、随机过程。其他的诸如实变、近代之类的因为和目标方向关系不大(主要是复习门槛太高….),就没有考虑复习了
  • 代码方面:6.20-7.10 这 20 天刷刷题找感觉,靠着之前一年的底子,应该也能好过绝大多数转行的同学了….

现在回过头看,复习计划整体定的还是晚了。如果我不是在6月初就已经定下满意去向的话,那么在 6、7 两个月我将会非常仓促。所以建议 17 的你们制定计划时,在我计划的基础上提前 1个半月 左右。

3-4 月准备

我 3-4 月的时候除了在复旦广撒网蹭课找感兴趣的老师以外,剩下的时间都和同学在五角场吃吃喝喝….(复旦周围是真的繁华)

但这是非常不对的!我当时看别人的介绍都说 5 月才陆续开始夏令营预报名,但后来发现有一大批非常不错的项目的预报名都在 4 月底之前!这种情况最多的是金融、统计相关的夏令营,金融甚至 3 月底第一批报名就截至了,我认识的不少同学 4 月中旬就拿到了预录取。虽然我是主申 CS,但有一些学校统计是强势学科院,里面会有许多机器学习做的非常不错的老师。有一些我想参加的,结果一看报名已经结束了,也算是错过了一些很好的机会。

所以,一定要从 3 月初开始就密切关注保研论坛和目标学校的官网动态!

5 月准备

5 月开始基本很大一部分自招简章都已经放出来了,这个时候更要时刻关注保研论坛的动态。提前准备好成绩单、排名证明、个人简历这些基本信息。如果没有特别大的把握可以采取广撒网的策略,遇到感兴趣的项目就先投着,确保入营后再做取舍(我就认识个上海某211的同学,当时只投了上海的三所985,结果最后全没入营,又不敢赌 9 推,最后留本校了)。

我个人的话就是在 5 月中旬无意中看到了我现在所在组的招生广告,然后试着发了封邮件过去,才机缘巧合来到了科大。

我们组的整个考核流程很长,老师很注重对录取同学的全面考核,从收到回复邮件到确认录取有整整两周时间(我们组的情况介绍我会放在最后)。所以我整个 5 月 1/3 是在准备这个,1/3 是各种广撒网,剩下的 1/3 时间把数分(主要是多元微积分部分)和高代教材看了一遍。

6 月准备

6 月 2 号的时候我正式的拿到了现在组里的预录取。因为在整个的考核的过程中,也对实验室情况和研究方向有了比较全面的了解,感觉和我想要做的方向非常契合,老师和组里师兄的水平也都很高,所以拿到预录取的当天晚上我就完全决定去那了。

至于具体的考核流程因为实验室有规定,我暂时没法在文章里透露。只能说是组里非常重视数理基础和性格测试,所以考核的流程是以这两项为主。尤其是数理基础的测试,完成测试的报告大概要一周左右。而一旦通过了组里的考核,那剩下的科大 6 系的夏令营就只是走个流程了。

接下来的时间我一半在开始接触我实验室的研究方向,一半继续和准备出国(没有保研压力)的同学在上海吃吃玩玩,计划里剩下的复习和刷代码也就没有继续下去….南大这边 lamda 的后续面试通知也就鸽了,复旦那边也和老师说了自己的后续意向(再次非常惭愧….),再之后复旦那边的期末考试随便考考就和高中同学溜出去旅游了….

所以严格地说,截至到 6 月 2 号我的整个保研经历也就结束了….

个人体会

  • 理工科方向个人感觉还是非常看重本科学校的,所以即使排名不高的同学也不要太过担心。在匡院而且成绩不差,就已经是非常高的起点了(个人感觉我院中上水平同学的平均值,要比绝大多数 985 的国奖平均值靠谱的多),招生老师是非常喜欢好学校的生源的。
  • 我 5 月广撒网的那些申请除了清华叉院的其他基本初审全过了,所以有意向保研的同学不要因为担心不过初审就嫌麻烦不投,多试大概率会得到意想不到的好机会。
  • 千万不要因为害羞而不敢提前联系老师。保研本质上是一个双向选择的过程,老师也需要优秀的学生来到组里,才能做出好的工作(所以老师们其实暗地里也很重视抢学生的哈哈)。而夏令营短短几分钟是很难了解一个人的,所以主动联系老师绝对是老师和你的双赢。而且绝大多数老师人都非常好,发邮件过去一般都能得到很善意的回复的(尤其是本校老师)。

最后:打个广告

文章最后给我现在的实验室打个广告:

招生主页(实验室介绍)见:招生主页

老师信息见:老师信息publication

组内成员信息见:组内成员

欢迎有兴趣的学弟学妹和我联系~

最后的最后,祝 17 的你们都能顺利升学,收获自己满意的去向!