AIIA开发者社区

技术分享

学术新星畅谈计算机视觉科研之路：视觉研究已经成熟，跨学科方法成为趋势

admin 发表于 2021-06-04 16:23

4月22日，微软亚洲研究院创研论坛 CVPR 2021 论文分享会在线上举行。来自国内外计算机视觉领域的21位优秀代表与观众零距离交流，分享了他们在 CVPR 2021 发表的最新研究成果。

本次论文分享会的开幕由北京邮电大学教授、中国计算机学会计算机视觉专委会秘书长马占宇主持，他首先回顾了近四年 CVPR 论文分享会的举办盛况与形式变化。随后，北京大学教授、中国计算机学会计算机视觉专委会主任查红彬，清华大学教授、清华-微软联合实验室清华方主任温江涛，中国科学院自动化研究所副研究员、中国图像图形学会副秘书长、中国图像图形学学会女工委秘书长董晶，以及微软亚洲研究院学术合作总监、中国计算机学会女计算机工作者委员会主任马歆，四位嘉宾在开场演讲中分别从不同视角阐述了 CVPR 2021 论文分享会举办的初衷。

如今，计算机视觉在学术界的相关研究已经逐渐进入到一个越来越成熟的阶段，也涌现出了许多学术新秀。因此，本届活动特别邀请了来自卡耐基梅隆大学、哥伦比亚大学、布朗大学、苏黎世联邦理工学院、斯坦福大学、南京理工大学和旷视研究院的7位学术新星，一起畅谈“计算机视觉科研之路”，讨论的内容从研究方向到研究心态，以及未来计算机视觉的探索方向等。

下面我们就与大家分享一下本次精彩的会谈内容！

点击阅读原文，观看 CVPR 2021 论文分享会全程回放。查看此次分享会所有讲者的 PPT 和论文，可访问链接：http://paper.idea.edu.cn/cvpr2021

伟大的研究是如何做出的？

王井东：请举例说明你是如何完成一项工作的。可以从选题、想法、写作等角度详细说明。

朱俊彦：2015-16年，研究 iGAN 的经历令我印象深刻。这项工作是我们用生成模型来解决计算机视觉以及图形学问题的开端。当时的现状是 GAN、VAE、流模型(flow-based model)等生成模型的效果都很差，我们想这些模型目前可能起不到什么作用，但等条件成熟了，其威力也就显现了。基于这个想法，我们结合传统的计算机视觉算法，例如光流，先让 GAN 生成一个大概的图像，然后再通过光流把修改的效果迁移到原图，实现了用生成模型进行图像编辑的效果。从 iGAN 开始，之后 CycleGAN、Condition GANs 等一批 GAN 的模型也出现了，到最近许多组的 GANs inversion 的优秀工作，都成了研究热点。

这件事给我的启发是：一些技术可能受限于条件不成熟，例如 GPU 的功效，无法发挥其应有的作用。但是，你能看到它的趋势，总有一天，它会变成“可行”的。这时候，如果你提前开展一些工作，就能产生一些影响力。

张祥雨：去年我们有一篇文章被 CVPR 收录为 oral，主要工作是关于密集物体的检测。这项研究我们进行了三年，所以这是一个关于坚持的故事。

该项研究开始于2017年。当时我们的目标检测算法在实际应用中遇到了一个问题：比如在多人通过一个卡口的场景下，由于存在相互遮挡的情况，有些人 AI 模型检测不出来。为了攻克密集场景下的检测问题，我们成立了专门的研发小组。考虑到 NMS （非极大抑制）后处理是导致密集场景下漏检的主要原因之一，当时我们先尝试的方法是先预测区域里的人数，然后再分别对每个人输出包围框。然而将此方法运用到产品上时，我们发现效果非常差。我们也尝试了许多其他方法，但仍然不起作用。后来我们意识到，由于密集场景下的训练数据比较少，强行让算法进行学习会遇到严重的样本不均衡问题。此后，我们花了半年多的时间进行数据的采集、标注工作，构建了一万多张包含严重遮挡场景的数据集，即2018年开源的 CrowdHuman 数据集。

有了合适的数据集，算法的准确性（Average Precision，AP）也提高了。但是产品落地却依然困难——FP（误检率）指标相对基线（baseline）大幅度增加。究其原因，我们的解决思路主要停留在替代 NMS 上，我们尝试了很多方法（比如使用微软的Relation Networks），这些方法确实提高了密集场景的检出率，但同时非密集场景的误检率也升高了。如何在提高密集场景准确率的同时，保持稀疏场景的性能不损失，成为一个非常有挑战性的问题。

经过细致地分析，我们发现 NMS 虽然对密集场景不友好，但是在抑制 FP（尤其是稀疏场景的 FP）方面有不可替代的作用。因此我们转换了研究方向，研究如何避免 NMS 错误地压抑临近的物体。最终在2019年底，经过在多个数据集上反复试验，我们发现了一种非常简单的方法：只需要在检测算法框架中让特征图的每个局部分别预测物体的集合（包含邻域内的所有物体），然后用集合 NMS 取代普通的 NMS，就可以显著提高密集场景的检测性能。这个方法虽然简单，但是却让模型非常鲁棒，同时解决了密集和非密集场景的检测问题。

通过这个小故事，我想告诉大家两件事情：1.学术界和工业界的要求存在差别；2.相信坚持的力量。上面提到的工作，前前后后“熬走了”10多位实习生，很多人试了很多方法，大多数人坚持不住就离职了。只有一位实习生从开始就跟着我们团队，在这项研究中发挥了非常重要的作用。

吴佳俊：我来谈谈在合作过程中学到的一些经验，其实用一个词就可以概括：精益求精。我最早做研究是俊彦带着我一起做的，最近几年和俊彦、舒然也都有合作。在合作的过程中，他们始终思考如何把结果再提高一点。有一次模型生成了一张图片，在我看来，结果已经非常好了，但是俊彦却说，还可以再“完美”一些。不仅是模型，在一些展示工作上，他们对质量也有着很高的要求，大家可以去他们的论文主页上看看相关的 demo，每一个都做很细致，都力求给读者留下最好的印象。

汤思宇：我今年在 CVPR 上的一个工作，某种程度上是我对未来研究的预期。这个预期在两三年内可能就能验证它是否正确。工作的主要内容是在图像和视频中研究人的行为、动机、姿势等。四年前，大多数研究者的方向都集中于单人和多人的姿势，例如 OpenPose 这一深度学习库。最近，大家开始研究 3D body，例如曲面重建（Surface Reconstruction ）。未来，我们预测人与场景、物体的共同的重建会成为重点。因为，人在现实中经常和环境、物体交互。同时，这也是一个非常困难的研究方向，因为遮挡、人的姿势的多样性等因素的存在。

如何克服这个研究方向上存在的困难？我们认为预设（prior）人体体型非常重要。关于预设，当前用的最多的是 SMPL 模型（simple body model），但 SMPL 在交互方面“差强人意”。因此，基于以上观察，我们提出了一个新观点、新的预设模型，期望模型给出的预测是高准确率和高效的，同时也和 SMPL 模型是兼容的。当然，这项工作也被今年的 CVPR 会议所认可。

对于此，我想表达的是，关于未来的研究方向，你要大胆预测，小心求证，只要不偏离太远，就可能是非常有价值的工作。

孙晨：我来谈谈“如何做有趣的研究”。我和太太都喜欢研究各种美食，在这个过程中我们发现网上的美食教程是很好的多模态学习数据来源：UP 主们会通过语言把他们做的演示描述出来，这些是我从视频里自监督学习多模态表征的工作（VideoBERT）的训练数据来源。在开展这个工作的过程中，我的另一个乐趣的来源是交流，我对自监督学习的了解很大程度上是通过几年前与做自然语言处理方向的朋友交流了解到的，通过跟有不同学术背景、专长的同事朋友合作可以碰撞出思维的火花，也会学到很多新的知识。最后一个乐趣的来源是探索一些与众不同的方向：我们最近正在开展的工作试图探索视觉信息、多模态模型对于语言理解的影响，这与目前比较流行的 visual grounding、visual question answering 相关，但又有所不同。

宋舒然：同意佳俊刚才的观点，就是与优秀的学者进行合作其实也是快速扩展自己领域见解的方法。我之前和 MIT 同学进行合作的时候也深有感触。更重要的是，这个合作项目对我有很大的教育意义，很大程度上影响了我现在科研的方向。在项目之前，我的研究方向集中于偏视觉领域，例如物体检测、姿势估计等算法。在开始这个项目之初，我想把之前做过的算法集成到机器人系统中去，让机器人能够抓取任意的物体。

但采用传统算法，精度和速度方面都无法达到要求。后来剖析原因，发现我把问题想简单了，但从另一方面来说，又把问题想复杂了。因为，大多数的时候我们不需要知道物体的类别和物体的姿势，只需要了解到物体的形状就足够了。因此，没必要用到物体检测和姿势估计算法，真正需要的可能是另外一个算法。之后，相似的经历在我进行其他研究时候，例如卫生领域，也会遇到，就是忽略了更核心的问题。

从这个项目学到的经验，直到现在还在不断提醒我：我们要花更多的时间去思考问题的本质，是否可以从新的角度去定义看似经典的问题，从而让其变得更加有意义；我们也不能把自己局限在一个小圈子里，一定要到其他领域去看看，因为这有可能突破研究者固有的认知。

潘金山：我的研究领域主要集中在“去模糊”。针对“去模糊”问题，常用的思路是设计不同的正则化方法。当前已经有很多正则化方法被提出了，那么如何设计出一个更高效的方法？是按照已有的思路？还是另辟蹊径？提出一个想法比较容易，但这个想法是否值得花时间、精力去尝试则需要权衡。例如是否解决了之前的问题；我们的想法发表之后，是否能吸引其他研究者的关注？

在实际解决问题的过程中，我们是这样思考的：当前的正则化方法确实能够解决“去模糊”问题，但是当把其用到不同图像类型的时候，效果并不好，例如针对自然图像的正则化方法并不能有效地解决文本图像去模糊问题。为什么会出现这种问题？我们从原理上进行了分析，之前的正则化方法的作用是约束解空间，降低问题的病态性，它们大多都是针对特定的图像类型所得出的清晰图像特征的统计规律，没有考虑退化过程。因此，我们就在想能否从退化过程的角度设计出一个正则化方法来克服以上问题？于是我们对退化过程的原理进行了分析，提出了新的解决方案。由于我们的方法是基于退化过程提出来的，并没有像此前基于统计先验建模的方法那样基于特定图像的统计规律，所以它不依赖于图像类型，可以处理不同场景下的“去模糊”问题。

这给我的启示是：提出有价值的想法，要基于对问题的理解，不要盲目“跟随”之前的研究。另外，也要对现有的方法进行总结，只有总结才能洞察其优缺点，进而针对缺点提出自己的解决方案。

接下来，我也分享一些对写作的感悟。我们做研究，首先要学习别人的论文。这时一定要有自己的判断力，即判断其是否符合高质量论文。如果是高质量论文，那么我们在读懂它的同时，尽量要从作者的角度考虑问题，例如考虑他们是如何构思论文的，我们构思的论文结构和作者构思的论文结构差距在哪？通过不断地比较，找出差距，才能不断进步。

具体到“写”，论文的逻辑结构非常关键。我建议采用一个类似 Coarse-to-fine 的策略，例如我们可以先搭建论文的整体框架结构，然后考虑每一个章节的逻辑，最后再考虑句子与句子之间的承接关系。另外，写每句话的时候都要仔细考虑读者和审稿人的感受，想想他们会不会明白我们所表达的意思，他们会不会有疑问，如果有疑问，我要通过什么措施可以预防。

最后，认真“听导师的话”。强烈建议把导师改过的版本都保存下来，事后仔细对比。通过比较不同版本的差距，我们也能学到很多的写作技巧。慢工出细活，时间也很重要，毕竟高水平的论文大多是靠时间“堆”出来的。

王井东：关于写作，我之前看过一篇文章《你和你的研究》，里面有个观点和金山的观点很契合，都是主张慢工出细活，论文需要打磨。

学术新星如何炼成？

王井东：各位都是青年学者，刚脱离学生身份不久，接下来，请各位青年学者分享一下，作为导师，你希望学生应该有什么样的研究状态？

宋舒然：我做学生的时候，更多关注的是问题本身。例如，每天如何把代码顺利运行，算法准确率如何提高等等。其实更重要的是问“为什么”，例如为什么算法可行，为什么参数对结果有巨大影响。

这是一种举一反三的能力。关注问题本身，即回答“如何做”的问题，可能能够发一篇论文，但是如果能够回答“为什么”那么就能够引出一系列的论文，甚至影响一个领域。因此，我希望同学们能够花一些时间跳出问题本身去探究问题的本质。这也是我从学生到老师身份转换过程中，研究心态上一个很大的变化。

汤思宇：身份转变之前，我是自己思考问题如何解决，但现在我要帮学生进行思考。帮学生思考的过程中，想问题需要更加丰富，角度也要更加多维。例如这个问题解决之后，它的用途在哪里等等。

对学生的期望，我有两点：第一，学生交流的能力和积极性要强，因为交流的越充分，项目就会做得越顺，通过交流我也能更了解细节，从而有针对性地帮助学生；第二，多思考“为什么”，例如经常有学生拿论文中提到的新方法问我，这个方法能否用到那个问题上。其实，他更应该想的是，这个问题的本质是什么，解决问题更好的方式是什么。

王井东：<

学术新星畅谈计算机视觉科研之路：视觉研究已经成熟，跨学科方法成为趋势

评论（0人参与）

最新评论

无处不在,搜你所想

学术新星畅谈计算机视觉科研之路：视觉研究已经成熟，跨学科方法成为趋势

最新评论