大咖博客

所有图像都值16x16个词吗?可变序列长度的动态Transformer来了

admin 发表于 2021-06-07 13:48

以ViT为代表的视觉Transformer通常将所有输入图像表征为固定数目的tokens。这项工作发现采用定长的token序列表征数据集中图像是一种低效且次优的做法,并提出一种可针对每个样本自适应使用最合适的token数目的动态ViT模型。
所有图像都值16x16个词吗?可变序列长度的动态Transformer来了

评论 (0人参与

最新评论

暂无评论
admin



文章:58