大脑疾病的机器学习：变压器和视觉变压器 Machine Learning for Brain Disorders: Transformers and Visual Transformers

Transformer最初是为自然语言处理（NLP）任务引入的，但很快被大多数深度学习领域采用，包括计算机视觉。它们测量输入令牌对（对于文本字符串而言，是单词；对于视觉Transformer而言，是图像的部分）之间的关系，被称为注意力。成本随着令牌数量的增加呈指数级增长。对于图像分类，最常见的Transformer架构仅使用Transformer编码器来转换各种输入令牌。然而，在许多其他应用中，传统Transformer架构的解码器部分也被使用。在这里，我们首先介绍注意力机制（第1节），然后介绍基本的Transformer块，包括视觉Transformer（第2节）。接下来，我们讨论了一些改进措施，以考虑小数据集或更少的计算（第3节）。最后，我们介绍了应用于图像分类以外的其他任务的视觉Transformer，如检测、分割、生成和无标签训练（第4节）以及其他领域，如使用文本或音频数据的视频或多模式（第5节）。

论文链接：http://arxiv.org/pdf/2303.12068v1

更多计算机论文：http://cspaper.cn/

Related posts

字符串上子句的等式定理证明 Equational Theorem Proving for Clauses over Strings

字符串上子句的等式定理证明 Equational Theorem Proving for Clauses over Strings

Agda中系统T的强正规化定理的形式证明 A Formal Proof of the Strong Normalization Theorem for System T in Agda

Agda中系统T的强正规化定理的形式证明 A Formal Proof of the Strong Normalization Theorem for System T in Agda

关于对偶连接和统计流形的扭转/曲率相似 On a Torsion/Curvature Analogue of Dual Connections and Statistical Manifolds

关于对偶连接和统计流形的扭转/曲率相似 On a Torsion/Curvature Analogue of Dual Connections and Statistical Manifolds