🎙️ 语音朗读
当前: 晓晓 (温柔女声)
引言
Vision Transformer (ViT) 将Transformer架构成功应用于计算机视觉任务。
核心思想
将图像划分为patch,每个patch作为一个”token”输入Transformer。
graph TB
A[输入图像] --> B[划分为Patches]
B --> C[Patch Embedding]
C --> D[添加位置编码]
D --> E[Transformer Encoder]
E --> F[分类头]
F --> G[分类结果]
实现代码
1 | import torch |
使用预训练模型
1 | from transformers import ViTForImageClassification |
实验结果
| 模型 | ImageNet Top-1 |
|---|---|
| ViT-B/16 | 77.9% |
| ViT-L/16 | 76.5% |
| ViT-H/14 | 88.6% |
总结
ViT证明了Transformer在CV领域的可行性,开创了视觉模型的新时代。