主要贡献 https://zhengli97.github.io/PromptKD/chinese_interpertation.html 重用 teacher CLIP 产生的text feature用于学生的训练和推断。这样确保了text feature高质量的同时,还显著的节省计算量,训练时
主要工作 一般的模型结构设计和训练pipeline 对126个MM-LLMs进行分类 审查了选定的 MM-LLM 在主流基准上的表现,并总结了增强 MM-LLM 效力的关键训
学习时间 8月4日 到 8月11日 学习目标 结束d2l计算机视觉 学习内容 多尺度目标检测 SSD RCNN 转置卷积 FCN 学习总结 本周学习了计算机视觉的后半部分,主要聚焦
语义分割是对图像中的每个像素分类。 全卷积网络(fully convolutional network,FCN)采用卷积神经网络实现了从图像像素到像素类别的变换 。 与我们之
到目前为止,我们所见到的卷积神经网络层,例如卷积)和汇聚层,通常会减少下采样输入图像的空间维度(高和宽)。 然而如果输入和输出图像的空间维度相
R-CNN R-CNN首先从输入图像中选取若干(例如2000个)提议区域(如锚框也是一种选取方法),并标注它们的类别和边界框(如偏移量)。 然后,用卷积
模型 此模型主要由基础网络组成,其后是几个多尺度特征块。 基本网络用于从输入图像中提取特征,因此它可以使用深度卷积神经网络。 单发多框检测论文中选
多尺度锚框 减少图像上的锚框数量并不困难。 比如,我们可以在输入图像中均匀采样一小部分像素,并以它们为中心生成锚框。 此外,在不同尺度下,我们可以
学习时间 7月29日 到 8月4日 学习目标 d2l计算机视觉 双目视觉论文 学习内容 图像增强 微调 目标检测和边界框 锚框 RAFT 学习总结 本周继续学习了d2l的计算
目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边界从而更准确地预测目标的真实边界框(g