TH讠NK (@THyanNK) 在 【笔记】斯坦福 CS231n (带CNN反向传播详细推导) 中发帖
CS231n Notes
Written by TH 讠 NK
一、前言
常见的数据集
PASCAL
ImageNet
CIRAF10(10 classes, 50000 train and 10000 test/class)
为什么 10 年代的算法比 90 年代的更好?
计算能力更强,而且有了 GPU
数据集更好,带 label 的数据更多
功能
目标识别(object detection):识别出一张图片中的物体是什么
目标分割:找出物体在哪里,并画出边界框(bounding box)
动作识别
图像描述(image caption)
二、目标识别
语义鸿沟(sematic gap)
我们给一个图像的语义概念(sematic idea)和计算机实际看到的像素值有着巨大的差距
而且还要处理视角、大小、明暗、变形、遮挡、背景混乱、类内差距的情况,因此我们...