TH讠NK (@THyanNK) 在【笔记】斯坦福 CS231n （带CNN反向传播详细推导）中发帖CS231n NotesWritten by TH 讠 NK一、前言常见的数据集PASCALImageNetCIRAF10(10 classes, 50000 train and 10000 test/class)为什么 10 年代的算法比 90 年代的更好？计算能力更强，而且有了 GPU数据集更好，带 label 的数据更多功能目标识别(object detection)：识别出一张图片中的物体是什么目标分割：找出物体在哪里，并画出边界框(bounding box)动作识别图像描述(image caption)二、目标识别语义鸿沟(sematic gap)我们给一个图像的语义概念(sematic idea)和计算机实际看到的像素值有着巨大的差距而且还要处理视角、大小、明暗、变形、遮挡、背景混乱、类内差距的情况，因此我们...

TH讠NK (@THyanNK) 在【笔记】斯坦福 CS231n （带CNN反向传播详细推导）中发帖

CS231n Notes
Written by TH 讠 NK
一、前言


常见的数据集

PASCAL
ImageNet
CIRAF10(10 classes, 50000 train and 10000 test/class)



为什么 10 年代的算法比 90 年代的更好？

计算能力更强，而且有了 GPU
数据集更好，带 label 的数据更多



功能

目标识别(object detection)：识别出一张图片中的物体是什么
目标分割：找出物体在哪里，并画出边界框(bounding box)
动作识别
图像描述(image caption)



二、目标识别


语义鸿沟(sematic gap)

我们给一个图像的语义概念(sematic idea)和计算机实际看到的像素值有着巨大的差距
而且还要处理视角、大小、明暗、变形、遮挡、背景混乱、类内差距的情况，因此我们...