# 3DCNN 视频行为检测平台笔记

学习内容基于：https://www.bilibili.com/video/BV1kc411Q7Tj

# 图像的本质

图像是由 RGB 三通道组成的，一般数值范围是 0 到 255.

因此像素矩阵为：H * W * 3，其中 H 为高，W 是宽。

# 从图像到视频

视频本质上是由连续的图片（视频帧），快速播放构成的。

图片的像素矩阵是 H * W * 3

视频就是 D * H * W * 3，其中 D 是深度，是视频帧的叠加。

不同的库对与这 4 个维度顺序表述不同，但这四个维度诚然如此。

# 2D 检测方法对比

# C3D 网络流程

这个（1，1，1），三个数字是有点手法的，第一个数是代表了深度，第二个、第三个代表了高和宽。

我们可以看到，一般来说这个卷积核大小一般是（3，3，3），填充是（1，1，1），经过这样的卷积过后，特征图大小不变。

这里是 up 的解释，已经是非常的直观易懂。

# 动手搭建一个 C3D

python 深度学习 CNN 3D_CNN