# 3DCNN 视频行为检测平台笔记

学习内容基于:https://www.bilibili.com/video/BV1kc411Q7Tj

# 图像的本质

图像是由 RGB 三通道组成的,一般数值范围是 0 到 255.

因此像素矩阵为:H * W * 3,其中 H 为高,W 是宽。

# 从图像到视频

视频本质上是由连续的图片(视频帧),快速播放构成的。

图片的像素矩阵是 H * W * 3

视频就是 D * H * W * 3,其中 D 是深度,是视频帧的叠加。

不同的库对与这 4 个维度顺序表述不同,但这四个维度诚然如此。

# 2D 检测方法对比

1.png 1.png 1.png

# C3D 网络流程

这个(1,1,1),三个数字是有点手法的,第一个数是代表了深度,第二个、第三个代表了高和宽。

我们可以看到,一般来说这个卷积核大小一般是(3,3,3),填充是(1,1,1),经过这样的卷积过后,特征图大小不变。

这里是 up 的解释,已经是非常的直观易懂。

# 动手搭建一个 C3D

更新于 阅读次数

请我喝[茶]~( ̄▽ ̄)~*

KarryLiu 微信支付

微信支付

KarryLiu 支付宝

支付宝