Computer Vision

About This Series

Computer vision is a field dedicated to extracting 3D information and scene understanding from images and videos. This series starts with the mathematical models of cameras and progresses through feature detection, stereo vision, Structure from Motion, and on to SLAM and NeRF.

Computer vision is widely used in autonomous driving, AR/VR, robotics, medical imaging, and many other fields.

Learning by Level

Introduction

Image and Camera Fundamentals

Digital Image Fundamentals
Pinhole Camera Model
Homogeneous Coordinates and Transformation Matrices
Camera Matrix

Basic

Features and Calibration

Feature Detection (Harris, SIFT, ORB)
Feature Matching
RANSAC
Camera Calibration

Intermediate

Stereo and 3D Reconstruction

Epipolar Geometry
Stereo Vision
Structure from Motion
Multi-View Stereo

Advanced

SLAM and Cutting-Edge Methods

Visual Odometry
SLAM
Deep Learning-Based Methods
NeRF / 3D Gaussian Splatting

Learning Path

Key Topics

Camera Geometry

Pinhole model, projective transformation, intrinsic and extrinsic parameters.

Feature Detection

Methods for detecting distinctive points in images, including Harris, SIFT, and ORB.

3D Reconstruction

Recovering 3D shapes through stereo vision, SfM, and MVS.

SLAM

Simultaneous localization and mapping: estimating position while building a map of the environment.

Related Fields

Image Processing - Filters, transforms, edge detection, etc.
Geometry - Projective geometry, differential geometry
Linear Algebra - Matrices, SVD, least squares