Flow Matching

先看视频

【流匹配【双语字幕】- 形象理解流匹配 (Flow Matching)】 https://www.bilibili.com/video/BV15xCFYMELu/?share_source=copy_web&vd_source=0261590b30f63d16142104bb154164d9

🧠 一句话理解 Flow Matching

Flow Matching 是一种生成模型训练方法，用来学习从高斯噪声分布到真实图像分布的平滑路径。（是对diffusion的改进）

它的目标是学习一个 vector field（向量场），这个向量场可以指引一个“粒子”（样本）从起点分布（如噪声）流动到终点分布（真实图像）。

🧊 先说 diffusion 模型的基本思路（从头理一遍）

Diffusion 模型的核心思想是：

先把图像一步步加噪声变成纯高斯噪声，再训练模型学会一步步去噪，还原图像。

🌀 两个阶段：

1. 正向过程（Forward Process）

这个过程我们用来合成训练数据，并不是模型要生成的部分。

设原始图像为 x_0，我们构造一系列加噪图像：

$x_0 \rightarrow x_1 \rightarrow x_2 \rightarrow \cdots \rightarrow x_T$

每一步我们加一点噪声，比如：

$x_t = \sqrt{1 - \beta_t} x_{t-1} + \sqrt{\beta_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$

这样最终 $x_T \approx \mathcal{N}(0, I)$，就是高斯噪声了。

👉 所以我们通过“加噪”把真实图像慢慢变得随机。

2. 反向过程（Reverse Process）

我们训练一个神经网络 $\epsilon_\theta(x_t, t)$，学会从 noisy 图像 $x_t$ 中预测噪声 $\epsilon$。

训练目标是最小化：

$\mathbb{E}{x_0, t, \epsilon} \left[ \left| \epsilon\theta(x_t, t) - \epsilon \right|^2 \right]$

用这个模型我们可以从 $x_T \sim \mathcal{N}(0, I)$ 出发，一步步去噪，还原图像：

$x_{t-1} \approx \frac{1}{\sqrt{1 - \beta_t}} \left( x_t - \sqrt{\beta_t} \epsilon_\theta(x_t, t) \right)$

🎯 目标是学一个“反向噪声去除”的过程

所以 diffusion 模型的核心是：

它不是直接生成图像，而是一步一步从噪声“还原”图像；
这个过程模拟了一个随机过程的反向轨迹，理论上可以用 Langevin dynamics 或 score-based methods 来建模；
它的理论基础是 score matching、SDE/ODE、反向马尔科夫过程等。

😕 那 diffusion 模型有哪些问题？

虽然 diffusion 很成功，但也有几个不足：

问题	解释
推理速度慢	一张图像通常需要 50～1000 步去噪
路径不唯一	你只学了反向过程，但没说“应该沿着哪条轨迹”去恢复图像
非确定性	反向过程带有噪声，结果会有波动
训练目标有点间接	学的是噪声，而不是图像或结构本身

这些问题促使大家去想：

有没有可能，我们直接学一个从高斯噪声流向真实图像的路径，而不是一步步去噪？

这里就要引出 Flow Matching 了：

如果我们可以学一个向量场，直接描述“图像是如何从随机变成真实的”，是不是更高效、更自然？

🔄 和 Diffusion 模型的对比

项目	Diffusion Model	Flow Matching
构造方式	正向加入噪声 + 反向去噪	构建从初始分布到目标分布的流路径
推理方式	多步（几十到上百步）	单步或少量步数（ODE/SDE 解）
学习目标	学习反向过程（score function）	学习 flow field（一个向量场）
模型类型	分数匹配（Score Matching）	向量场拟合（Flow Matching）

很好！现在你已经完整了解了 diffusion 的训练逻辑（从加噪、预测噪声、再逐步去噪），这正好为我们引出 Flow Matching 提供了完美的起点。

🌊 Flow Matching 是如何改进 diffusion 的？

我们来从三个方面讲清楚：

思想角度：diffusion 的限制是什么，flow matching 是怎么想的
训练目标怎么改：不预测噪声，预测“方向”
采样推理怎么做：一步或少步还原，而不是几百步

💡 Diffusion 的核心缺点

你已经体会到了 diffusion 有一些“机械”的地方：

问题	描述
🚶‍♀️ 推理很慢	要走几百步才能从噪声回到图像
🧩 过程是离散的	一步步去噪其实不是真实的“自然变形”路径
🎯 训练目标间接	你训练的是“预测噪声”，不是直接告诉你图像该怎么变化

于是有了 Flow Matching 的新思路：

“我们不如直接训练一个向量场，告诉我们：一个 noisy 图像在某个时间点应该往哪个方向走。”

就像风场、流体一样，每个位置都有一个指引它流向目标图像的速度。

🧭 Flow Matching 的基本目标

我们仍然有两个分布：

初始分布 $\mu(x_0)$：比如标准高斯
目标分布 $\nu(x_1)$：比如图像数据

我们想学一个路径 $x(t)$，从 $x(0) \sim \mu$ 流向 $x(1) \sim \nu$

形式上就是：

$\frac{dx}{dt} = v(x(t), t)$

你可以把它理解为：

x(t)：在时间 t 的图像状态（还没生成完）
v(x, t)：告诉我们在时间 t 时，输入 x 应该“怎么移动”，往哪边走（velocity）

这个速度场就是我们要训练的神经网络！

🔁 Flow Matching 的训练目标

我们现在要做一件事：

从一对样本 $x_0 \sim \mu，x_1 \sim \nu$ 之间，选一个时间点 $t \in [0, 1]$，看看它们之间的中间位置 x_t，然后教模型在这个位置输出正确的流动方向。

✅ 构造训练样本

从高斯采一个噪声图 $x_0 \sim \mathcal{N}(0, I)$
从真实图像采一个目标图 $x_1 \sim p_{\text{data}}$
从区间 [0, 1] 采一个随机时间 $t \sim \mathcal{U}[0, 1]$
构造路径中点（线性插值）：

$x_t = (1 - t) x_0 + t x_1$

表示当前在 $x_0$ 和 $x_1$ 之间的某个位置

✅ 模型目标：预测流动方向（速度）

我们希望神经网络预测的向量（方向）是：

$v^*(x_t, t) = \frac{x_1 - x_0}{t}$

解释一下：

$x_1 - x_0$：从起点到终点的位移向量
除以 $t$：当前时间走了多远，所以速度就是 $\text{位移} / \text{时间}$

✅ 训练 Loss（Flow Matching Loss）

$L(\theta) = \mathbb{E}{x_0, x_1, t} \left[ \left| v\theta(x_t, t) - \frac{x_1 - x_0}{t} \right|^2 \right]$

$v_\theta(x_t, t)$：神经网络输出的预测速度
目标是预测出“应该往哪个方向流动，才能最终走到 $x_1$”

这个 loss 本质上是：在路径中间位置，拟合“应该往目标图像前进的速度”。

t 越小表示：

当前时刻更靠近起点 $x_0$；
离目标图像还很远，要赶得更快！

于是：

$\frac{x_1 - x_0}{t}$

就自然变大了——因为单位时间内你要跑更多距离，速度就要高。

这速度自然是：

越早的时刻（t小）走得越快；
越晚的时刻（t接近1）靠近终点，走得慢；

🧮 延伸理解：Flow Matching 拟合的是一条「线性速度轨迹」

在默认的 Flow Matching 设定中：

路径是线性的（直线插值）
速度是恒定的（$v^* = \frac{x_1 - x_0}{t}$ 只是从位置倒推得出）

但如果我们未来希望：

加权中间路径，比如不走直线（像 optimal transport path），
或者加入潜变量（比如条件生成），那就会更复杂。

“t 越小代表离 x0 越近，离真实图像越远，所以需要它预测出来速度越大” ✅✅✅

是 flow matching loss 的核心直觉之一！

🧠 和 diffusion 有什么不同？

项目	Diffusion	Flow Matching
模型学的是什么	噪声 $\epsilon$	速度/方向 $v$
输入是啥	$x_t, t$	$x_t, t$
输出是啥	噪声 $\epsilon$	速度向量 $v$
推理过程	多步去噪	解一个 ODE（可少步甚至一步）

🎯 推理阶段怎么做（生成图像）？

我们用一个 ODE 解器（如 Runge-Kutta）来解：

$\frac{dx}{dt} = v_\theta(x, t)$

初始值：$x(0) \sim \mathcal{N}(0, I)$

终点：$x(1) \approx \text{生成图像}$

PyTorch 里你可以用 torchdiffeq 里的 odeint() 来一步生成图像！

✅ Flow Matching 总结流程图：

🔁 训练阶段：
- 从高斯采 $x_0$，从图像采 $x_1$
- 随机选时间 $t$，插值得 $x_t$
- 训练神经网络 $v_\theta(x_t, t)$ 拟合 $\frac{x_1 - x_0}{t}$
🎨 推理阶段：
- 从噪声开始，解微分方程 $dx/dt = v_\theta(x, t)$
- 得到图像 $x(1)$

你现在可以开始体会出区别了吗？和 diffusion 的逐步噪声回退相比，flow matching 就像直接学会了“导航地图”，告诉你每一秒钟该往哪边动。

🧾 核心论文推荐

Flow Matching for Generative Modeling （NeurIPS 2023）
其他相关概念：Neural ODEs, Schrödinger Bridge, Optimal Transport

🌀 Diffusion 像什么？（弯弯绕绕）

🚶‍♂️ 类比一：你在黑夜中走路

你从一个随机起点（高斯噪声）出发，要走到真实图像（目标分布）。
但你每走一步只能看到前面一点点（通过预测当前噪声的方式来“摸索”方向）。
所以你会：
- 每次都只迈一小步；
- 慢慢接近目标，但路径可能弯弯绕绕；
- 需要走很多步（几百次预测）才能最终走到目标。

📉 本质：

每一步是局部最优的方向调整；
模型没有“全局导航图”，只能靠逐步修正方向；
所以训练和推理都慢（很多步骤 + 误差累积）；
但好处是稳 —— 很难一下子走偏。

🌊 Flow Matching 像什么？（直接直线走过去）

🧭 类比二：你在白天用导航走路

你知道起点和终点；
你有一个导航（vector field）告诉你：此时此地，你该往哪个方向走；
所以你可以：
- 不用走很多小步，每一步都知道朝着终点的方向走；
- 可以少步甚至一步到达；
- 走的路径就是一条全局最优或合理的曲线（比如一条直线）。

📈 本质：

模型学的是一个全局方向图（velocity field）；
每一个 x_t 都知道自己该往哪走；
所以训练目标更直接，推理过程更快；
缺点可能是如果向量场不准，可能一开始就走偏（所以要训练好）。

🧩 总结对比表

对比点	Diffusion	Flow Matching
推理方式	一步步修正噪声，局部决策	全局路径，速度指引
路径形状	弯弯绕绕的随机路径	线性或平滑曲线
模型学什么	噪声（score function）	向量场（velocity function）
推理步数	多（50～1000步）	少（1～20步，甚至1步）
训练方式	Score matching	Flow matching（监督速度）
本质风格	马尔科夫过程、SDE、随机漫步	ODE/向量场、连续轨迹

🎯 小总结：

Diffusion 是“摸黑走迷宫”，每一步都很小心，稳但慢；

Flow Matching 是“开导航冲终点”，走得快，而且直接。

🌊 Flow Matching Demo（用于 MNIST）完整代码

📦 安装依赖（如果还没装）

pip install torch torchvision matplotlib

🧩 1. 数据预处理 + 模型定义

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt

device = 'cuda' if torch.cuda.is_available() else 'cpu'

# 加载 MNIST 数据集
transform = transforms.Compose([
    transforms.ToTensor(),
    lambda x: x * 2. - 1.  # 归一化到 [-1, 1]
])
dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
dataloader = DataLoader(dataset, batch_size=128, shuffle=True)

# 简单 CNN 网络作为向量场预测器
class SimpleFlowNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(
            nn.Conv2d(2, 32, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(32, 64, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(64, 32, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(32, 1, 3, padding=1),
        )

    def forward(self, x, t):
        t = t.view(-1, 1, 1, 1).expand(x.size(0), 1, 28, 28)
        x = torch.cat([x, t], dim=1)
        return self.net(x)

🧠 2. 训练过程（Flow Matching Loss）

model = SimpleFlowNet().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

# 只训练 1 个 epoch（你可以改成更多）
for epoch in range(1):
    for x1, _ in dataloader:
        x1 = x1.to(device)
        x0 = torch.randn_like(x1)  # 高斯噪声起点
        t = torch.rand(x1.size(0), device=device).view(-1, 1, 1, 1)

        # 中间插值点
        xt = (1 - t) * x0 + t * x1

        # 目标速度方向
        target_v = (x1 - x0) / t

        # 预测速度
        pred_v = model(xt, t)

        # Flow Matching loss
        loss = F.mse_loss(pred_v, target_v)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

🖼️ 3. 推理阶段：用解 ODE 的方式生成图像

@torch.no_grad()
def sample_flow_matching(model, steps=10, n_samples=16):
    x = torch.randn(n_samples, 1, 28, 28).to(device)
    for i in range(steps):
        t_val = (i + 1) / steps
        t = torch.full((n_samples,), t_val, device=device)
        dx = model(x, t.view(-1, 1, 1, 1)) * (1.0 / steps)
        x = x + dx
    return x.cpu()

samples = sample_flow_matching(model, steps=10)

# 显示生成的图像
fig, axes = plt.subplots(4, 4, figsize=(6, 6))
for ax, img in zip(axes.flatten(), samples):
    ax.imshow(img.squeeze(), cmap='gray')
    ax.axis('off')
plt.tight_layout()
plt.show()

✅ 效果

这个 demo 可以做到：

训练：用 Flow Matching loss 让模型学会“从噪声走向图像”的速度方向；
生成：从高斯噪声出发，只需少量步数（如 10）即可合成出像样的图像；
网络结构非常轻量，运行很快，适合理解基本概念。

加强版demo：

换成 CIFAR-10 做彩色图像；

用更强的 U-Net；

用真实 ODE 解器（torchdiffeq.odeint）一步采样

# Rewriting the file after kernel reset
flow_matching_cifar10_code = ""
# Required installations:
# pip install torch torchvision torchdiffeq

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
from torchdiffeq import odeint
import matplotlib.pyplot as plt

device = 'cuda' if torch.cuda.is_available() else 'cpu'
batch_size = 64
T = 1.0  # Continuous time

# CIFAR-10 data loader
transform = transforms.Compose([
    transforms.ToTensor(),
    lambda x: x * 2. - 1.
])
dataset = datasets.CIFAR10(root='./data', train=True, transform=transform, download=True)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

# U-Net style encoder-decoder
class DownBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.net = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(out_channels, out_channels, 3, padding=1),
            nn.ReLU()
        )

    def forward(self, x):
        return self.net(x)

class UpBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.net = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(out_channels, out_channels, 3, padding=1),
            nn.ReLU()
        )

    def forward(self, x):
        return self.net(x)

class UNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.down1 = DownBlock(4, 64)
        self.down2 = DownBlock(64, 128)
        self.middle = DownBlock(128, 256)
        self.up1 = UpBlock(256 + 128, 128)
        self.up2 = UpBlock(128 + 64, 64)
        self.final = nn.Conv2d(64, 3, 1)

    def forward(self, x, t):
        t = t.view(-1, 1, 1, 1).expand(x.shape[0], 1, x.shape[2], x.shape[3])
        x = torch.cat([x, t], dim=1)

        d1 = self.down1(x)
        d2 = self.down2(F.avg_pool2d(d1, 2))
        mid = self.middle(F.avg_pool2d(d2, 2))
        up1 = self.up1(F.interpolate(mid, scale_factor=2)[:, :, :d2.shape[2], :d2.shape[3]])
        up2 = self.up2(F.interpolate(torch.cat([up1, d2], dim=1), scale_factor=2)[:, :, :d1.shape[2], :d1.shape[3]])
        out = self.final(torch.cat([up2, d1], dim=1))
        return out

# Model and optimizer
model = UNet().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)

# Train with Flow Matching Loss
for epoch in range(1):
    for x1, _ in dataloader:
        x1 = x1.to(device)
        x0 = torch.randn_like(x1)
        t = torch.rand(x1.size(0), device=device).view(-1, 1, 1, 1)

        xt = (1 - t) * x0 + t * x1
        target_v = (x1 - x0) / t

        pred_v = model(xt, t)
        loss = F.mse_loss(pred_v, target_v)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

# ODE-based sampling
class FlowODE(nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = model

    def forward(self, t, x):
        # x shape: [B, C*H*W]
        B = x.shape[0]
        x_img = x.view(B, 3, 32, 32)
        t_tensor = torch.full((B,), t, device=device)
        dx = self.model(x_img, t_tensor.view(-1, 1, 1, 1))
        return dx.view(B, -1)

@torch.no_grad()
def sample_images(model, n_samples=16, steps=50):
    x0 = torch.randn(n_samples, 3, 32, 32).to(device)
    x0_flat = x0.view(n_samples, -1)
    ode_func = FlowODE(model)
    t = torch.tensor([0.0, 1.0], device=device)
    xt = odeint(ode_func, x0_flat, t, method='rk4')[1]
    x_out = xt.view(n_samples, 3, 32, 32).clamp(-1, 1)
    return x_out

samples = sample_images(model)

# Plot
import matplotlib.pyplot as plt
grid = torch.cat([s for s in samples], dim=2).permute(1, 2, 0).cpu()
plt.imshow((grid + 1) / 2)
plt.axis('off')
plt.show()


with open("/mnt/data/flow_matching_cifar10_demo.py", "w") as f:
    f.write(flow_matching_cifar10_code)

"✅ 已生成包含 CIFAR-10 + Flow Matching + 强化 U-Net + ODE 推理的完整 PyTorch 代码，点击下载以在本地运行。"

PREVIOUSDDIM

NEXTIRL