深度生成模型之GAN的评估
GAN评估问题
1. 评估指标的要求
- 生成质量:能生成更为真实样本的模型应当得到更好的分数,评价指标给出的结构应当与人类感知一致
- 多样性:生成更具有多样性样本的模型应当得到更好的分数,评价模型过拟合、崩溃、简单记忆等问题
- 可控制性与理解性:若隐变量z有比较明确的“意义”甚至连续,则可控制z得到期望的样本,应该得到更好的评价
2. 其他评估指标的要求
- 有界性、复杂度、语义不变性、变换敏感
定量评估指标
1. GAN train/ GAN test
- 通过数据集的划分进行评估
2. Inception分数
- 使用熵对样本的质量进行评估
- 综合质量和多样性
3. Inception分数的缺陷与改进
- IS只考虑生成器的分布p_g而忽略数据集的分布p_data,无法检测生成器过拟合问题,可能会鼓励模型只学习清晰和多样化图像
- M-IS(Modifified Inception Score): 关注了类内模式崩溃的问题
- 物体类别分布以及模型能力
4. Frechet Inception Distance
- 计算生成样本和真实样本的CNN特征构成的两个高斯分布的弗雷歇距离
5. Kernel MMD(Kernel Maximum Mean Discrepancy)
- 核最大均值差异,选择一个核函数k(x,y),计算样本距离
6. Wasserstein Distance
- 使用一个已经训练好的判别器D(x)对真实样本输出高预测值,假样本输出低预测值
7. 1-最近邻分类器
- 通过判定出p_data和p_g是否相等
注:部分内容来自阿里云天池