DIMVC

论文信息

  • Deep Incomplete Multi-View Clustering via Mining Cluster Complementarity

整体工作流程

  1. 预训练阶段:首先使用自编码器对多视图数据进行无监督预训练,学习有效的特征表示

  2. 初始化:用K-means对编码后的特征进行初始聚类,得到初始聚类中心

  3. 联合优化:

    • 自编码器优化特征表示
    • 聚类层优化聚类中心
    • 通过权重机制整合多视图信息
  4. 多视图融合:代码中通过计算方差和加权组合,融合多个视图的特征信息

要点笔记

聚类层的处理

  • 聚类层基于t分布的形似度得到概率分布
  • 这是层的核心计算部分,实现了:
    1. 计算每个样本与各聚类中心的欧氏距离平方
    2. 将距离转换为基于t分布的相似度
    3. 对相似度进行归一化,得到概率分布
      具体计算公式:
1
2
3
4
q_ij = 1/(1 + (dist(x_i, u_j)²/alpha))
q_ij = q_ij^((alpha+1)/2)
# 归一化
q_ij = q_ij / sum(q_ij)

相似度度量

  • 基本概念:相似度度量通常满足以下特性:
    • 值越大表示两个对象越相似
    • 自反性:对象与自身的相似度最大
    • 对称性:A与B的相似度等于B与A的相似度
    • 相似度的反面是距离度量,距离越小表示越相似