DIMVC
论文信息
- Deep Incomplete Multi-View Clustering via Mining Cluster Complementarity
整体工作流程
预训练阶段:首先使用自编码器对多视图数据进行无监督预训练,学习有效的特征表示
初始化:用K-means对编码后的特征进行初始聚类,得到初始聚类中心
联合优化:
- 自编码器优化特征表示
- 聚类层优化聚类中心
- 通过权重机制整合多视图信息
多视图融合:代码中通过计算方差和加权组合,融合多个视图的特征信息
要点笔记
聚类层的处理
- 聚类层基于t分布的形似度得到概率分布
- 这是层的核心计算部分,实现了:
- 计算每个样本与各聚类中心的欧氏距离平方
- 将距离转换为基于t分布的相似度
- 对相似度进行归一化,得到概率分布
具体计算公式:
1 | q_ij = 1/(1 + (dist(x_i, u_j)²/alpha)) |
相似度度量
- 基本概念:相似度度量通常满足以下特性:
- 值越大表示两个对象越相似
- 自反性:对象与自身的相似度最大
- 对称性:A与B的相似度等于B与A的相似度
- 相似度的反面是距离度量,距离越小表示越相似