流形正则化的多任务学习以及多核学习论文阅读总结

华电北风吹
日期:2016-05-24

本文只讨论fMRI,MEG,EEG等认知学科涉及到的数据和问题。

线性回归容易因为过拟合而出现高方差,因此为了控制模型复杂度往往在线性回归的时候添加很多正则项,众所周知的就有 L0,L1,L2 L1 范式效果是使得参数每一项的值向0缩减,而 L0,L2 范式则是通过将一些参数的权值归零来缩减特征的个数。

一、多任务学习的提出
在多任务学习中,每一个任务下数据特征的维数相等,并且对应于相同的意义。
基于 L1 范式可以缩减特征的性质,Multi-task feature learning via efficient l2,1-norm minimization这篇文章将其扩展到了多任务学习中。
其中使用的目标函数表达式为
minW12kj=1||yjAjwj||2+ρ||W||2,1(1-1)
其中 wjRn×1 相当于普通线性回归里面的权重, W=[w1,w2,...,wk]n×k , ||W||2,1=ni=1||wi|| ,而 wi=[Wi,1,Wi,2,...,Wi,k] 。这里相当于对参数矩阵 W 进行了一次按行稀疏化,也就是按行进行特征选择。

二、多任务学习之任务间正则化约束
考虑到不同任务间的数据表示的是同一个状态,Inter-modality relationship constrained multi-modality multi-task feature selection for Alzheimer’s Disease and mild cognitive impairment identification这篇文章提出了对任务间的特征进行流形相似度约束,即利用当前该任务的线性回归权重 wj 对该任务下的特征进行映射,要求对于同一个样本不同任务下映射后的点的距离要相近。即
D=ni=1mj=1mk=1,kj||xjiwjxkiwk||2F||xjixki||2F(2-1)
加上多任务学习的约束条件,这篇文章的总的约束目标函数就是
minwmj=1||Xjwjyj||2F+λ1||W||2,1+λ2D(2-2)
其中 n 表示样本个数, m 表示任务个数,其它表示方式虽有不同但类似不再详述。

三、多任务学习之样本间正则化约束
以往的的话如果仅仅有一个任务下采集到的数据,我们往往对单个任务下的数据建立分类模型,Manifold regularized multitask feature learning for multimodality disease classification这篇文章上一篇类似,利用对应任务下线性回归的参数 wj ,将这个任务下的特征进行映射,要求对于同一个任务来说,映射后这个任务下类别相同的点映射后应该离得尽量近。所以有如下的正则化约束因子,
minWMm1Ni,jSmij||f(xmi)f(xmj)||22(3-1)
并且公式(3-1)等价于
minw2Mm=1(Xmwm)TLm(Xmwm)(3-2)
其中如果 xmi xmj 同一类的话 Smij=1 否则 Smij=0 .对于公式(3-1)化简得到的公式(3-2)主要说说这个 Lm ,容易发现
Lm=DmSm(3-3)
其中 Dm 一个对角矩阵, Dmii=Nj=1Smij
这样在结合多任务学习的经典公式(1-1)就得到这篇文章里面的目标约公式了
minW12Mm=1||ΥXmwm||22+β||W||2,1+γMm=1(Xmwm)TLm(Xmwm)(3-4)
这篇文章在到这儿以后并没有结束,而是基于公式(3-3)的几何意义,将其扩展到了半正定的情况。其中,修改后的
Smij=exp(dist(xmi,xmj)/t)(3-5)
对角矩阵变为了有标签的为1,无标签的为0.

四、多任务学习的分类器—多核学习
对于多任务数据,可以利用SVM对不同的任务分别建立核函数然后进行分类,这个就不再说了,具体可以参考我的SVM相关博客,也可以参考最后一篇参考论文。

参考论文:
1. Multi-task feature learning via efficient l2,1-norm minimization
2. Inter-modality relationship constrained multi-modality multi-task feature selection for Alzheimer’s Disease and mild cognitive impairment identification
3. Manifold regularized multitask feature learning for multimodality disease classification
4. Ensemble sparse classification of Alzheimer’s disease

相关文章

正则替换html代码中img标签的src值在开发富文本信息在移动端...
正则表达式
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。它...
正则表达式是特殊的字符序列,利用事先定义好的特定字符以及...
Python界一名小学生,热心分享编程学习。
收集整理每周优质开发者内容,包括、、等方面。每周五定期发...