再生核方法-第四章 算子的应用

再生核方法-第四章 算子的应用

一般非线性回归的变量选择

考虑模型

yi=f(xi)+εi,
其中xiRd,中f来自于一个对称正定核k诱导出的再生核希尔伯特空间H。定义偏导函数的L2(P)范数
(1.1)fxaP=(f(x)xa)2dP(x).
在一定条件下,有fxaP=0  f关于xa是常数。 (1.1)的样本版本为
fxan=1ni=1n(f(xi)xa)2,
其中fxa表示f关于第a个分量的偏导数。

我们考虑如下最小化如下正则化的泛函来求解函数f,并实现变量选择,

(1.2)E^τ(f)=1ni=1n(yif(xi))2+τ(2Ω^1D(f)+νfH2).
添加νfH2项是为了泛函的强凸性,从而保证解的唯一性,也保证算法的稳定性。

推导新的表示定理

由核函数的再生性可得,对 fH,xX,

f(x)=f,kxH
定义抽样算子S^,它输出一个函数fH在样本点的取值,即
S^:HRn,    (S^f)i=f,kxi,  i=1,,n.
如果核函数有界,则该算子是线性且有界的(见参考文献)。由定义和再生性可知:(S^f)i=f(xi).

下面介绍一下再生核理论如何实现导数的有效计算。记核函数关于第一个变量的偏导数为

(ak)xk(s,)sa|s=x.

根据Zhou(2008)中定理1有:如果k为至少二次可微函数(kC2(X×X)),则对xX(ak)xH并且对于a=1,,d,

fxa=f,(ak)x.
于是,关于导数可以定义类似的抽样算子:
D^a:HRn,    (D^af)i=f,(ak)xi,  i=1,,n.
进一步,定义经验梯度算子:^:H(Rn)d,  ^f=(D^af,a=1,,d). 在一定条件下,可以证明这些算子都是线性且有界的。

F(f)=1ni=1n(yif(xi))2+τνfH2,则根据算子定义,可以重写成:

(1.3)F(f)=1nYS^f2+τνfH2,
其中Y=(y1,,yn)T。于是,泛函F关于f的导数为
F(f)=2nS^(S^fY)+2τνf,
其中S^S^的伴随算子。

对于任意算子A:WV,定义它的值空间(也叫Range空间)为:

Range(A)={Aw:wW}V.
定义它的零空间(也叫kernel空间)为:
Ker(A)={w:Aw=0,wW}.

新表示定理的证明:因为Range(S^)+Range(V^)(此处加号指两个集合的并)是H的一个闭子空间,于是对任意函数fH存在存在正交分解:f=f//+f,其中f//Range(S^)+Range(V^),而f{Range(S^)+Range(V^)}. 将该分解代入(1.2),分别考察目标函数中每一项与f分解的依赖关系。第一项只通过f(xi)f产生关系,有f(xi)=kxif=kxif//+kxif

本内容参考文献:
Rosasco, et al., Nonparameteric Sparsity and Regularization, 2013, JMLR.