再生核方法-第四章 算子的应用

再生核方法-第四章 算子的应用

一般非线性回归的变量选择

考虑模型 \[y_i = f^*(x_i) + \varepsilon_i,\] 其中\(x_i \in R^d\),中\(f^*\)来自于一个对称正定核\(k\)诱导出的再生核希尔伯特空间\(\mathcal{H}\)。定义偏导函数的\(L_2(P)\)范数 \[\|\frac{\partial f}{\partial x^a}\|_P= \sqrt{\int (\frac{\partial f(x)}{\partial x^a})^2 dP(x)}. \tag{1.1}\] 在一定条件下,有\(\|\frac{\partial f}{\partial x^a}\|_P=0 \Rightarrow ~~ f\)关于\(x_a\)是常数。 \((1.1)\)的样本版本为 \[\|\frac{\partial f}{\partial x^a}\|_n= \sqrt{\frac{1}{n} \sum_{i=1}^n (\frac{\partial f(x_i)}{\partial x^a})^2},\] 其中\(\frac{\partial f}{\partial x^a}\)表示\(f\)关于第\(a\)个分量的偏导数。

我们考虑如下最小化如下正则化的泛函来求解函数\(f\),并实现变量选择, \[\hat E^\tau(f) = \frac{1}{n} \sum_{i=1}^n (y_i - f(x_i))^2 + \tau (2\hat \Omega_1^D(f) + \nu \|f\|^2_{\mathcal{H}}). \tag{1.2}\] 添加\(\nu \|f\|^2_{\mathcal{H}}\)项是为了泛函的强凸性,从而保证解的唯一性,也保证算法的稳定性。

推导新的表示定理

由核函数的再生性可得,对\(\forall ~f\in \mathcal{H}, x\in \mathcal{X},\) \[f(x) = \langle f, k_x \rangle_H\] 定义抽样算子\(\hat S\),它输出一个函数\(f\in \mathcal{H}\)在样本点的取值,即 \[\hat S: \mathcal{H} \rightarrow R^n,~~~~(\hat S f)_i=\langle f, k_{x_i}\rangle,~~i=1,\cdots,n.\] 如果核函数有界,则该算子是线性且有界的(见参考文献)。由定义和再生性可知:\((\hat S f)_i=f(x_i).\)

下面介绍一下再生核理论如何实现导数的有效计算。记核函数关于第一个变量的偏导数为 \[(\partial_a k)_x\equiv \frac{\partial k(s,\cdot)}{\partial s^a}|_{s=x}.\]

根据Zhou(2008)中定理1有:如果\(k\)为至少二次可微函数(\(k\in C^2(\mathcal{X}\times \mathcal{X})\)),则对\(\forall x \in \mathcal{X}\)\((\partial_a k)_x\in \mathcal{H}\)并且对于\(a=1,\cdots,d,\) \[\frac{\partial f}{\partial x^a} = \langle f, (\partial_a k)_x \rangle.\] 于是,关于导数可以定义类似的抽样算子: \[\hat D_a: \mathcal{H} \rightarrow R^n,~~~~(\hat D_a f)_i=\langle f, (\partial_a k)_{x_i}\rangle,~~i=1,\cdots,n.\] 进一步,定义经验梯度算子:\(\hat \nabla: \mathcal{H} \rightarrow (R^n)^d,~~ \hat\nabla f= (\hat D_a f, a=1,\cdots,d)\). 在一定条件下,可以证明这些算子都是线性且有界的。

\(F(f)=\frac{1}{n} \sum_{i=1}^n (y_i - f(x_i))^2 + \tau\nu \|f\|^2_{\mathcal{H}}\),则根据算子定义,可以重写成: \[F(f) =\frac{1}{n}\|Y- \hat S f\|^2 + \tau\nu \|f\|^2_{\mathcal{H}}, \tag{1.3}\] 其中\(Y=(y_1,\cdots, y_n)^T\)。于是,泛函\(F\)关于\(f\)的导数为 \[\nabla F(f)=\frac{2}{n} \hat S^* (\hat S f -Y) + 2\tau \nu f,\] 其中\(\hat S^*\)\(\hat S\)的伴随算子。

对于任意算子\(A: W \rightarrow V\),定义它的值空间(也叫Range空间)为: \[Range(A) = \{Aw: \forall w \in W\} \subset V.\]定义它的零空间(也叫kernel空间)为: \[Ker(A)=\{w: Aw = 0, w \in W\}.\]

新表示定理的证明:因为\(Range(\hat S^*)+Range(\hat V^*)\)(此处加号指两个集合的并)是\(\mathcal{H}\)的一个闭子空间,于是对任意函数\(f \in \mathcal{H}\)存在存在正交分解:\(f = f^{//} + f^{\perp}\),其中\(f^{//} \in Range(\hat S^*)+Range(\hat V^*)\),而\(f^\perp \perp \{Range(\hat S^*)+Range(\hat V^*)\}\). 将该分解代入\((1.2)\),分别考察目标函数中每一项与\(f\)分解的依赖关系。第一项只通过\(f(x_i)\)\(f\)产生关系,有\(f(x_i) = \langle k_{x_i}, f \rangle = \langle k_{x_i}, f^{//} \rangle + \langle k_{x_i}, f^{\perp} \rangle\)

本内容参考文献:
Rosasco, et al., Nonparameteric Sparsity and Regularization, 2013, JMLR.