数学物理学报, 2025, 45(4): 1311-1326

求解广义互补问题的 Levenberg-Marquardt 算法

于冬梅,*, 刘大熠*

辽宁工程技术大学理学院 辽宁阜新 123000

The Levenberg-Marquardt Algorithm for Solving the Generalized Complementarity Problems

Yu Dongmei,*, Liu Dayi*

College of Science, Liaoning Technical University, Liaoning Fuxin 123000

通讯作者: *E-mail: yudongmei1113@163.com

收稿日期: 2024-09-5   修回日期: 2025-04-13  

基金资助: 辽宁省自然科学基金(2024-MS-206)
辽宁省教育厅基金(JYTZD2023072)
辽宁省教育厅基金(LJ112410147046)
辽宁省教育厅基金(LJ242410147027)

Received: 2024-09-5   Revised: 2025-04-13  

Fund supported: Supported by the Natural Science Foundation of Liaoning Province(2024-MS-206)
Liaoning Provincial Department of Education(JYTZD2023072)
Liaoning Provincial Department of Education(LJ112410147046)
Liaoning Provincial Department of Education(LJ242410147027)

摘要

该文提出求解广义互补问题的 Levenberg-Marquardt 型方法. 首先, 结合一类互补函数, 将广义互补问题等价重构为非线性方程组, 进而提出一类带有线搜索的自适应修正 Levenberg-Marquardt 算法对其进行求解. 其次, 在适当的条件下分析了算法的收敛性. 最后, 通过数值实验验证了所提出算法的可行性和有效性.

关键词: 广义互补问题; Levenberg-Marquardt 算法; 线搜索; 收敛性分析

Abstract

In this paper, the Levenberg-Marquardt type method is proposed for solving the generalized complementarity problems. Firstly, by integrating a class of complementary functions, the generalized complementarity problem is equivalently reformulated as a system of nonlinear equations. An adaptive modified Levenberg-Marquardt algorithm with line search is then introduced to address this reformulated problem. Furthermore, the convergence of the proposed algorithm is analyzed under appropriate conditions. Finally, numerical experiments are conducted to verify the feasibility and effectiveness of the proposed algorithm.

Keywords: generalized complementarity problem; Levenberg-Marquardt algorithm; line search; convergence analysis

PDF (1733KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

于冬梅, 刘大熠. 求解广义互补问题的 Levenberg-Marquardt 算法[J]. 数学物理学报, 2025, 45(4): 1311-1326

Yu Dongmei, Liu Dayi. The Levenberg-Marquardt Algorithm for Solving the Generalized Complementarity Problems[J]. Acta Mathematica Scientia, 2025, 45(4): 1311-1326

1 引言

考虑广义互补问题 (Generalized Complementarity Problem, GCP)[1], 即求向量 $x\in\mathbb{R}^{n}$, 使得

$\begin{equation} F(x)\geq0, G(x)\geq0, \langle F(x),G(x)\rangle=0, \end{equation}$

其中 $F(x)=(F_{1}(x),\cdots,F_{n}(x))^{\text{T}}$, $G(x)=(G_{1}(x),\cdots,G_{n}(x))^{\text{T}}$. $F_{i}(x)$, $G_{i}(x)$ ($i=1,2,\cdots,n$)$\mathbb{R}^{n}\rightarrow \mathbb{R}$ 上的连续可微函数. 当 $F(x)=Mx+q$ ($M\in \mathbb{R}^{n\times n}, q\in\mathbb{R}^{n}), G(x)=x$ 时, GCP (1.1) 转化为线性互补问题 (Linear Complementarity Problem, LCP)[2]; 当 $G(x)=x$ 时, GCP (1.1) 转化为非线性互补问题 (Nonlinear Complementarity Problem, NCP)[3]; 当 $G(x)=x-E(x)$, 其中 $E(x)$ 是连续可微函数时, GCP (1.1) 转化为隐互补问题 (Implicit Complementarity Problem, ICP)[4].

GCP (1.1) 的一类重要求解方法是利用一类互补函数, 将其等价转化为非线性方程组, 之后构造价值函数, 通过极小化价值函数并运用相关算法求解该非线性方程组得到GCP (1.1) 的解.

Fischer-Burmeister 函数是一类重要的互补函数[5], 其形式为

$\begin{equation} \varphi(a,b)=\sqrt{a^2+b^2}-a-b. \end{equation}$

由(1.2) 式知

$\begin{equation} \varphi(a,b)=0 \Leftrightarrow a\geq0, b\geq0, ab=0. \end{equation}$

根据 (1.3) 式, 求解 GCP (1.1) 转化为求解非线性方程组

$\begin{equation} \Phi(x)=\left(\begin{matrix} \varphi(F_{1}(x),G_{1}(x))\\ \vdots\\ \varphi(F_{n}(x),G_{n}(x)) \end{matrix} \right)=0. \end{equation}$

函数 $\Psi: \mathbb{R}^{n}\rightarrow \mathbb{R}$ 表示价值函数

$\begin{equation} \Psi(x)=\frac{1}{2}\Phi(x)^{\text{T}}\Phi(x)=\frac{1}{2}\|\Phi(x)\|^{2}. \end{equation}$

事实上, 当非线性方程组 (1.4) 的解集非空时, 求解 (1.4) 等价于求解无约束极小化问题

$\begin{equation} \underset{x\in \mathbb{R}^{n}}{\text{min}}\Psi(x), \end{equation}$

其中 $\Psi(x)$ 是连续可微函数. 注意到非线性方程组 (1.4) 的解是无约束极小化问题 (1.6) 的全局极小点, 即如果一个点是无约束极小化问题 (1.6) 的极小值点且其目标函数 $\Psi(x)$ 在该点处的值为 0, 那么该点为非线性方程组 (1.4) 的解.

牛顿法是求解非线性方程组的基本迭代方法之一, 其算法构造过程是对非线性方程组 (1.4) 等式左端非线性函数 $\Phi(x)$ 逐步线性化的过程, 算法的迭代格式为

$x_{k+1}=x_{k}-\left[\Phi'(x_{k})\right]^{-1}\Phi(x_{k}),$

$\Phi'(x_{k})=V_{k}$ ($V_{k}\in\partial\Phi(x_{k})$, 这里 $\partial\Phi(x_{k})$$\Phi(x)$$x_{k}$ 处的广义 Jacobian). 高斯-牛顿法、Levenberg-Marquardt 算法均是基于牛顿法发展而来. 关于牛顿法和高斯-牛顿法的相关研究, 可参见文献[6-9]. 高斯-牛顿法的迭代格式为

$\begin{equation} x_{k+1}=x_{k}+d_{k}^{\text{GN}}, \end{equation}$

其中 $d_{k}^{\text{GN}}=-(V_{k}^{\text{T}}V_{k})^{-1}V_{k}^{\text{T}}\Phi(x_{k})$, 称 $d_{k}^{\text{GN}}$ 为高斯-牛顿方向. 易验证 $d_{k}^{\text{GN}}$ 为极小化问题

$\begin{equation*} \underset{d\in\mathbb{R}^{n}}{\text{min}}\frac{1}{2}\|\Phi(x_{k})+V_{k}d\|^{2} \end{equation*}$

的极小解. 若 $V_{k}$ 是列满秩的, 则可以保证 $d_{k}^{\text{GN}}$ 是下降方向. 与牛顿法一样, 如果更新迭代点 $x_{k+1}=x_{k}+d_{k}^{\text{GN}}$ 且不使用线搜索准则, 算法的全局收敛性很难保证. (1.7) 式在迭代过程中要求其雅可比矩阵 $V_{k}$ 列满秩, 这一条件限制了其应用. 事实上, 当 $V_{k}$ 秩亏时, $V_{k}^{\text{T}}V_{k}$ 为奇异矩阵, 此时高斯-牛顿法中断. 为克服 $V_{k}$ 秩亏时试探步无法求解的困难, 将 $V_{k}^{\text{T}}V_{k}$ 松弛为 $V_{k}^{\text{T}}V_{k}+\sigma_{k}I$, 其中 $\sigma_{k}>0$ 称为 LM 参数, $I$ 是单位矩阵. 此时, 高斯-牛顿法被修正为

$\begin{equation} x_{k+1}=x_{k}-(V_{k}^{\text{T}}V_{k}+\sigma_{k}I)^{-1}V_{k}^{\text{T}}\Phi(x_{k}), \end{equation}$

即试探步为

$\begin{equation} d_{k}=-(V_{k}^{\text{T}}V_{k}+\sigma_{k}I)^{-1}V_{k}^{\text{T}}\Phi(x_{k}). \end{equation}$

(1.8) 式称为 Levenberg-Marquardt 方法, 简称 LM 方法. 该方法也是求解非线性方程组的一类有效方法.

对于 LM 方法求解互补问题等问题的研究, 诸多学者在理论上和算法上取得了较为丰富的研究成果[10-15]. Facchinel 等[10]提出了求解大规模非线性互补问题的非光滑非精确 LM 算法, 在适当的条件下证明了算法的全局收敛性和超线性收敛性; 刘志敏等[11]利用一类广义互补函数, 提出了求解线性互补问题的 LM 算法, 在适当条件下分析了算法的收敛性; 胡雅伶等[12]基于模变换, 提出了求解非线性互补问题的多步自适应 LM 算法, 在一定条件下分析了算法的全局收敛性; Chen 等[14]提出了一类求解非线性方程组的修正的 LM 算法, 并证明了算法的超线性收敛性.

对于 GCP (1.1) 在理论与算法方面的研究上, Du[16]对由一类互补函数构成的非线性方程组进行非光滑重构, 提出了求解 GCP (1.1) 的广义牛顿算法, 在适当的条件下证明了算法的全局收敛性和超线性收敛性; Vivas 等[17]运用一类单参数互补函数和 Armijo 线搜索准则, 提出了求解 GCP (1.1) 的非光滑牛顿算法, 在适当的条件下证明了算法的局部收敛性和 Q-二次收敛性.

另外, 对于 LM 算法的数值性能, LM 参数 $\sigma_{k}$ 的选取是至关重要的. 众多学者对 LM 参数的选取进行了研究,其中 Fan 等[18]提出 $\sigma_{k}=\|\Phi(x_{k})\|^{\delta}, \delta\in [1,2]$; Ma 等[19]提出 $\sigma_{k}=\eta\|\Phi(x_{k})\|+(1-\eta)\|V_{k}^{\text{T}}\Phi(x_{k})\|, \eta\in[0, 1]$; Chen 等[14]提出 $\sigma_{k}=\eta\|\Phi(x_{k})\|^{\delta}+(1-\eta)\|V_{k}^{\text{T}}\Phi(x_{k})\|^{\delta}, \delta\in [1,2], \eta\in[0, 1]$. 关于 LM 参数的其他选择, 可参见文献[20-22].

本文构建的 LM 参数为 $\sigma_{k}=\frac{\eta\left\|\Phi(x_{k})\right\|^{\delta}}{1+\eta\|\Phi(x_{k})\|^{\delta}}$, 其中 $\delta\in [1,2]$, $\eta>0$, 该参数是自适应的, 根据当前迭代步 $k$ 的残差范数 $\|\Phi(x_{k})\|$ 来调整其大小. 当 $\|\Phi(x_{k})\|$ 较大时, $\sigma_{k}$ 趋近于 1, 有助于算法在远离解的区域进行快速搜索; 当 $\|\Phi(x_{k})\|$ 很小时, $\sigma_{k}$ 趋近于 0, 则当前迭代点接近于解, 有助于算法进行准确且精细的搜索, 避免算法产生过大步长, 导致算法不稳定或错过解. 此外, 无论 $\eta$, $\delta$, $\|\Phi(x_{k})\|$ 的值如何变化, 该 LM 参数的值均不会为 0 且 $\sigma_{k}$ 的值会被限制在 (0,1) 的范围内, 算法在迭代过程中产生稳定的步长和搜索方向, 从而保证算法的稳定性.

LM 算法在求解线性互补问题、非线性互补问题等问题中有较好的效果[11,12,23,24], 但目前关于 LM 算法求解 GCP (1.1) 的相关研究还较为匮乏. 基于已有文献启发, 本文利用 LM 算法求解 GCP. 结合 Fischer-Burmeister 函数, 将 GCP 等价重构为非光滑非线性方程组, 基于一类自适应修正的 LM 参数和 Armijo 线搜索准则, 提出求解 GCP (1.1) 的一类带有线搜索的自适应修正的 LM 算法. 在适当条件下分析算法的收敛性, 并通过数值实验验证算法的有效性.

本文的后续结构安排如下: 第 2 节陈述本文所需的预备知识; 第 3 节提出求解 GCP (1.1) 的 LM 算法并分析其收敛性; 第 4 节通过数值实验验证所提出算法的有效性; 第 5 节给出本文的结论.

本文的符号说明如下: $\mathbb{R}$ 表示实数集. $\mathbb{R}^{n}$ 表示 $n$ 维实向量空间. $\mathbb{R}^{m\times n}$ 表示 $m\times n$ 维实矩阵空间. $\|\cdot\|$ 表示 2-范数. $I$ 表示单位矩阵. $\nabla F(x)=F'(x)^{\text{T}}$ 表示函数 $F$$x$ 处的梯度. $\emptyset$ 表示空集. 定义 $\mathbb{M}=\{1,2,\cdots,n\}$, $\text{diag}\{x_{i}:i\in\mathbb{M}\}$ 表示第 $i$ 个对角元素为 $x_{i}$ 的对角矩阵. $e_{n}=(1,1,\cdots,1)^{\text{T}}\in\mathbb{R}^{n}$. $\text{rank} (A)$ 表示矩阵 $A$ 的秩. $a=\textit{O}(b)$ 表示 $\text{lim} \underset{b\rightarrow0}{\text{sup}}\frac{a}{b}<+\infty$. $\text{tridiag}(a,b,c)$ 表示一个三对角矩阵, $a$$b$$c$ 分别表示该三对角矩阵的下对角线、主对角线、上对角线. $\text{tridiag}(A,B,C)$ 表示一个块三对角矩阵, $A$$B$$C$ 分别表示该块三对角矩阵的下对角块、主对角块、上对角块.

2 预备知识

本节给出本文所需的预备知识.

定义2.1[25] 函数 $H:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ 是局部 Lipschitz 函数, $D_{H}$$H$ 中可微点的集合. 对于 $\forall x\in \mathbb{R}^{n}$, $H$$x$ 处的广义 B-Jacobian 定义为

$\begin{equation} \partial_{B}H(x)=\left\{\lim_{x_{k}\rightarrow x}H'(x_{k}):x_{k}\in D_{H}\right\}.\nonumber \end{equation}$

定义2.2[26] 函数 $H$ 用 Clarke 广义 Jacobian 定义为

$\begin{equation*} \partial H(x)=\text{conv}\partial_{B}H(x), \end{equation*}$

$\partial H(x)$$\partial_{B}H(x)$ 的凸包.

定义2.3[27] 如果矩阵 $A\in\mathbb{R}^{n\times n}$ 的所有主子式为非负, 则称 $A$$P_{0}$-矩阵.

定义2.4[18] 设集合 $\mathbb{N}\subset\mathbb{R}^{n}$ 满足 $\mathbb{N}\cap \mathbb{X^{*}}\neq\emptyset$, $\mathbb{X^{*}}$ 表示非线性方程组 (1.4) 的解集. 如果存在正数 $\gamma$, 使得

$\begin{equation} \|\Phi(x)\|\geq \gamma\text{dist}(x, \mathbb{X^{*}}), \forall x\in\mathbb{N}, \end{equation}$

则称 $\|\Phi(x)\|$$\Phi(x)=0$ 在集合 $\mathbb{N}$ 上的一个局部误差界, 其中 $\text{dist}(x, \mathbb{X^{*}})=\underset{y\in \mathbb{X^{*}}}{\text{inf}}\|y-x\|$.

引理2.1[5,28] $\varphi(a,b)$ 的定义如 (1.3) 式所示, 则 $\varphi(a,b)$ 是 Lipschitz 连续的且在除原点外的任意点可微.

接下来给出 $\Phi(x)$ 的分量函数 $\Phi_{i}(x)$ 的梯度表达式.

命题2.1 $\Phi_{i}(x)=\varphi(F_{i}(x),G_{i}(x))$, $i\in\{1,2,\cdots,n\}$$(F_{i}(x),G_{i}(x))\neq(0,0)$, 则函数 $\Phi_{i}(x)$$x$ 处的梯度表示为

$\begin{equation} \nabla \Phi_{i}(x)=\text{diag}(a_{i}(x))\nabla F_{i}(x)+\text{diag}(b_{i}(x))\nabla G_{i}(x), \end{equation}$

其中

$\begin{equation} a_{i}(x)=\frac{F_{i}(x)}{\sqrt{F_{i}(x)^2+G_{i}(x)^2}}-1, \end{equation}$
$\begin{equation} b_{i}(x)=\frac{G_{i}(x)}{\sqrt{F_{i}(x)^2+G_{i}(x)^2}}-1. \end{equation}$

命题2.2 定义集合 $K=\left\{x\in\mathbb{R}^{n}|(F_{i}(x))^{2}+(G_{i}(x))^{2}>0, i=1,2,\cdots,n\right\}$, $D_{a}(x)=\text{diag}\left(a_{1}(x),\cdots, a_{n}(x)\right)$, $D_{b}(x)=\text{diag}(b_{1}(x),\cdots, b_{n}(x))$. $a_{i}(x)$$b_{i}(x)$ 的定义分别如 (2.3) 式和 (2.4) 式所示. 下面结论成立

+++1. 当 $x\in K$ 时, 有

$\begin{equation*} \nabla\Phi(x)=D_{a}(x)\nabla F(x)+D_{b}(x)\nabla G(x). \end{equation*}$

+++2. 当 $x\notin K$ 时, 对于 $V(x)\in\partial\Phi(x)$, 有

$\begin{equation} V(x)=D_{a}(x)\nabla F(x)+D_{b}(x)\nabla G(x). \end{equation}$

证明过程类似文献 [命题 2]、[命题 3], 故在此省略.

下面的命题给出了价值函数 $\Psi(x)$ 的梯度、广义 Jacobian 与非线性函数 $\Phi(x)$ 之间的关系, 该结论对于本文算法的分析至关重要.

命题2.3 连续可微的函数 $\Psi(x)$ 的定义如 (1.5) 式所示, 则对于任意 $V(x)\in\partial\Phi(x)$, 有 $\nabla\Psi(x)=V(x)^{\text{T}}\Phi(x)$.

证明过程类似文献[28,命题 3.4], 故在此省略.

3 算法及收敛性分析

本节提出求解 GCP (1.1) 的一类带有线搜索的自适应修正的 Levenberg-Marquardt 算法, 即算法1, 并分析算法的收敛性. 该算法的基本思想是通过极小化价值函数 $\Psi(x)$ 来求解非线性方程组$\Phi(x)=0$.


定理1 算法 1 是适定的.

由算法 1 的步骤 2 知, 如果 $\|\nabla\Psi(x_{k})\|\leq\epsilon$, 算法终止. 因此在算法执行过程中, $\nabla\Psi(x_{k})>0$. 由于 $\nabla\Psi(x_{k})=V_{k}^{\text{T}}\Phi(x_{k})\neq0$, 则 $\Phi(x_{k})\neq0$. 故由 $\sigma_{k}$ 的表达式可知, $\sigma_{k}$ 定义良好且大于 0. 在算法 1 的步骤 3 中, 考虑 $V_{k}^{\text{T}}V_{k}+\sigma_{k}I$, 由于 $I$ 是单位矩阵且 $V_{k}^{\text{T}}V_{k}$ 是半正定的, 所以 $V_{k}^{\text{T}}V_{k}+\sigma_{k}I$ 是正定的, 因此它是可逆的. 从而线性方程组 (3.1) 有唯一解 $d_{k}$, 且满足

$\begin{equation} \nabla\Psi(x_{k})^{\text{T}}d_{k}=-\nabla\Psi(x_{k})^{\text{T}}(V_{k}^{\text{T}}V_{k}+\sigma_{k}I)^{-1}\nabla\Psi(x_{k})<0, \end{equation}$

这意味着 $d_{k}$$\Psi(x)$$x_{k}$ 处的一个下降方向. 显然, 算法 1 的步骤 4 可行. 下证步骤 5 中的线搜索是适定的. 假设

$\begin{equation*} \Psi(x_{k}+2^{-i}d_{k})>\Psi(x_{k})+\beta2^{-i}\nabla\Psi(x_{k})^{\text{T}}d_{k}, \forall i\geq0, \end{equation*}$

$\begin{equation*} \frac{\Psi(x_{k}+2^{-i}d_{k})-\Psi(x_{k})}{2^{-i}}>\beta\nabla\Psi(x_{k})^{\text{T}}d_{k}, \forall i\geq0. \end{equation*}$

在上式中令 $i\rightarrow\infty$, 并注意到 $\Psi(x)$ 的可微性, 可得 $\nabla\Psi(x_{k})^{\text{T}}d_{k}\geq\beta\nabla\Psi(x_{k})^{\text{T}}d_{k}$. 此结合 $\beta\in(0,\frac{1}{2})$ 知, $\nabla\Psi(x_{k})^{\text{T}}d_{k}\geq0$, 这与 (3.4) 式相矛盾. 因此, 此假设不成立, 算法必须在有限步内找到一个满足 (3.3) 式中的步长. 故步骤 5 是适定的, 并且线搜索能在有限步内终止. 综上分析, 算法 1 是适定的.

当 GCP (1.1) 无解时, $\Psi(x)$ 可能存在全局极小点 $x^{*}$ 且满足 $\Psi(x^{*})>0$. 另外, 值得关注的一个情形是 $\Psi(x)$ 的驻点是 GCP (1.1) 的解. 下面给出确保 $\Psi(x)$ 的驻点是 GCP (1.1) 的解的条件.

引理3.1[1] 如果 GCP (1.1) 的解集是非空的, 则 $x^{*}\in\mathbb{R}^{n}$ 是 GCP (1.1) 的解当且仅当 $\Psi(x^{*})=0$.

引理3.2[1] 假设函数 $F,G$ 是连续可微函数, $x^{*}$$\Psi(x)$ 的驻点, 如果 $G'(x^{*})$ 是非奇异的且 $F'(x^{*})G'(x^{*})^{-1}$$P_{0}$-矩阵, 那么 $x^{*}$ 是 GCP (1.1) 的解.

根据定义 2.4, 如果 $\overline{x}\in\mathbb{X}^{*}$$V(\overline{x})$ 非奇异, 那么 $\overline{x}$ 是非线性方程组 (1.4) 的孤立解, 因此 $\|\Phi(x)\|$ 可成为 $\overline{x}$ 的某个邻域上的局部误差界. 但反之不一定成立, 具体可参见文献[29]. 因此局部误差界条件要比非奇异性条件弱.

下面分析算法 1 的收敛性, 在证明收敛性的结论之前, 需要以下假设和结论.

假设3.1 $\Phi(x)$ 连续可微且其雅可比矩阵 $V(x)$$\overline{x}\in\mathbb{X}^{*}$ 的某个邻域上 Lipschitz 连续, 即存在正常数 $L_{1},L_{2}$$b<0.5$, 使得

$\begin{equation} \|V(y)-V(x)\|\leq2L_{1}\|y-x\|, \end{equation}$
$\begin{equation} \|\Phi(y)-\Phi(x)\|\leq L_{2}\|y-x\|, \end{equation}$
$\begin{equation} \|\Phi(y)-\Phi(x)-V(x)(y-x)\|\leq L_{1}\|y-x\|^{2} \end{equation}$

$\forall x,y\in\mathbb{N} (\overline{x},2b)=\left\{x | \|x-\overline{x}\|\leq2b\right\}$ 上成立.

假设3.2 $\|\Phi(x)\|$$\Phi(x)=0$ 在邻域 $\mathbb{N}(\overline{x},2b)$ 上的一个局部误差界, 即存在常数 $\gamma_{1}>0$, 使得

$\begin{equation} \|\Phi(x)\|\geq\gamma_{1}\text{dist}(x,\mathbb{X^{*}}), \forall x\in\mathbb{N}(\overline{x},2b). \end{equation}$

在后续分析中, 假设对任意正整数 $k$, 有

$\begin{equation*} \sigma_{k}=\frac{\eta\|\Phi(x_{k})\|^{\delta}}{1+\eta\|\Phi(x_{k})\|^{\delta}}, \end{equation*}$

其中 $\delta\in [1,2]$, $\eta>0$ 且记 $\overline{x}_{k}\in\mathbb{X^{*}}$ 为满足$\|x_{k}-\overline{x}_{k}\|=\text{dist}(x_{k},\mathbb{X}^{*})$的解向量.

引理3.3 如果假设 3.1 和假设 3.2 成立, $x_{k}\in \mathbb{N}(\overline{x},b)$, 则对于任意充分大的 $k$, 有

$\begin{equation*} \rho_{k}\leq\sigma_{k}\leq \eta L_{2}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}, \end{equation*}$

其中

$\begin{equation*} \rho_{k}=\min\left\{\frac{\eta}{1+\eta}, \frac{\eta}{2}\gamma_{1}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}\right\}. \end{equation*}$

对于任意充分大的 $k$, 由 (3.6) 式得

$\begin{equation*} \sigma_{k}=\frac{\eta\|\Phi(x_{k})\|^{\delta}}{1+\eta\|\Phi(x_{k})\|^{\delta}}\leq\eta\|\Phi(x_{k})\|^{\delta}\leq\eta L_{2}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}. \end{equation*}$

下面从两方面考虑: 如果 $\|\Phi(x_{k})\|\leq1$, 那么 $\|\Phi(x_{k})\|^{\delta}\leq1$, 进而有 $1+\|\Phi(x_{k})\|^{\delta}\leq2$. 由 (3.8) 式得

$\begin{equation*} \sigma_{k}=\frac{\eta\|\Phi(x_{k})\|^{\delta}}{1+\eta\|\Phi(x_{k})\|^{\delta}}\geq\frac{\eta}{2}\|\Phi(x_{k})\|^{\delta}\geq\frac{\eta}{2}\gamma_{1}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}. \end{equation*}$

如果 $\|\Phi(x_{k})\|\geq1$, 那么 $\|\Phi(x_{k})\|^{\delta}\geq1$, 进而有 $1+\|\Phi(x_{k})\|^{\delta}\leq2\|\Phi(x_{k})\|^{\delta}$,

$\begin{equation*} \sigma_{k}=\frac{\eta\|\Phi(x_{k})\|^{\delta}}{1+\eta\|\Phi(x_{k})\|^{\delta}}\geq\frac{\eta\|\Phi(x_{k})\|^{\delta}}{\|\Phi(x_{k})\|^{\delta}+\eta\|\Phi(x_{k})\|^{\delta}}\geq\frac{\eta}{1+\eta}. \end{equation*}$

综上分析, $\rho_{k}\leq\sigma_{k}\leq \eta L_{2}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}$, 其中 $\rho_{k}=\min\left\{\frac{\eta}{1+\eta}, \frac{\eta}{2}\gamma_{1}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}\right\}$.

引理3.4 如果假设 3.1 成立, $x_{k}\in\mathbb{N}(\overline{x},b)$, 则存在常数 $\gamma_{2}>0$, 使得

$\begin{equation} \|d_{k}\|\leq \gamma_{2}\text{dist}(x_{k},\mathbb{X}^{*}). \end{equation}$

$x_{k}\in\mathbb{N}(\overline{x},b)$, 得

$\begin{align*} \|\overline{x}_{k}-\overline{x}\|&\leq\|x_{k}-\overline{x}_{k}\|+\|x_{k}-\overline{x}\| \leq\|x_{k}-\overline{x}\|+\|x_{k}-\overline{x}\| \leq2b, \end{align*}$

$\overline{x}_{k}\in\mathbb{N}(\overline{x},2b)$.

$\begin{equation*} \phi_{k}(d)=\|\Phi(x_{k})+V_{k}d\|^{2}+\sigma_{k}\|d\|^{2}, \end{equation*}$

由 (1.9) 式知, $d_{k}$$\phi_{k}(d)$ 的最优解.

因此, 当 $\overline{x}_{k}\in\mathbb{N}(\overline{x},2b)$, $b<0.5$ 时, 有

$\begin{align*} \|d_{k}\|^{2}&\leq\frac{\phi_{k}(d_{k})}{\sigma_{k}}\leq\frac{\phi_{k}(\overline{x}_{k}-x_{k})}{\sigma_{k}}\\ &=\frac{\|\Phi(x_{k})+V_{k}(\overline{x}_{k}-x_{k})\|^{2}+\sigma_{k}\|\overline{x}_{k}-x_{k}\|^{2}}{\sigma_{k}}\\ &=\frac{1+\eta\|\Phi(x_{k})\|^{\delta}}{\eta\|\Phi(x_{k})\|^{\delta}}\|\Phi(x_{k})+V_{k}(x_{k}-\overline{x}_{k})\|^{2}+\|x_{k}-\overline{x}_{k}\|^{2}\\ &\leq\frac{1+\eta L_{2}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}}{\eta\gamma_{1}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}}L_{1}^{2}\|x_{k}-\overline{x}_{k}\|^{4}+ \|x_{k}-\overline{x}_{k}\|^{2}\\ &=(\frac{L_{1}^{2}}{\eta\gamma_{1}^{\delta}}\|x_{k}-\overline{x}_{k}\|^{2-\delta}+\frac{L_{1}^{2}L_{2}^{\delta}}{\gamma_{1}^{\delta}}\|x_{k}-\overline{x}_{k}\|^{2}+1) \|x_{k}-\overline{x}_{k}\|^{2}\\ &\leq(\eta^{-1}L_{1}^{2}\gamma_{1}^{-\delta}+\gamma_{1}^{-\delta}L_{1}^{2}L_{2}^{\delta}+1)\|x_{k}-\overline{x}_{k}\|^{2}, \end{align*}$

$\|d_{k}\|\leq\gamma_{2}\text{dist}(x_{k},\mathbb{X}^{*})$, 其中 $\gamma_{2}=\sqrt{\eta^{-1}L_{1}^{2}\gamma_{1}^{-\delta}+\gamma_{1}^{-\delta}L_{1}^{2}L_{2}^{\delta}+1}$.

引理3.5 如果假设 3.1 和假设 3.2 成立, $x_{k+1}, x_{k}\in \mathbb{N}(\overline{x},b)$, 则存在常数 $\gamma_{3}>0$, 使得

$\begin{equation} \text{dist}(x_{k}+d_{k},\mathbb{X}^{*})\leq\gamma_{3}\text{dist}(x_{k},\mathbb{X}^{*})^{\frac{2+\delta}{2}}. \end{equation}$

因为

$\begin{align*} \phi_{k}(d_{k})&\leq\phi_{k}(\overline{x}_{k}-x_{k}) =\|\Phi(x_{k})+V_{k}(\overline{x}_{k}-x_{k})\|^{2}+\sigma_{k}\|\overline{x}_{k}-x_{k}\|^{2}, \end{align*}$

由引理 3.3 知, $\sigma_{k}\leq \eta L_{2}^{\delta}\|x_{k}-\overline{x}_{k}\|^{\delta}$, 故

$\begin{align*} \phi_{k}(d_{k})&\leq L_{1}^{2}\|x_{k}-\overline{x}_{k}\|^{4}+\eta L_{2}^{\delta}\|x_{k}-\overline{x}_{k}\|^{2+\delta}\leq(L_{1}^{2}+\eta L_{2}^{\delta})\|x_{k}-\overline{x}_{k}\|^{2+\delta}. \end{align*}$

假设 $\|x_{k}-\overline{x}_{k}\|<1$, 则有

$\begin{align*} \|\Phi(x_{k}+d_{k})\|&=\|\Phi(x_{k})+V_{k}d_{k}+[\Phi(x_{k}+d_{k})-\Phi(x_{k})-V_{k}d_{k}]\|\\ &\leq\|\Phi(x_{k})+V_{k}d_{k}\|+L_{1}\|d_{k}\|^{2}\\ &\leq\sqrt{\phi_{k}(d_{k})}+L_{1}\|d_{k}\|^{2}\\ &\leq\sqrt{L_{1}^{2}+\eta L_{2}^{\delta}}\|x_{k}-\overline{x}_{k}\|^{\frac{2+\delta}{2}}+L_{1}\gamma_{2}^{2}\text{dist}(x_{k},\mathbb{X}^{*})^{2}\\ &\leq(\sqrt{L_{1}^{2}+\eta L_{2}^{\delta}}+L_{1}\gamma_{2}^{2})\text{dist}(x_{k},\mathbb{X}^{*})^{\frac{2+\delta}{2}}, \end{align*}$

$\begin{align*} \text{dist}(x_{k}+d_{k},\mathbb{X}^{*})&\leq\frac{1}{\gamma_{1}}\|\Phi(x_{k}+d_{k})\|\leq\gamma_{3}\text{dist}(x_{k},\mathbb{X}^{*})^{\frac{2+\delta}{2}}, \end{align*}$

其中 $\gamma_{3}=\left(\sqrt{L_{1}^{2}+\eta L_{2}^{\delta}}+L_{1}\gamma_{2}^{2}\right)/\gamma_{1}$.

接下来运用奇异值分解理论分析 LM 算法的收敛性. 不失一般性, 假设 $\{x_{k}\}$ 收敛到解集 $\mathbb{X}^{^{*}}$ 的某个元素 $\overline{x}$, 并假定落在 $\overline{x}\in\mathbb{X}^{*}$ 的某个邻域内. 根据文献[30], 如果 $\|\Phi(x)\|$ 提供了一个局部误差界, 则存在一常数 $\nu>0$, 使得

$\begin{equation*} \text{rank}(V(x))=\text{rank}(V(\overline{x})), \forall x\in\mathbb{N}(\overline{x},\nu)\cap\mathbb{X}^{*}. \end{equation*}$

假设对所有的 $x\in\mathbb{N}(\overline{x},2b)\cap\mathbb{X}^{*}$, 都有 $\text{rank}(V(x))=r$.

假定 $V(\overline{x}_{k})$ 的奇异值分解为

$\begin{align*} V(\overline{x}_{k})&=\overline{U}_{k}\overline{\Sigma}_{k}\overline{J}_{k}^{\text{T}}\\ &=\left(\overline{U}_{k,1},\overline{U}_{k,2}\right)\left(\begin{matrix} \overline{\Sigma}_{k,1}&0\\ 0&0 \end{matrix} \right)\left(\begin{matrix} \overline{J}_{k,1}^{\text{T}}\\ \overline{J}_{k,2}^{\text{T}} \end{matrix} \right)\\ &=\overline{U}_{k,1}\overline{\Sigma}_{k,1}\overline{J}_{k,1}^{\text{T}}, \end{align*}$

其中 $\overline{\Sigma}_{k,1}=\text{diag}(\overline{\theta}_{k,1},\overline{\theta}_{k,2},\cdots,\overline{\theta}_{k,r})$, $\overline{\theta}_{k,1}\geq \overline{\theta}_{k,2}\geq\cdots\geq\overline{\theta}_{k,r}>0$. 相应地, $V(x_{k})$ 的奇异值分解为

$\begin{align*} V(x_{k})&=U_{k}\Sigma_{k}J_{k}^{\text{T}}\nonumber\\ &=\left(U_{k,1},U_{k,2},U_{k,3}\right)\left(\begin{matrix}\Sigma_{k,1}&0&0\nonumber\\ 0&\Sigma_{k,2}&0\\ 0&0&0 \end{matrix} \right) \left(\begin{matrix} J_{k,1}^{\text{T}}\\ J_{k,2}^{\text{T}}\\ J_{k,3}^{\text{T}} \end{matrix} \right)\\ &=U_{k,1}\Sigma_{k,1}J_{k,1}^{\text{T}}+U_{k,2}\Sigma_{k,2}J_{k,2}^{\text{T}}, \end{align*}$

其中 $\Sigma_{k,1}=\text{diag}(\theta_{k,1},\theta_{k,2},\cdots,\theta_{k,r})$, $\Sigma_{k,2}=\text{diag}(\theta_{k,r+1},\theta_{k,r+2},\cdots,\theta_{k,r+s})$, $\theta_{k,1}\geq\theta_{k,2}\geq\cdots\geq\theta_{k,r}>0$,$\theta_{k,r+1}\geq\theta_{k,r+2}\geq\cdots\geq\theta_{k,r+s}>0$.为方便分析, 省略 $\Sigma_{k,i} (i=1,2)$$U_{k,i}$, $J_{k,i} (i=1,2,3)$ 的下标 $k$, 因此 (3.11) 式可写为

$\begin{equation} V_{k}=U\Sigma J^{\text{T}}=U_{1}\Sigma_{1}J_{1}^{\text{T}}+U_{2}\Sigma_{2}J_{2}^{\text{T}}. \end{equation}$

为得到算法的收敛速度, 还需要下面的结果.

引理3.6 如果假设 3.1 成立, $x_{k}\in\mathbb{N}(\overline{x},b)$, 有

1. $\|U_{1}U_{1}^{\text{T}}\Phi(x_{k})\|\leq L_{2}\|x_{k}-\overline{x}_{k}\|$;

2. $\|U_{2}U_{2}^{\text{T}}\Phi(x_{k})\|\leq4L_{1}\|x_{k}-\overline{x}_{k}\|^{2}$;

3. $\|U_{3}U_{3}^{\text{T}}\Phi(x_{k})\|\leq L_{1}\|x_{k}-\overline{x}_{k}\|^{2}$.

由 (3.6) 式易得结论 1. 根据矩阵扰动理论[31]和 (3.5) 式, 得到

$\begin{align*} \|\text{diag}(\Sigma_{1}-\overline{\Sigma}_{1},\Sigma_{2},0)\|&\leq\|V_{k}-V(\overline{x}_{k})\|\leq 2L_{1}\|x_{k}-\overline{x}_{k}\|, \end{align*}$

由此可得

$\begin{equation} \|\Sigma_{1}-\overline{\Sigma}_{1}\|\leq 2L_{1}\|x_{k}-\overline{x}_{k}\|, \|\Sigma_{2}\|\leq 2L_{1}\|x_{k}-\overline{x}_{k}\|. \end{equation}$

$V_{k}^{+}$$V_{k}$ 的广义逆, 令 $q_{k}=-V_{k}^{+}\Phi(x_{k})$, 则易知 $q_{k}$ 是极小化问题 $\text{min}\|\Phi(x_{k})+V_{k}q\|$ 的最小二乘解, 因此由 (3.7) 式得

$\begin{align*} \|U_{3}U_{3}^{\text{T}}\Phi(x_{k})\|&=\|(I-V_{k}V_{k}^{+})\Phi(x_{k})\|\\ &=\|\Phi(x_{k})+V_{k}q_{k}\|\\ &\leq\|\Phi(x_{k})+V_{k}(\overline{x}_{k}-x_{k})\|\\ &\leq L_{1}\|x_{k}-\overline{x}_{k}\|^{2}, \end{align*}$

得到结论 3.

$\overline{V}_{k}=U_{1}\Sigma_{1}J_{1}^{\text{T}}$, $\overline{q}_{k}=-\overline{V}_{k}^{+}\Phi(x_{k})$. 因为 $\overline{q}_{k}$$\text{min}\|\Phi(x_{k})+\overline{V}_{k}\overline{q}\|$ 的最小二乘解, 所以由 (3.7) 式和 (3.13) 式得

$\begin{align*} \|(U_{2}U_{2}^{\text{T}}+U_{3}U_{3}^{\text{T}})\Phi(x_{k})\|&=\|(I-U_{1}U_{1}^{\text{T}})\Phi(x_{k})\|=\|\Phi(x_{k})-U_{1}U_{1}^{\text{T}}\Phi(x_{k})\|\\ &=\|\Phi(x_{k})-\overline{V}_{k}\overline{V}_{k}^{+}\Phi(x_{k})\|=\|\Phi(x_{k})+\overline{V}_{k}\overline{q}_{k}\|\\ &\leq\|\Phi(x_{k})+\overline{V}_{k}(\overline{x}_{k}-x_{k})\|\\ &\leq\|\Phi(x_{k})+V_{k}(\overline{x}_{k}-x_{k})\|+\|(\overline{V}_{k}-V_{k})(x_{k}-\overline{x}_{k})\|\\ &\leq L_{1}\|x_{k}-\overline{x}_{k}\|^{2}+\|U_{2}\Sigma_{2}J_{2}^{\text{T}}(x_{k}-\overline{x}_{k})\|\\ &\leq L_{1}\|x_{k}-\overline{x}_{k}\|^{2}+2L_{1}\|x_{k}-\overline{x}_{k}\|\|x_{k}-\overline{x}_{k}\|\\ &=3L_{1}\|x_{k}-\overline{x}_{k}\|^{2}, \end{align*}$

于是有

$\begin{align*} \|U_{2}U_{2}^{\text{T}}\Phi(x_{k})\|&\leq\|(U_{2}U_{2}^{\text{T}}+U_{3}U_{3}^{\text{T}})\Phi(x_{k})\|+\|U_{3}U_{3}^{\text{T}}\Phi(x_{k})\|\\ &\leq3L_{1}\|x_{k}-\overline{x}_{k}\|^{2}+L_{1}\|x_{k}-\overline{x}_{k}\|^{2}\\ &\leq4L_{1}\|x_{k}-\overline{x}_{k}\|^{2}, \end{align*}$

得到结论 2.

定理3.2 如果假设 3.1 和假设 3.2 成立, 则由 (1.8) 式生成的迭代序列 $\{x_{k}\}$ 二次收敛到非线性方程组 (1.4) 的某个解 $\overline{x}\in\mathbb{X}^{*}$.

根据 $V_{k}$ 的奇异值分解, 有

$\begin{equation*} d_{k}=-J_{1}(\Sigma_{1}^{2}+\sigma_{k}I)^{-1}\Sigma_{1}U_{1}^{\text{T}}\Phi(x_{k})-J_{2}(\Sigma_{2}^{2}+\sigma_{k}I)^{-1}\Sigma_{2}U_{2}^{\text{T}}\Phi(x_{k}), \end{equation*}$

因此有

$\begin{align*} \Phi(x_{k})+V_{k}d_{k}&=\Phi(x_{k})-U_{1}\Sigma_{1}(\Sigma_{1}^{2}+\sigma_{k}I)^{-1}\Sigma_{1}U_{1}^{\text{T}}\Phi(x_{k})- U_{2}\Sigma_{2}(\Sigma_{2}^{2}+\sigma_{k}I)^{-1}\Sigma_{2}U_{2}^{\text{T}}\Phi(x_{k}) \nonumber\\ &=\sigma_{k}U_{1}(\Sigma_{1}^{2}+\sigma_{k}I)^{-1}U_{1}^{\text{T}}\Phi(x_{k})+ \sigma_{k}U_{2}(\Sigma_{2}^{2}+\sigma_{k}I)^{-1}U_{2}^{\text{T}}\Phi(x_{k})+U_{3}U_{3}^{\text{T}}\Phi(x_{k}). \end{align*}$

不失一般性, 假设 $\|x_{k}-\overline{x}_{k}\|\leq\overline{\theta}_{r}/(4L_{1})$ 对于充分大的 $k$ 都成立, 则由 (3.13) 式得

$\begin{equation*} |\theta_{r}-\overline{\theta}_{r}|\leq\|\Sigma_{1}-\overline{\Sigma}_{1}\|\leq2L_{1}\|x_{k}-\overline{x}_{k}\|, \end{equation*}$

从而

$\begin{equation*} \theta_{r}\geq\overline{\theta}_{r}-2L_{1}\|x_{k}-\overline{x}_{k}\|, \end{equation*}$

进一步有

$\begin{equation*} \|(\Sigma_{1}^{2}+\sigma_{k}I)^{-1}\|\leq\|\Sigma_{1}^{-2}\|\leq\frac{4}{\overline{\theta}_{r}^{2}} \end{equation*}$

$\begin{equation*} \|(\Sigma_{2}^{2}+\sigma_{k}I)^{-1}\|\leq\sigma_{k}^{-1}. \end{equation*}$

由上面两个不等式、引理 3.3、引理 3.6 和 (3.14) 式得

$\begin{align*} \|\Phi(x_{k})+V_{k}d_{k}\|&\leq\frac{4\sigma_{k}}{\overline{\theta}_{r}^{2}}\|U_{1}U_{1}^{\text{T}}\Phi(x_{k})\|+\|U_{2}U_{2}^{\text{T}}\Phi(x_{k})\| +\|U_{3}U_{3}^{\text{T}}\Phi(x_{k})\|\\ &\leq\frac{4\eta L_{2}^{1+\delta}}{\overline{\theta}_{r}^{2}}\|x_{k}-\overline{x}_{k}\|^{\delta}\|x_{k}-\overline{x}_{k}\|+5L_{1}\|x_{k}-\overline{x}_{k}\|^{2}\\ &\leq\left(\frac{4\eta L_{2}^{1+\delta}}{\overline{\theta}_{r}^{2}}+5L_{1}\right)\|x_{k}-\overline{x}_{k}\|^{2}. \end{align*}$

$\gamma_{4}=\left(4\eta L_{2}^{1+\delta}/\overline{\theta}_{r}^{2}\right)+5L_{1}$, 对于充分大的 $k$, 由上式及 (3.7) 式和引理 3.4 得

$\begin{align*} \gamma_{1}\text{dist}\left(x_{k+1},\mathbb{X}^{*}\right)&\leq\|\Phi(x_{k}+d_{k})\|\\ &\leq\|\Phi(x_{k}+d_{k})-\Phi(x_{k})-V(x_{k})d_{k}\|+\|\Phi(x_{k})+V(x_{k})d_{k}\|\\ &\leq L_{1}\|d_{k}\|^{2}+\|\Phi(x_{k})+V_{k}d_{k}\|\\ &\leq L_{1}\gamma_{2}^{2}\text{dist}(x_{k},\mathbb{X}^{*})^{2}+\gamma_{4}\|x_{k}-\overline{x}_{k}\|^{2}\\ &=\left(L_{1}\gamma_{2}^{2}+\gamma_{4}\right)\|x_{k}-\overline{x}_{k}\|^{2}. \end{align*}$

由引理 3.4 得$\|d_{k+1}\|=\textit{O}\left(\|d_{k}\|^{2}\right),$由此知, $\{x_{k}\}$ 二次收敛到非线性方程组 (1.4) 的某个解 $\overline{x}\in\mathbb{X}^{*}$, 即

$\begin{equation*} \|x_{k+1}-\overline{x}\|=\textit{O}\left(\|x_{k}-\overline{x}\|^{2}\right). \end{equation*}$

引理3.7[18] 如果梯度 $\nabla\Psi(x)=V(x)^{\text{T}}\Phi(x)$ 是 Lipschitz 连续的, $t_{k}$ 由 (3.3) 式确定, 则存在正数 $\xi_{1},\xi_{2}$, 使得

$\begin{equation*} t_{k}\geq-\xi_{1}\frac{\nabla\Psi(x_{k})^{\text{T}}d_{k}}{\|d_{k}\|^{2}}, \end{equation*}$
$\begin{equation} \Psi(x_{k+1})\leq\Psi(x_{k})-\xi_{1}\xi_{2}\frac{(\nabla\Psi(x_{k})^{\text{T}}d_{k})^{2}}{\|d_{k}\|^{2}}. \end{equation}$

下面是算法 1 的收敛性定理.

定理3.3 $\{x_{k}\}$ 是由算法 1 生成的序列, $\sigma_{k}=\frac{\eta\|\Phi(x_{k})\|^{\delta}}{1+\eta\|\Phi(x_{k})\|^{\delta}}$, $\eta>0$, $\delta\in [1,2]$, 则 $\{x_{k}\}$ 的任一聚点 $\overline{x}$$\Psi(x)$ 的稳定点. 如果非线性方程组 (1.4) 的解集非空, 则 $\{x_{k}\}$ 二次收敛到某个解 $\overline{x}\in\mathbb{X}^{*}$.

首先证明第一部分结论. 由 (3.15) 式知, 非负序列 $\left\{\|\Phi(x_{k})\|\right\}$ 是单调非增的且有下界, 所以$\underset{k\rightarrow\infty}{\text{lim}}\|\Phi(x_{k})\|:=\tau$一定存在. 接下来从两方面分析: 若 $\tau=0$, 根据 $\Phi(x)$ 的连续性, 有 $\Phi(\overline{x})=0$; 另一方面, 若 $\tau>0$, 由算法 1 的步骤 4 可知, (3.2) 式仅对有限个 $k$ 成立. 故对于充分大的 $k$, (3.15) 式成立. 因此可得到

$\begin{equation*} \sum_{k=1}^{\infty}\frac{\left(\nabla\Psi(x_{k})^{\text{T}}d_{k}\right)^{2}}{\|d_{k}\|^{2}}<\infty, \end{equation*}$

于是有

$\begin{equation} \underset{k\rightarrow\infty}{\text{lim}}\frac{\left(\nabla\Psi(x_{k})^{\text{T}}d_{k}\right)^{2}}{\|d_{k}\|^{2}}=0. \end{equation}$

由算法 1 的步骤 3, 有

$\begin{align*} \left(\nabla\Psi(x_{k})^{\text{T}}d_{k}\right)^{2}&=\left[(d_{k})^{\text{T}}\left((V_{k})^{\text{T}}V_{k}+\sigma_{k}I\right)d_{k}\right]^{2} \geq\sigma_{k}^{2}\|d_{k}\|^{4}\geq\tau^{2\delta}\|d_{k}\|^{4}. \end{align*}$

由上式和 (3.16) 式得$\underset{k\rightarrow\infty}{\text{lim}}\|d_{k}\|=0.$由线性方程组 (3.1) 和 $V(x)$ 的连续性得 $\nabla\Psi(\overline{x})=0$. 第一部分证毕.

接下来证明第二部分结论. 这一部分只需证明对于任意充分大的 $k$, (3.2) 式成立. 因为 $\overline{x}\in\mathbb{X}^{*}$, 所以存在充分大的正数 $\overline{k}$, 使得 $x_{\overline{k}}\in\mathbb{N}(\overline{x},r)$ 且满足

$\begin{equation*} \|\Phi(x_{\overline{k}})\|\leq\left(\frac{\mu\gamma_{1}^{\frac{2+\delta}{2}}}{L_{2}\gamma_{3}}\right)^{\frac{2}{\delta}}. \end{equation*}$

$x_{\overline{k}}\in\mathbb{N}(\overline{x},r)$ 可知, 对于 $\forall k\geq \overline{k}$, 有 $x_{\overline{k}}\in\mathbb{N}(\overline{x},b)$. 由引理 3.3、(3.9) 式和 (3.10) 式得

$\begin{align*} \frac{\|\Phi(x_{k+1})\|}{\|\Phi(x_{k})\|}&=\frac{\|\Phi(x_{k+1})-\Phi(\overline{x}_{k+1})\|}{\|\Phi(x_{k})\|} \leq\frac{L_{2}\|x_{k+1}-\overline{x}_{k+1}\|}{\gamma_{1}\text{dist}(x_{k},\mathbb{X}^{*})}\\ &=\frac{L_{2}\text{dist}(x_{k+1},\mathbb{X}^{*})}{\gamma_{1}\text{dist}(x_{k},\mathbb{X}^{*})} \leq\frac{L_{2}\gamma_{3}}{\gamma_{1}}\text{dist}(x_{k},\mathbb{X}^{*})^{\frac{\delta}{2}}\\ &\leq\frac{L_{2}\gamma_{3}}{\gamma_{1}^{1+\frac{\delta}{2}}}\|\Phi(x_{k})\|^{\frac{\delta}{2}} \leq\frac{L_{2}\gamma_{3}}{\gamma_{1}^{1+\frac{\delta}{2}}}\|\Phi(x_{\overline{k}})\|^{\frac{\delta}{2}} \leq\mu, \end{align*}$

即对于 $\forall k\geq\overline{k}$, 有$\|\Phi(x_{k+1})\|\leq\mu\|\Phi(x_{k})\|.$由于 $\{x_{k}\}$ 收敛到非线性方程组 (1.4) 的解, 根据定理 3.2 可知, 从而算法 1 对于所有充分大的 $k$ 取步长 $t_{k}=1$. 二次收敛性得证.

4 数值实验

本节通过数值实验验证算法 1 的性能. 数值实验在 Windows10 操作系统, AMD 锐龙 7 6800H 处理器 3.20 GHz, 内存 16.0 GB 配置的 64 位操作系统的个人计算机上进行, 使用 MATLAB R2018a 软件进行程序设计与实现. 实验中与文献[14,18]中的两类 LM 算法进行性能对比.

算法 1 (NLLM) 中选取参数 $\eta=0.5$, $\delta=1$, $\beta=10^{-4}$, $\mu=0.9$, 其中 LM 参数 $\sigma_{k}=\frac{\eta\|\Phi(x_{k})\|^{\delta}}{1+\eta\|\Phi(x_{k})\|^{\delta}}$, $\delta\in [1,2]$, $\eta>0$; 文献[18]中的带有线搜索的 LM 算法 (NLM) 中选取参数 $\delta=1$, 其中 LM 参数 $\sigma_{k}=\|\Phi(x_{k})\|^{\delta}$, $\delta\in [1,2]$; 文献[14]中带有线搜索的改进的 LM 算法 (MLM) 中选取参数 $\eta=0.5, \delta=1$, 其中 LM 参数 $\sigma_{k}=\eta\|\Phi(x_{k})\|^{\delta}+(1-\eta)\|V_{k}^{\text{T}}\Phi(x_{k})\|^{\delta}$, $\eta\in[0, 1]$, $\delta\in [1,2]$. 对于三种算法, 停止准则均为 $\|\nabla\Psi(x_{k})\|\leq10^{-8}$ 或迭代次数超过 100 次时迭代停止, 均选取 (1.2) 式作为互补函数进行数值实验. $n$ 表示维数, IT 表示算法的迭代次数, AIT 表示算法的平均迭代次数, CPU 表示算法运行的时间, 单位为秒 (s), ACPU 表示算法的平均运行时间, 单位为秒 (s), RES 表示算法终止时 $\|\nabla\Psi(x_{k})\|$ 的值, ARES 表示算法终止时 $\|\nabla\Psi(x_{k})\|$ 的平均值.

例 4.1[16] 考虑 GCP (1.1), 其中 $F,G:\mathbb{R}^{2}\rightarrow \mathbb{R}^{2}$,

$\begin{equation*} F(x)=\left(\begin{matrix} x_{1}^{2}\\ x_{2}^{2} \end{matrix} \right), G(x)=\left(\begin{matrix} x_{1}^{2}+10\\ x_{2}^{2}+1 \end{matrix} \right), \end{equation*}$

该问题的解为 $x^{*}_{1}=(0,0)^{\text{T}}$. 选取初始点 $x_{1}=(3,3)^{\text{T}}, x_{2}=(5,5)^{\text{T}}, x_{3}=(10,1)^{\text{T}}, x_{4}=(10,10)^{\text{T}}$. 求解例 4.1 的数值实验结果如表1 所示.

表1   NLLM、NLM、MLM 算法求解例4.1 的数值结果

新窗口打开| 下载CSV


例 4.2[32] 考虑 GCP (1.1), 其中 $F,G:\mathbb{R}^{2}\rightarrow \mathbb{R}^{2}$,

$\begin{equation*} F(x)=\left(\begin{matrix} -\frac{100}{3}+2x_{1}+\frac{8}{3}x_{2}\\ -22.5+\frac{5}{4}x_{1}+2x_{2} \end{matrix} \right), G(x)=\left(\begin{matrix} 15-x_{2}\\ 20-x_{1} \end{matrix} \right), \end{equation*}$

该问题的解是 $x^{*}_{1}=(10,5)^{\text{T}}$$x^{*}_{2}=(20,15)^{\text{T}}$. 选取初始点 $x_{1}=(0,10)^{\text{T}}$, $x_{2}=(18,0)^{\text{T}}$, $x_{3}=(11,0)^{\text{T}}$. 求解例 4.2 的数值实验结果如表2 所示.

表2   NLLM、NLM、MLM 算法求解例4.2 的数值结果

新窗口打开| 下载CSV


例 4.3[33] 考虑 GCP (1.1), 其中 $F,G:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$,$F(x)=Ax+q+\theta(x), G(x)=x-\gamma(x),$其中 $A\in \mathbb{R}^{n\times n}$, $q=(-1,1,\cdots,(-1)^{n})^{\text{T}}\in \mathbb{R}^{n}$, $\theta(x)=(x_{1}^{2},x_{2}^{2},\cdots,x_{n}^{2})^{\text{T}}\in\mathbb{R}^{n}$, $\gamma(x)=(x_{1}^{3},x_{2}^{3},\cdots,x_{n}^{3})^{\text{T}}\in\mathbb{R}^{n}$, 并令

$\begin{equation*} A=\text{tridiag}(-I,S,-I)= \left(\begin{matrix} S & -I &0 &\cdots& 0& 0\\ -I & S & -I&\cdots & 0 & 0\\ 0& -I & S &\cdots &0&0\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ 0&0&0&\cdots&S&-I\\ 0&0&0&\cdots&-I&S\\ \end{matrix} \right)\in\mathbb{R}^{n\times n}, \end{equation*}$

其中

$\begin{equation*} S=\text{tridiag}(-1,4,-1)= \left(\begin{matrix} 4 & -1 &0 &\cdots& 0& 0\\ -1 & 4 & -1&\cdots & 0 & 0\\ 0& -1 & 4 &\cdots &0&0\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ 0&0&0&\cdots&4&-1\\ 0&0&0&\cdots&-1&4\\ \end{matrix} \right)\in\mathbb{R}^{m\times m}. \end{equation*}$

该问题的解是 $x^{*}_{1}=e_{n}$. 选取初始点 $x_{1}=(1,0.6,1,0.6,\cdots)^{\text{T}}$, $x_{2}=(0,0,\cdots)^{\text{T}}$. 选取不同维数的矩阵进行数值实验, 求解例 4.3 的数值实验结果如表3 所示.

表3   NLLM、NLM、MLM 算法求解例4.3 的数值结果

新窗口打开| 下载CSV


下面列出 $\eta$, $\delta$ 的变化对算法 1 的迭代次数影响的可视化展示. 这里取 $\eta\in[10^{-5},2]$, $\delta\in [1,2]$. 对于例 4.1, 以选取初始点 $(3,3)^{\text{T}}$ 为例; 对于例 4.2, 以选取初始点 $(11,0)^{\text{T}}$ 为例. 测试 $\eta$, $\delta$ 的变化对算法 1 求解例 4.1、例 4.2 迭代次数的变化分别如图1图2 所示. 对于例 4.3, 以矩阵维数分别选取 $n=100$$2500$, 初始点选取 $(0,0,\cdots)^{\text{T}}$ 为例, 测试 $\eta$, $\delta$ 的变化对算法 1 求解例 4.3 迭代次数的变化分别如图3图4 所示.

图1

图1   $\eta$, $\delta$ 的变化对算法 1 求解例 4.1 迭代次数变化的可视化展示


图2

图2   $\eta$, $\delta$ 的变化对算法 1 求解例 4.2 迭代次数变化的可视化展示


图3

图3   $\eta$, $\delta$ 的变化对算法 1 求解例 4.3 迭代次数变化的可视化展示 ($n=100$)


图4

图4   $\eta$, $\delta$ 的变化对算法 1 求解例 4.3 迭代次数变化的可视化展示 ($n=2500$)


图1图2 中可以看出, 当 $\eta$ 较小时, 随着 $\delta$ 的增加, 算法的迭代次数的增加幅度较大; 当 $\eta$ 较大时, 随着 $\delta$ 的增加, 算法的迭代次数增加的幅度减小; 而在 $\eta$$\delta$ 都较小时, 算法的迭代次数相对较少. 从图3图4 中可以看出, 无论 $\eta$$\delta$ 的值如何变化, 算法 1 求解例 4.3 在较低维数矩阵和较高维数矩阵情况下的迭代次数的变化范围都较小.

针对 NLLM 算法与 NLM、MLM 算法, 选取初始点为 $x_{0}=\text{rand}(n,1)$, 这里 $n$ 表示测试问题的规模. 进行 10 次实验, 求解例 4.1、 例 4.2、例 4.3 的数值实验结果分别如表4-6所示.

表4   NLLM、NLM、MLM 算法求解例 4.1 在随机初始点下的数值结果

新窗口打开| 下载CSV


表5   NLLM、NLM、MLM 算法求解例 4.2 在随机初始点下的数值结果

新窗口打开| 下载CSV


表6   NLLM、NLM、MLM 算法求解例 4.3 在随机初始点下的数值结果

新窗口打开| 下载CSV


在每一组数值实验中, 针对不同的问题选择不同的初始点对算法进行测试.通过表1-表6 的数值实验结果可以看出, NLLM 算法都能收敛到对应问题的解.NLLM 算法在IT、AIT、CPU、ACPU 等方面优于NLM、MLM 算法, 这表明NLLM 算法具有良好的性能.

5 结论

基于 Fischer-Burmeister 函数, 自适应修正的 LM 参数和 Armijo 线搜索准则, 本文提出了求解广义互补问题的一类带有线搜索的自适应修正的 Levenberg-Marquardt 算法. 在适当的条件下证明了该算法的二次收敛性. 数值实验结果验证了本文提出的算法是可行且高效的.

参考文献

Kanzow C, Fukushima M.

Equivalence of the generalized complementarity problem to differentiable unconstrained minimization

J Optim Theory Appl, 1996, 90: 581-603

[本文引用: 3]

Bai Z Z.

Modulus-based matrix splitting iteration methods for linear complementarity problems

Numer Linear Algebra Appl, 2010, 17(6): 917-933

[本文引用: 1]

Noor M A.

On the nonlinear complementarity problem

J Math Anal Appl, 1987, 1.3(2): 455-460

[本文引用: 1]

Pang J S.

On the convergence of a basic iterative method for the implicit complementarity problem

J Optim Theory Appl, 1982, 37: 149-162

[本文引用: 1]

Fischer A.

A special Newton-type optimization method

Optimization, 1992, 24( 3/4): 269-284

[本文引用: 2]

迟晓妮, 曾荣, 刘三阳, .

对称锥权互补问题的正则化非单调非精确光滑牛顿法

数学物理学报, 2021, 41A(2): 507-522

[本文引用: 1]

Chi X N, Zeng R, Liu S Y, et al.

A regularized nonmonotone inexact smoothing Newton algorithm for weighted symmetric cone complementarity problems

Acta Math Sci, 2021, 41A(2): 507-522

[本文引用: 1]

张运胜, 高雷阜.

对称锥互补问题的一种非精确光滑牛顿算法

数学物理学报, 2015, 35A(4): 824-832

Zhang Y S, Gao L F.

A smoothing inexact Newton method for symmetric cone complementarity problems

Acta Math Sci, 2015, 35A(4): 824-832

Mittal G, Giri A K.

Convergence rates for iteratively regularized Gauss-Newton method subject to stability constraints

J Comput Appl Math, 2022, 4.0: 113744

Tang J Y, Zhou J C.

A modified damped Gauss-Newton method for non-monotone weighted linear complementarity problems

Optim Methods Softw, 2022, 37(3): 1145-1164

[本文引用: 1]

Facchinei F, Kanzow C.

A nonsmooth inexact Newton method for the solution of large-scale nonlinear complementarity problems

Math Program, 1997, 76: 493-512

[本文引用: 2]

刘志敏, 杜守强, 王瑞莹.

求解线性互补问题的 Levenberg-Marquardt 型算法

应用数学学报, 2018, 41(3): 403-419

DOI:10.12387/C2018031      [本文引用: 2]

In this paper, we consider the method for solving linear complementarity problems. By a kind of generalized complementarity function, we transform the linear complementarity problems into the nonlinear equations and use the Levenberg-Marquardt type methods to solve it. Under mild conditions, we give the convergence analysis of the given methods. Finally, the numerical results indicate the efficiency of the given methods.

Liu Z M, Du S Q, Wang R Y.

Levenberg-Marquardt type method for solving linear complementarity problems

Acta Math Appl Sin, 2018, 41(3): 403-419

DOI:10.12387/C2018031      [本文引用: 2]

In this paper, we consider the method for solving linear complementarity problems. By a kind of generalized complementarity function, we transform the linear complementarity problems into the nonlinear equations and use the Levenberg-Marquardt type methods to solve it. Under mild conditions, we give the convergence analysis of the given methods. Finally, the numerical results indicate the efficiency of the given methods.

胡雅伶, 彭拯, 章旭, .

一种求解非线性互补问题的多步自适应 Levenberg-Marquardt 算法

计算数学, 2021, 43(3): 322-336

DOI:10.12286/jssx.j2019-0615      [本文引用: 2]

A modulus-based manipulation is adopted to transform the nonlinear complementarity problem to a non-smooth system. Then, an adaptive multi-step Levenberg-Marquardt method is generalized to solve the resulting non-smooth system, then obtains a solution of the original problem. Under some suitable conditions, the global convergence of the proposed method is established. Some preliminary numerical experiments show that, compared to the PSA-LMM, the proposed method is more effective.

Hu Y L, Peng Z, Zhang X, et al.

An adaptive multi-step Levenberg-Marquardt method for nonlinear complementarity problem

Math Numer Sin, 2021, 43(3): 322-336

DOI:10.12286/jssx.j2019-0615      [本文引用: 2]

A modulus-based manipulation is adopted to transform the nonlinear complementarity problem to a non-smooth system. Then, an adaptive multi-step Levenberg-Marquardt method is generalized to solve the resulting non-smooth system, then obtains a solution of the original problem. Under some suitable conditions, the global convergence of the proposed method is established. Some preliminary numerical experiments show that, compared to the PSA-LMM, the proposed method is more effective.

Lera G, Pinzolas M.

Neighborhood based Levenberg-Marquardt algorithm for neural network training

IEEE Trans Neural Netw, 2002, 13(5): 1200-1203

Chen L, Ma Y F.

A modified Levenberg-Marquardt method for solving system of nonlinear equations

J Appl Math Comput, 2023, 69: 2019-2040

[本文引用: 4]

晋慧慧, 袁柳洋, 万仲平.

一种新的非单调修正 Levenberg-Marquardt 算法

应用数学学报, 2024, 47(5): 799-810

DOI:10.20142/j.cnki.amas.202401016      [本文引用: 1]

In this paper, a new nonmonotone modified L-M algorithm for solving nonlinear equations is proposed by combining the nonmonotone line search technique with the modified Levenberg-Marquardt algorithm (L-M algorithm). In each iteration of the new algorithm, a modified step is introduced, and the gradient norm of the value function is used to update the L-M parameters. If the trial step is not accepted, the nonmonotone line search technique is used to obtain the new iteration point. Under certain assumptions, the global convergence and local convergence of the algorithm are proved. Numerical experiment results show that the algorithm is feasible and effective.

Jin H H, Yuan L Y, Wan Z P.

A new nonmonotone modified Levenberg-Marquardt algorithm

Acta Math Appl Sin, 2024, 47(5): 799-810

DOI:10.20142/j.cnki.amas.202401016      [本文引用: 1]

In this paper, a new nonmonotone modified L-M algorithm for solving nonlinear equations is proposed by combining the nonmonotone line search technique with the modified Levenberg-Marquardt algorithm (L-M algorithm). In each iteration of the new algorithm, a modified step is introduced, and the gradient norm of the value function is used to update the L-M parameters. If the trial step is not accepted, the nonmonotone line search technique is used to obtain the new iteration point. Under certain assumptions, the global convergence and local convergence of the algorithm are proved. Numerical experiment results show that the algorithm is feasible and effective.

Du S Q.

Generalized Newton method for a kind of complementarity problem

Abstr Appl Anal, 2014, 20.4(1): 745981

[本文引用: 2]

Vivas H, Pérez R, Arias C A.

A nonsmooth Newton method for solving the generalized complementarity problem

Numer Algorithms, 2024, 95: 551-574

[本文引用: 1]

Fan J Y, Yuan Y X.

On the quadratic convergence of the Levenberg-Marquardt method without nonsingularity assumption

Computing, 2005, 74: 23-39

[本文引用: 5]

Ma C F, Jiang L H.

Some research on Levenberg-Marquardt method for the nonlinear equations

Appl Math Comput, 2007, 1.4(2): 1032-1040

[本文引用: 1]

Fan J Y, Pan J Y.

A note on the Levenberg-Marquardt parameter

Appl Math Comput, 2009, 2.7(2): 351-359

[本文引用: 1]

Amini K, Rostami F, Caristi G.

An efficient Levenberg-Marquardt method with a new LM parameter for systems of nonlinear equations

Optimization, 2018, 67(5): 637-650

Huang B H, Ma C F.

A Shamanskii-like self-adaptive Levenberg-Marquardt method for nonlinear equations

Comput Math Appl, 2019, 77(2): 357-373

[本文引用: 1]

Tang J Y, Zhou J C.

Quadratic convergence analysis of a nonmonotone Levenberg-Marquardt type method for the weighted nonlinear complementarity problem

Comput Optim Appl, 2021, 80: 213-244

[本文引用: 1]

Liu X J, Liu S Y.

A smoothing Levenberg-Marquardt method for the complementarity problem over symmetric cone

Appl Math, 2022, 67: 49-64

[本文引用: 1]

Lopes V L R, Martínez J M, Pérez R.

On the local convergence of quasi-Newton methods for nonlinear complementarity problems

Appl Numer Math, 1999, 30(1): 3-22

[本文引用: 1]

Yang Y F, Qi L Q.

Smoothing trust region methods for nonlinear complementarity problems with $P_{0}$-functions

Ann Oper Res, 2005, 1.3: 99-117

[本文引用: 1]

Jana R, Dutta A, Das A K.

More on hidden $Z$-matrices and linear complementarity problem

Linear Multilinear Algebra, 2021, 69(6): 1151-1160

[本文引用: 1]

Facchinei F, Soares J.

A new merit function for nonlinear complementarity problems and a related algorithm

SIAM J Optim, 1997, 7(1): 225-247

[本文引用: 2]

Yamashita N, Fukushima M.

On the rate of convergence of the Levenberg-Marquardt method

Computing, 2001, 15: 239-249

[本文引用: 1]

Behling R, Iusem A.

The effect of calmness on the solution set of systems of nonlinear equations

Math Program, 2013, 1.7: 155-165

[本文引用: 1]

Stewart G W, Sun J G. Matrix Perturbation Theory. Boston: Academic Press, 1990

[本文引用: 1]

Outrata J V, Zowe J.

A Newton method for a class of quasi-variational inequalities

Comput Optim Appl, 1995, 4: 5-21

[本文引用: 1]

Wu S L, Guo P.

Modulus-based matrix splitting algorithms for the quasi-complementarity problems

Appl Numer Math, 2018, 1.2: 127-137

[本文引用: 1]

/