1034 lines
43 KiB
TeX
1034 lines
43 KiB
TeX
|
\chapter{Méthode des moments généralisée} % numéroté
|
|||
|
|
|||
|
Si l'on pose l'hypothèse selon laquelle un échantillon issu d'une
|
|||
|
population a une certaine distribution de probabilité, on doit
|
|||
|
ensuite déterminer quels sont les paramètres de celle-ci. Ces
|
|||
|
paramètres peuvent être estimés à l'aide de différentes méthodes
|
|||
|
statistiques. La méthode des moments généralisée est une de celles-ci.
|
|||
|
|
|||
|
\section{Introduction}
|
|||
|
\label{sec:intromethodeGMM}
|
|||
|
|
|||
|
On considère un échantillon de taille $T$ formé de plusieurs
|
|||
|
réalisations $\mathbf{y} = y(1),\ldots,y(T)$ indépendantes entre elles
|
|||
|
et identiquement distribuées. Selon le modèle paramétrique, cet
|
|||
|
échantillon est formé de réalisations d'une variable aléatoire $Y$
|
|||
|
suivant une distribution particulière. Le vecteur de paramètres de
|
|||
|
celle-ci, $\theta$, de longueur $a$, appartenant à l'espace $\Omega
|
|||
|
\subset \mathbb{R}^a$, doit être estimé à partir de l'échantillon. Une
|
|||
|
première approche consiste à maximiser la fonction de vraisemblance
|
|||
|
$LL(\theta;\mathbf{y})$, qui équivaut au produit de la densité
|
|||
|
$f(y;\theta)$ évaluée à chacune des réalisations $y(t)$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:vraisemblance}
|
|||
|
LL(\theta;\mathbf{y}) = \prod_{t=1}^T
|
|||
|
f(y(t);\theta),\quad\theta\in\Omega.
|
|||
|
\end{align}
|
|||
|
|
|||
|
L'estimateur $\hat\theta$ est, dans ce cas, la valeur pour
|
|||
|
laquelle l'échantillon a la plus grande probabilité d'être
|
|||
|
observé. Cependant, puisque cela apporte plusieurs simplifications
|
|||
|
intéressantes, on cherchera à maximiser la fonction de
|
|||
|
log-vraisemblance $l(\theta;\mathbf{y}) =
|
|||
|
\ln{(L(\theta;\mathbf{y}))}$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:thetavraisemblance}
|
|||
|
\hat\theta = \underset{\theta}{\operatorname{arg\,max}} \,
|
|||
|
l(\theta;\mathbf{y}).
|
|||
|
\end{align}
|
|||
|
|
|||
|
Le maximum est obtenu en résolvant la condition de premier ordre,
|
|||
|
c'est-à-dire en égalant le gradient de la fonction de
|
|||
|
log-vraisemblance à 0:
|
|||
|
\begin{align}
|
|||
|
\label{eq:EEvraisemblance}
|
|||
|
\frac{\partial{l(\theta;\mathbf{y})}}{\partial{\theta}} &= 0.
|
|||
|
\end{align}
|
|||
|
|
|||
|
Cette méthode permet d'obtenir un estimateur convergent de variance
|
|||
|
minimale, car elle utilise l'ensemble de l'information contenue dans
|
|||
|
l'échantillon. Cependant, la fonction de vraisemblance doit pouvoir
|
|||
|
être spécifiée sous une forme analytique, et de plus, celle-ci doit
|
|||
|
être différentiable afin de pouvoir utiliser cette méthode, ce qui
|
|||
|
n'est pas le cas avec la distribution de Laplace asymétrique
|
|||
|
généralisée. Lorsque cette situation se présente, une méthode
|
|||
|
alternative est préférée, celle des moments généralisée, comme
|
|||
|
proposée par \cite{hansen1982large}. Celle-ci est décrite par
|
|||
|
\cite{hamilton1994time} dans le contexte de l'étude des séries
|
|||
|
chronologiques. Elle a pour avantage de nécessiter seulement la
|
|||
|
spécification de certaines conditions de moment. Par contre, elle
|
|||
|
n'utilise pas toute l'information fournie par l'échantillon, ce qui ne
|
|||
|
permettra pas d'obtenir un estimateur de variance minimale.
|
|||
|
|
|||
|
\subsection{Méthode classique des moments}
|
|||
|
\label{sec:methodemoments}
|
|||
|
|
|||
|
Pour certaines distributions, on ne peut directement estimer les
|
|||
|
paramètres. On cherchera alors des fonctions des paramètres qui sont
|
|||
|
facilement estimables de manière convergente. L'ensemble de fonctions
|
|||
|
le plus commun qui répond à cette condition est celui des moments,
|
|||
|
d'où le nom de la méthode.
|
|||
|
|
|||
|
La méthode classique des moments a été introduite par Pearson en
|
|||
|
1894. On considère un échantillon de taille $T$ dont les observations
|
|||
|
seront notées $y(t)$. On veut estimer le vecteur de paramètres
|
|||
|
$\theta$, de longueur $a$ de la distribution. On définit les moments
|
|||
|
$\mathbf{m} = m_1, \ldots, m_a$ de la population totale,
|
|||
|
représentée par la variable aléatoire $Y$, comme étant l'espérance des
|
|||
|
puissances de celle-ci, et donc une fonction des paramètres de la
|
|||
|
distribution. On considèrera le même nombre de moments que de
|
|||
|
paramètres à estimer.
|
|||
|
\begin{align}
|
|||
|
\label{eq:momentspopulation}
|
|||
|
m_i\left( \theta \right) = E \left[ Y^i \right] ,\qquad i=1,
|
|||
|
\ldots, a
|
|||
|
\end{align}
|
|||
|
|
|||
|
Cette méthode consiste à résoudre un système d'équations
|
|||
|
\eqref{eq:momentsechantillon} où l'on égale les moments empiriques
|
|||
|
$m_i(\theta)$ à ceux de la distribution $\hat{m}(\mathbf{y})$.
|
|||
|
\begin{align}
|
|||
|
\label{eq:momentsechantillon}
|
|||
|
\left\{\begin{array}{rcl}
|
|||
|
m_1(\theta) &=& \frac{1}{T}\sum_{t=1}^T y_t\\
|
|||
|
m_2(\theta) &=& \frac{1}{T}\sum_{t=1}^T y_t^2\\
|
|||
|
&\vdots& \\
|
|||
|
m_a(\theta) &=& \frac{1}{T}\sum_{t=1}^T y_t^a
|
|||
|
\end{array}\right\}
|
|||
|
\end{align}
|
|||
|
|
|||
|
L'estimateur des moments $\hat\theta_T$ est celui qui résout ce
|
|||
|
système.
|
|||
|
|
|||
|
\section{Méthode des moments généralisée}
|
|||
|
\label{sec:methodeGMM}
|
|||
|
|
|||
|
La méthode classique des moments utilise le même nombre d'équations
|
|||
|
d'estimation que de paramètres $(r=a)$. De plus, le système
|
|||
|
d'équations formé par celles-ci doit admettre une solution réelle
|
|||
|
appartenant à l'espace des paramètres $\Omega$, ce qui n'est pas
|
|||
|
toujours le cas. Lorsque ces deux conditions ne sont pas réunies, on
|
|||
|
doit choisir un vecteur de paramètres $\theta$ pour lequel les moments
|
|||
|
de la population $m_i$ ont une valeur la plus près possible de ceux
|
|||
|
de l'échantillon $\hat{m}_i$ correspondants. Cette distance est notée
|
|||
|
par le vecteur $g(\theta;\mathbf{y})$ et correspond au cas le plus
|
|||
|
simple de la méthode des moments généralisée.
|
|||
|
\begin{align}
|
|||
|
\label{eq:1}
|
|||
|
g(\theta;\mathbf{y}) &= \begin{bmatrix}
|
|||
|
m_1 - \hat{m}_1\\
|
|||
|
\vdots\\
|
|||
|
m_r - \hat{m}_r\\
|
|||
|
\end{bmatrix}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
Pour obtenir ces estimateurs, on cherchera plutôt à minimiser une
|
|||
|
fonction objectif notée $Q\left(\theta;\mathbf{y} \right)$, qui
|
|||
|
correspond à une norme quadratique pondérée par une matrice définie
|
|||
|
positive $W$:
|
|||
|
\begin{align}
|
|||
|
Q\left(\theta;\mathbf{y} \right) \equiv g(\theta;\mathbf{y})' W
|
|||
|
g(\theta;\mathbf{y}).
|
|||
|
\end{align}
|
|||
|
|
|||
|
\cite{hansen1982large} nomme cette procédure «méthode des moments
|
|||
|
généralisée». Elle est aussi nommée «méthode du $\chi^2$ minimum» par
|
|||
|
\cite{berkson1980minimum}, bien qu'elle n'en soit qu'un cas
|
|||
|
particulier. On retrouve aussi le nom d'estimateur de distance
|
|||
|
minimale, par \cite{wolfowitz1957minimum}.
|
|||
|
|
|||
|
\subsection{Définition}
|
|||
|
\label{sec:definitionGMM}
|
|||
|
|
|||
|
On considère un vecteur $\mathbf{y}_{T}$ de longueur $T$ contenant les
|
|||
|
données $y(t)$ de l'échantillon tirées d'une population représentée
|
|||
|
par la variable aléatoire $Y$. On considère de plus un vecteur de
|
|||
|
paramètres $\theta \in \Omega$ de longueur $a$ dont la vraie valeur,
|
|||
|
qui est inconnue, est représentée par la constante $\theta_0$. Soit
|
|||
|
une fonction vectorielle de longueur $r$ de la variable aléatoire $Y$
|
|||
|
appelée condition de moment ou d'orthogonalité:
|
|||
|
\begin{align}
|
|||
|
\label{eq:def1condmoment}
|
|||
|
h\left(\theta,Y\right):\left(\mathbb{R}^a \times \mathbb{R}\right)
|
|||
|
\longrightarrow \mathbb{R}^r.
|
|||
|
\end{align}
|
|||
|
|
|||
|
L'espérance de cette fonction, sous l'hypothèse $\theta =
|
|||
|
\mathbf{\theta_0}$, est un vecteur nul noté $\mathbf{0}_r$.
|
|||
|
\begin{align}
|
|||
|
E \left[h\left(\theta_0,Y \right) \right] = \mathbf{0}_r.
|
|||
|
\end{align}
|
|||
|
|
|||
|
On définit aussi la fonction $g(\theta,\mathbf{y}_{T}):\mathbb{R}^a
|
|||
|
\longrightarrow \mathbb{R}^r$ comme étant la moyenne empirique des
|
|||
|
conditions de moment $h\left(\theta,y \right)$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:estimateurfonctiongh}
|
|||
|
g(\theta,\mathbf{y}_{T}) \equiv \frac{1}{T} \sum_{t=1}^T
|
|||
|
h\left(\theta,y(t) \right).
|
|||
|
\end{align}
|
|||
|
|
|||
|
L’idée derrière la méthode des moments généralisée est de choisir un
|
|||
|
ensemble de paramètres $\theta$ de sorte que la valeur de la fonction
|
|||
|
$g(\theta,\mathbf{y}_{T})$ soit aussi près que possible du vecteur nul
|
|||
|
$\mathbf{0}_r$. Selon la norme utilisée pour mesurer cette distance,
|
|||
|
les propriétés de l'estimateur $\hat{\theta}_T$ vont varier. Étant
|
|||
|
donné les nombreuses propriétés bien établies dans le domaine des
|
|||
|
statistiques, on utilise la norme quadratique avec pondération,
|
|||
|
appelée aussi moindres carrés généralisés, qui prend la forme
|
|||
|
suivante:
|
|||
|
\begin{align}
|
|||
|
\label{eq:objectifGMM1}
|
|||
|
Q(\theta,\mathbf{y}_{T}) = \left[g(\theta,\mathbf{y}_{T}) \right]'
|
|||
|
W_T \left[g(\theta,\mathbf{y}_{T}) \right].
|
|||
|
\end{align}
|
|||
|
|
|||
|
Cette fonction de minimisation permettra d'utiliser des tests
|
|||
|
statistiques basés sur la distribution $\chi^2$ de Pearson. La matrice
|
|||
|
carrée $W_T$ de dimension $r\times r$ est définie positive et est
|
|||
|
habituellement une fonction des données de l'échantillon
|
|||
|
$\mathbf{y}_{T}$ et des paramètres $\theta$. Une matrice de
|
|||
|
pondération optimale sera déterminée à la section
|
|||
|
\ref{sec:matriceWoptimaleGMM}.
|
|||
|
|
|||
|
\subsection{Convergence}
|
|||
|
\label{sec:convergenceGMM}
|
|||
|
|
|||
|
Si le nombre de paramètres $a$ est égal à celui de conditions de
|
|||
|
moments $r$, alors la fonction objectif atteindra un minimum de 0 au
|
|||
|
point $\mathbf{\hat\theta}$. On obtiendra ce dernier en résolvant
|
|||
|
l'équation suivante pour le paramètre $\theta$:
|
|||
|
\begin{align}
|
|||
|
g(\hat\theta_T,\mathbf{y}_{T})=0. \label{eq:paramegalecondmomentsGMM}
|
|||
|
\end{align}
|
|||
|
|
|||
|
Lorsque le nombre de conditions de moments est plus grand que celui
|
|||
|
des paramètres, on ne pourra pas obtenir une solution pour l'équation
|
|||
|
précédente \eqref{eq:paramegalecondmomentsGMM}. La proximité entre la
|
|||
|
valeur de chaque condition de moment et $0$ sera déterminée par la
|
|||
|
matrice de pondération $W_T$. Étant donné que la fonction
|
|||
|
$g(\hat\theta_T,\mathbf{y}_{T})$ est la moyenne échantillonnale de la
|
|||
|
fonction aléatoire $h\left(\theta_0,Y \right)$, on a, par la loi des
|
|||
|
grands nombres, la relation suivante entre ces deux quantités:
|
|||
|
\begin{align}
|
|||
|
g(\theta,\mathbf{y}_{T}) \stackrel{P}{\longrightarrow} E
|
|||
|
\left[h\left(\theta,Y \right) \right]. \label{eq:normequadratique}
|
|||
|
\end{align}
|
|||
|
|
|||
|
On considère la suite d'observations $\left\{y(t) \right\}_{t=1}^T$
|
|||
|
comme un processus stochastique. L'ensemble des conditions de
|
|||
|
régularité suivantes permet d'obtenir un estimateur convergent
|
|||
|
\citep{hansen1982large}.
|
|||
|
\begin{enumerate}
|
|||
|
\item Le processus stochastique $\left\{y(t) \right\}_{t=1}^T$ est
|
|||
|
\textbf{stationnaire}, dont la distribution conjointe de plusieurs
|
|||
|
observations ne change pas dans le temps:
|
|||
|
\begin{align}
|
|||
|
\label{eq:conditionGMM1.1}
|
|||
|
F_{Y}(y({t(1)+\tau}) ,\ldots, y({t(k)+\tau})) =
|
|||
|
F_{Y}(y({t(1)}),\ldots, y({t(k)})), \quad \forall \tau \in
|
|||
|
\mathbb{R}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
Il est aussi \textbf{ergodique}, c'est-à-dire que l'on peut déduire
|
|||
|
les propriétés du processus à partir d'un échantillon (ou
|
|||
|
réalisation) suffisamment long de celui-ci. Entre autres, la moyenne
|
|||
|
et la variance d'un échantillon recueilli sur une période en
|
|||
|
particulier sont représentatives de celles de n'importe quel autre
|
|||
|
intervalle de temps de ce processus. Dans ces deux dernières
|
|||
|
situations, on parle aussi de convergence en moyenne
|
|||
|
($\mathbb{L}^1$) et en norme quadratique ($\mathbb{L}^2$):
|
|||
|
\begin{align}
|
|||
|
\label{eq:conditionGMM1.2}
|
|||
|
\lim_{T\longrightarrow\infty}\mathrm{E}\left(\left|Y_T-Y\right|^r\right)=0,
|
|||
|
\quad r\in\left\{1,2\right\}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
\item L'\textbf{espace métrique} $(\Omega,\sigma)$, défini par
|
|||
|
l'espace des paramètres $\Omega$ et la norme valeur absolue est
|
|||
|
\textbf{séparable}:
|
|||
|
\begin{align}
|
|||
|
\label{eq:conditionGMM2.1}
|
|||
|
\sigma=\left|Y_T-Y\right|^r.
|
|||
|
\end{align}
|
|||
|
|
|||
|
Cette condition définit l'unicité du vecteur de paramètres, car si
|
|||
|
la distance est nulle, les estimateurs correspondent aux vrais paramètres:
|
|||
|
\begin{align}
|
|||
|
\label{eq:conditionGMM2.2}
|
|||
|
\sigma = 0 &\Longleftrightarrow \mathbf{\hat\theta} = \theta_0,
|
|||
|
\quad \theta_0 \in \Omega.
|
|||
|
\end{align}
|
|||
|
|
|||
|
\item La fonction $h\left(\theta,\mathbf{y}\right)$ est
|
|||
|
\textbf{mesurable au sens de Borel} pour chaque vecteur $\theta$,
|
|||
|
c'est-à-dire qu'un sous-ensemble de l'espace des paramètres $\Omega$
|
|||
|
existe pour chaque valeur qu'elle peut prendre. De plus, la fonction
|
|||
|
est continue sur l'ensemble $\Omega$ pour chaque échantillon
|
|||
|
$\mathbf{y}$.
|
|||
|
|
|||
|
\item L'espérance de la fonction $h\left(\theta, Y \right)$ existe et
|
|||
|
est définie pour toute valeur $\theta \in \Omega$. De plus, par
|
|||
|
définition, l'espérance de la fonction pour les vrais paramètres est
|
|||
|
de 0:
|
|||
|
\begin{align*}
|
|||
|
E\left[h\left(\theta_0, Y \right)\right] &= 0.
|
|||
|
\end{align*}
|
|||
|
|
|||
|
\item La séquence de matrices de pondération $\left\{ W_T
|
|||
|
\right\}_{T=1}^{\infty}$ converge presque sûrement, élément par
|
|||
|
élément, vers une constante $W_0$, en utilisant la norme valeur
|
|||
|
absolue définie précédemment \eqref{eq:conditionGMM2.1}.
|
|||
|
\end{enumerate}
|
|||
|
|
|||
|
$\hat\theta_T \in \Omega$ est un estimateur convergent de $\theta$
|
|||
|
lorsque les conditions précédentes sont respectées.
|
|||
|
\begin{align}
|
|||
|
\hat{\theta}_T &= \operatorname{arg}\min_{\theta\in\Omega} Q(\theta,\mathbf{y}_{T}) \nonumber\\
|
|||
|
&= \operatorname{arg}\min_{\theta\in\Omega}
|
|||
|
\left[g(\theta,\mathbf{y}_{T}) \right]' W_T
|
|||
|
\left[g(\theta,\mathbf{y}_{T}) \right]. \label{eq:estimateurGMM}
|
|||
|
\end{align}
|
|||
|
|
|||
|
\subsection{Matrice de pondération optimale}
|
|||
|
\label{sec:matriceWoptimaleGMM}
|
|||
|
|
|||
|
On définit la variance-covariance $\mathbf{S}(\theta;\mathbf{y})$ de
|
|||
|
la moyenne échantillonnale de la fonction
|
|||
|
$h(\theta,\mathbf{y})$. Cette matrice est formée par l'espérance,
|
|||
|
élément par élément, du produit extérieur de l'estimateur par sa
|
|||
|
transposée, multiplié par la taille de l'échantillon $T$
|
|||
|
\begin{align}
|
|||
|
\label{eq:matricevcov1}
|
|||
|
\mathbf{S}(\theta;\mathbf{y}) = T \cdot E\left\{ \left[
|
|||
|
h(\theta,\mathbf{y})\right] \left[ h(\theta,\mathbf{y}) \right]'
|
|||
|
\right\} .
|
|||
|
\end{align}
|
|||
|
|
|||
|
La variance-covariance asymptotique de la moyenne échantillonnale de
|
|||
|
la fonction $h(\theta_0,y(t))$ est obtenue en évaluant la matrice
|
|||
|
\eqref{eq:matricevcov1} au point $\mathbf{\theta_0}$.
|
|||
|
\begin{align}
|
|||
|
\mathbf{S}(\theta_0;\mathbf{y}) = T \left[\cdot \lim_{T
|
|||
|
\longrightarrow \infty} E \left\{ \left[
|
|||
|
h(\theta,\mathbf{y})\right] \left[ h(\theta,\mathbf{y})
|
|||
|
\right]' \right\} \right]_{\theta=\theta_0}
|
|||
|
\end{align}
|
|||
|
|
|||
|
La valeur optimale de la matrice de pondération $W_T$ de l'équation
|
|||
|
\eqref{eq:estimateurGMM} est obtenue en inversant la
|
|||
|
variance-covariance asymptotique:
|
|||
|
\begin{align}
|
|||
|
\label{eq:matriceWinvercevcov}
|
|||
|
W_T = \mathbf{S}^{-1}(\theta_0;\mathbf{y}_T).
|
|||
|
\end{align}
|
|||
|
|
|||
|
Cependant, comme on ne connaît pas la valeur de $\theta_0$, on
|
|||
|
utilisera l'estimateur convergent ${\mathbf{\hat\theta}}$, qui
|
|||
|
minimise la condition suivante:
|
|||
|
\begin{align}
|
|||
|
\label{eq:objectifGMM2}
|
|||
|
Q_T(\theta,\mathbf{y}_{T}) = \left[g(\theta,\mathbf{y}_{T}) \right]'
|
|||
|
\mathbf{S}_T^{-1}(\theta;\mathbf{y}_T)
|
|||
|
\left[g(\theta,\mathbf{y}_{T}) \right].
|
|||
|
\end{align}
|
|||
|
|
|||
|
Le problème d'optimisation se note alors comme suit:
|
|||
|
\begin{align}
|
|||
|
\label{eq:estimateurGMM2}
|
|||
|
\hat{\theta}_T &= \operatorname{arg}\min_{\theta\in\Omega}
|
|||
|
Q_T(\theta,\mathbf{y}_{T}).
|
|||
|
\end{align}
|
|||
|
|
|||
|
Comme la séquence $\left\{ h(\theta_0,y(t))
|
|||
|
\right\}_{t=-\infty}^{\infty}$ ne présente pas de corrélation
|
|||
|
sérielle, on pourrait estimer la variance-covariance $S_T$ de manière
|
|||
|
convergente en évaluant la moyenne empirique du produit extérieur de
|
|||
|
la condition de moment \citep[p.413]{hamilton1994time}:
|
|||
|
\begin{align}
|
|||
|
\label{eq:matponderationproduith}
|
|||
|
\mathbf{S}_T^{*}(\theta;\mathbf{y}_T) = \frac{1}{T} \sum_{t=1}^T
|
|||
|
\left[g\left(\theta_0,y(t) \right) \right]
|
|||
|
\left[g\left(\theta_0,y(t) \right) \right]^{\prime}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
L'estimateur $\mathbf{\hat{S}}_T({\mathbf{\hat\theta}};\mathbf{y}_T)$
|
|||
|
converge en probabilité vers la vraie valeur de la matrice
|
|||
|
$\mathbf{S}(\theta_0;\mathbf{y}_T)$. Étant donné que l'on estime la
|
|||
|
fonction $h(\theta,\mathbf{y}_{T})$ à l'aide de la fonction
|
|||
|
$g(\mathbf{\hat\theta};\mathbf{y}_T)$, on a aussi la convergence en
|
|||
|
probabilité:
|
|||
|
\begin{align}
|
|||
|
\mathbf{\hat{S}}_T({\mathbf{\hat\theta}};\mathbf{y}_T) = \frac{1}{T}
|
|||
|
\sum_{t=1}^T \left[g\left(\hat{\theta}_T,w(t) \right) \right]
|
|||
|
\left[g\left(\hat{\theta}_T,w(t) \right) \right]^{\prime}
|
|||
|
\stackrel{P}{\longrightarrow} \mathbf{S}(\theta_0;\mathbf{y}_T).
|
|||
|
\end{align}
|
|||
|
|
|||
|
L'estimateur de la matrice de pondération optimale est alors défini
|
|||
|
comme étant l'inverse de la variance-covariance estimée:
|
|||
|
\begin{align}
|
|||
|
\hat{W}_T &=
|
|||
|
\mathbf{\hat{S}}_T^{-1}(\mathbf{\hat\theta};\mathbf{y}_T). \label{eq:matvcovGMM}
|
|||
|
\end{align}
|
|||
|
|
|||
|
Comme cette matrice dépend de l'estimateur $\hat\theta$, qui est pour
|
|||
|
l'instant inconnu, elle ne pourra pas être utilisée pour une première
|
|||
|
optimisation de l'équation de minimisation
|
|||
|
\eqref{eq:estimateurGMM}. Cependant, elle pourra être utilisée dans
|
|||
|
une procédure itérative à la section \ref{sec:GMMtwostep}. On devra
|
|||
|
considérer l'utilisation d'un point de départ alternatif pour le
|
|||
|
vecteur de paramètres dans l'algorithme de minimisation.
|
|||
|
|
|||
|
\subsection{Méthode des moments généralisée itérative}
|
|||
|
\label{sec:GMMtwostep}
|
|||
|
\nocite{wooldridge2001econometric}
|
|||
|
|
|||
|
La méthode des moments généralisée itérative de
|
|||
|
\cite{hall2005generalized} permet de contourner le problème de
|
|||
|
l'estimation de la matrice
|
|||
|
$\mathbf{\hat{S}}_T(\mathbf{\hat\theta};\mathbf{y}_T)$. Elle consiste,
|
|||
|
en premier lieu, à calculer un estimateur préliminaire
|
|||
|
$\mathbf{\hat{\theta}}^{(0)}$, en utilisant la matrice identité $W_T =
|
|||
|
I_r$ dans l'équation \eqref{eq:estimateurGMM}. On suggère d'utiliser
|
|||
|
un vecteur de valeurs initiales $\hat{\theta}^{I}$ obtenues par une
|
|||
|
autre méthode d'estimation, lorsque possible, comme point de départ de
|
|||
|
l'optimisation numérique.
|
|||
|
|
|||
|
À l'aide de l'estimateur initial $\mathbf{\hat{\theta}}^{(0)}$, on
|
|||
|
obtient une première évaluation de la matrice de pondération:
|
|||
|
\begin{align}
|
|||
|
W_T = \left[\hat{S}_T(\mathbf{\hat{\theta}}^{(0)};\mathbf{y}_T)
|
|||
|
\right]^{-1}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
En utilisant la matrice $W_T$ comme pour pondérer la fonction objectif
|
|||
|
\eqref{eq:estimateurGMM}, on obtiendra un nouvel estimateur
|
|||
|
$\hat{\theta}_T^{(1)}$.
|
|||
|
|
|||
|
Par la suite, on répète cette procédure jusqu'à ce qu'on obtienne deux
|
|||
|
estimateurs consécutifs ($\hat{\theta}_T^{(j)}$ et
|
|||
|
$\hat{\theta}_T^{(j+1)}$) qui ne sont pas significativement
|
|||
|
différents, selon un critère d'arrêt $\epsilon_i < \epsilon$. Ce
|
|||
|
critère d'arrêt prendra ici la forme suivante, qui correspond à la
|
|||
|
norme euclidienne de la différence entre les deux derniers estimateurs
|
|||
|
obtenus:
|
|||
|
\begin{align}
|
|||
|
\label{eq:criterearret}
|
|||
|
\epsilon_i =
|
|||
|
\sqrt{\left[\hat\theta^{(i)}_T-\hat\theta^{(i-1)}_T\right]^{\prime}\left[\hat\theta^{(i)}_T-\hat\theta^{(i-1)}_T\right]}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
On peut aussi fixer un nombre maximal d'itérations $i_{max}$ si l'on
|
|||
|
ne parvient pas à obtenir le niveau de précision voulu. Par contre,
|
|||
|
dans cette situation, on préfère utiliser un autre point de départ.
|
|||
|
|
|||
|
Chaque estimateur $\hat{\theta}_T^{(i)}$ a la même distribution
|
|||
|
asymptotique. La méthode itérative a pour avantage, en pratique, que
|
|||
|
les estimateurs produits sont invariants d'échelle et ne dépendent pas
|
|||
|
de la matrice $W_T$ initiale.
|
|||
|
|
|||
|
\subsection{Distribution asymptotique des estimateurs}
|
|||
|
\label{sec:matvcovGMM}
|
|||
|
|
|||
|
On considère $\hat{\theta}_T$, la valeur qui minimise la fonction
|
|||
|
objectif $Q(\theta,\mathbf{y}_{T})$ \eqref{eq:objectifGMM2}. Cette
|
|||
|
minimisation équivaut à résoudre le système non linéaire où l'on égale
|
|||
|
la dérivée de l'équation d'optimisation à 0:
|
|||
|
\begin{align} \label{eq:premierordreGMM}
|
|||
|
\frac{d}{d\theta^{\prime}}Q(\theta,\mathbf{y}_{T}) &=
|
|||
|
\left[\left.\frac{d}{d\theta^{\prime}}g(\theta,\mathbf{y}_{T})\right|_{\theta=\hat{\theta}}
|
|||
|
\right]^{\prime} \cdot \hat{W}_T \cdot g(\theta,\mathbf{y}_{T}) \\
|
|||
|
&= 0. \nonumber
|
|||
|
\end{align}
|
|||
|
|
|||
|
où le gradient $D'(\theta,\mathbf{y}_{T})$ est
|
|||
|
\begin{align} \label{eq:gradientGMM} D'(\theta,\mathbf{y}_{T}) &=
|
|||
|
\left[\frac{d}{d\theta^{\prime}}g(\theta,\mathbf{y}_{T})
|
|||
|
\right]^{\prime} \nonumber\\
|
|||
|
&= \begin{bmatrix}
|
|||
|
\frac{d}{d\theta_1}g_1(\theta,\mathbf{y}_{T})& \cdots & \frac{d}{d\theta_1}g_a(\theta,\mathbf{y}_{T}) \\
|
|||
|
\vdots & \ddots & \vdots \\
|
|||
|
\frac{d}{d\theta_k}g_1(\theta,\mathbf{y}_{T})& \cdots &
|
|||
|
\frac{d}{d\theta_k}g_a(\theta,\mathbf{y}_{T})
|
|||
|
\end{bmatrix}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
En appliquant le théorème central limite multivarié
|
|||
|
\eqref{eq:TCLmulti2} à l'estimateur des conditions de moments
|
|||
|
$g(\theta,\mathbf{y}_{T})$, on obtient que, lorsque la taille $T$ est
|
|||
|
suffisamment grande, celui-ci converge en loi vers un vecteur
|
|||
|
aléatoire de distribution normale multivariée de moyenne
|
|||
|
$\mathbf{0}_a$ et de variance-covariance
|
|||
|
$T^{-1}\mathbf{S}(\mathbf{\theta};\mathbf{y}_T)$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:TCL-GMM}
|
|||
|
\sqrt{T} g(\theta,\mathbf{y}_{T}) \stackrel{L}{\longrightarrow}
|
|||
|
N\left(\mathbf{0}_a,\mathbf{S}(\mathbf{\theta};\mathbf{y}_T)\right).
|
|||
|
\end{align}
|
|||
|
|
|||
|
Cette relation permet de conclure que l'estimateur $\hat\theta$ est
|
|||
|
gaussien. On n'a donc qu'à calculer sa variance-covariance
|
|||
|
asymptotique.
|
|||
|
|
|||
|
Soit $\left\{\mathbf{\hat{S}}_T \right\}_{T=1}^{\infty}$, une séquence
|
|||
|
de matrices $(r \times r)$ définies positives qui convergent en
|
|||
|
probabilité vers la variance-covariance asymptotique:
|
|||
|
\begin{align*}
|
|||
|
\mathbf{\hat{S}}_T \stackrel{P}{\longrightarrow} \mathbf{S}.
|
|||
|
\end{align*}
|
|||
|
|
|||
|
On ajoute que la fonction $g(\theta,\mathbf{y}_{T})$ doit être
|
|||
|
différentiable par rapport au vecteur $\theta$ pour tout échantillon
|
|||
|
$\mathbf{y}_{T}$.
|
|||
|
|
|||
|
On doit préalablement poser un ensemble de conditions supplémentaires
|
|||
|
de régularité:
|
|||
|
\begin{enumerate}
|
|||
|
\item L'estimateur $\hat\theta_T$ converge en probabilité vers la
|
|||
|
vraie valeur des paramètres $\theta_0$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:varasympt.1}
|
|||
|
\hat\theta_T \stackrel{P}{\longrightarrow} \theta_0.
|
|||
|
\end{align}
|
|||
|
\item Le théorème central limite s'applique pour la fonction
|
|||
|
$g(\theta,\mathbf{y}_{T})$ \eqref{eq:TCL-GMM}.
|
|||
|
\item Pour toute séquence d'estimateurs $\left\{ \theta_T^{*}
|
|||
|
\right\}_{T=1}^{\infty}$ convergents en probabilité $\theta_T^{*}
|
|||
|
\stackrel{P}{\longrightarrow} \theta_0$, on peut évaluer le gradient
|
|||
|
$D^{\prime}(\theta,\mathbf{y}_{T})$ de l'équation
|
|||
|
$g(\theta,\mathbf{y}_{T})$ \eqref{eq:gradientGMM} à l'aide de
|
|||
|
limites:
|
|||
|
\begin{align}
|
|||
|
\label{eq:varasympt.3}
|
|||
|
D^{\prime}_T(\theta,\mathbf{y}_{T}) &\equiv plim \left\{\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}|_{\theta=\theta_T^{*}} \right\} \nonumber\\
|
|||
|
&= plim
|
|||
|
\left\{\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}|_{\theta=\theta_0}
|
|||
|
\right\}.
|
|||
|
\end{align}
|
|||
|
On note que les colonnes de la matrice $D$ sont linéairement
|
|||
|
indépendantes.
|
|||
|
\end{enumerate}
|
|||
|
|
|||
|
Pour obtenir la distribution asymptotique de l'estimateur
|
|||
|
$\hat\theta$, on utilise le premier ordre du développement de Taylor
|
|||
|
de la fonction $g(\hat\theta,\mathbf{y}_{T})$ autour de la valeur du
|
|||
|
vrai paramètre $\theta_0$, tel qu'avancé par
|
|||
|
\cite{gourieroux1989statistique}:
|
|||
|
\begin{align}
|
|||
|
\label{eq:taylorfonction.g}
|
|||
|
g(\hat\theta,\mathbf{y}_{T}) &= g(\theta_0,\mathbf{y}_{T}) +
|
|||
|
D^{\prime}_T(\theta,\mathbf{y}_{T}) \left(\hat\theta-\theta_0
|
|||
|
\right).
|
|||
|
\end{align}
|
|||
|
|
|||
|
On multiplie de part et d'autre par la matrice $
|
|||
|
\left(\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
|
|||
|
\times W_T \right)$ de dimension $(a \times r)$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:taylorfonction.gprod}
|
|||
|
\left(\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
|
|||
|
\times W_T\right) \times g(\hat\theta,\mathbf{y}_{T}) &=
|
|||
|
\left(\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
|
|||
|
\times W_T\right) \times g(\theta_0,\mathbf{y}_{T})\nonumber\\
|
|||
|
&+
|
|||
|
\left(\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
|
|||
|
\times W_T\right) \times D^{\prime}_T(\theta,\mathbf{y}_{T})
|
|||
|
\left(\hat\theta-\theta_0 \right).
|
|||
|
\end{align}
|
|||
|
|
|||
|
L'équation de premier ordre \eqref{eq:premierordreGMM} nous indique
|
|||
|
que le côté gauche de l'égalité précédente
|
|||
|
\eqref{eq:taylorfonction.gprod} vaut 0. On retrouve alors une
|
|||
|
expression de la distance entre l'estimateur et la vraie valeur des
|
|||
|
paramètres, qui dépend de la matrice de pondération, de la fonction
|
|||
|
$g(\theta_0,\mathbf{y}_{T})$ et du gradient
|
|||
|
$D^{\prime}_T(\theta,\mathbf{y}_{T})$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:taylorfonction.gprod2}
|
|||
|
\left(\hat\theta-\theta_0 \right) &= -
|
|||
|
\left[\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
|
|||
|
\times W_T \times D^{\prime}_T(\theta,\mathbf{y}_{T}) \right]^{-1} \nonumber\\
|
|||
|
&\quad\times
|
|||
|
\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
|
|||
|
\times W_T \times g(\theta_0,\mathbf{y}_{T}).
|
|||
|
\end{align}
|
|||
|
|
|||
|
La condition de régularité \eqref{eq:varasympt.3} permet la
|
|||
|
convergence de chaque rangée de l'estimateur
|
|||
|
$D^{\prime}_T(\theta,\mathbf{y}_{T})$ vers celles du gradient
|
|||
|
$D^{\prime}(\theta_0,\mathbf{y}_{T})$. De plus, l'équation
|
|||
|
\eqref{eq:taylorfonction.gprod2} implique la relation de convergence
|
|||
|
suivante:
|
|||
|
\begin{align}
|
|||
|
\label{eq:taylorfonction.gprod3}
|
|||
|
\sqrt{T} \left(\hat\theta-\theta_0 \right)
|
|||
|
&\stackrel{P}{\longrightarrow}
|
|||
|
-\left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime}(\theta,\mathbf{y}_{T})
|
|||
|
\right\}^{-1} \nonumber\\
|
|||
|
&\quad\times \left\{D(\theta,\mathbf{y}_{T})W_T\sqrt{T} \cdot
|
|||
|
g(\theta_0,\mathbf{y}_{T}) \right\}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
Afin de simplifier la notation, on définit la constante
|
|||
|
$C(\theta,\mathbf{y}_{T})$:
|
|||
|
\begin{align*}
|
|||
|
C(\theta,\mathbf{y}_{T})=-\left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime}
|
|||
|
(\theta,\mathbf{y}_{T}) \right\}^{-1} \times
|
|||
|
D(\theta,\mathbf{y}_{T})W_T.
|
|||
|
\end{align*}
|
|||
|
|
|||
|
L'équation \eqref{eq:taylorfonction.gprod3} devient
|
|||
|
\begin{align}
|
|||
|
\label{eq:taylorfonction.gprod4}
|
|||
|
\sqrt{T} \left(\hat\theta-\theta_0 \right)
|
|||
|
&\stackrel{P}{\longrightarrow} C(\theta,\mathbf{y}_{T})\sqrt{T}
|
|||
|
\cdot g(\theta_0,\mathbf{y}_{T}).
|
|||
|
\end{align}
|
|||
|
|
|||
|
En combinant la relation \eqref{eq:TCL-GMM}, où l'on applique le
|
|||
|
théorème central limite à la fonction $g(\theta_0,\mathbf{y}_{T})$,
|
|||
|
avec la méthode delta multivariée \eqref{eq:deltamethodmult}, on
|
|||
|
retrouve la forme suivante, avec une convergence en loi cependant,
|
|||
|
puisque celle-ci est moins forte que celle en probabilité:
|
|||
|
\begin{align}
|
|||
|
\sqrt{T} (\hat{\theta}-\theta_0) \stackrel{L}{\longrightarrow}
|
|||
|
N(0,\mathcal{J}_0^{-1})
|
|||
|
\end{align}
|
|||
|
où
|
|||
|
\begin{align}
|
|||
|
\mathcal{J}_0^{-1} &=
|
|||
|
C(\theta,\mathbf{y}_{T})\left\{W_T\right\}^{-1}C(\theta,\mathbf{y}_{T})
|
|||
|
\nonumber\\
|
|||
|
&= \left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime}
|
|||
|
(\theta,\mathbf{y}_{T}) \right\}^{-1} D(\theta,\mathbf{y}_{T})W_T
|
|||
|
\left\{W_T\right\}^{-1}\nonumber\\
|
|||
|
&\quad\times W_T D^{\prime}(\theta,\mathbf{y}_{T})
|
|||
|
\left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime} (\theta,\mathbf{y}_{T})
|
|||
|
\right\}^{-1}\nonumber\\
|
|||
|
&=
|
|||
|
\left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime}(\theta,\mathbf{y}_{T})\right\}^{-1}. \label{matricevcovparamGMMnc}
|
|||
|
\end{align}
|
|||
|
|
|||
|
\section{Estimation sous contraintes}
|
|||
|
\label{sec:estimGMMcontraint}
|
|||
|
|
|||
|
La méthode des moments généralisée suppose que le vrai vecteur de
|
|||
|
paramètres $\theta_0$ appartient à l'ensemble $\Omega$. En pratique,
|
|||
|
les paramètres sont souvent soumis à certaines contraintes à
|
|||
|
l'égalité.
|
|||
|
|
|||
|
On définit un ensemble de $q$ contraintes linéaires implicites
|
|||
|
appliquées au vecteur de paramètres $\theta$ de longueur $a$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:contraintelin0}
|
|||
|
\left\{
|
|||
|
\begin{array}{rcl}
|
|||
|
r_{(1,1)}\theta_1 + \ldots + r_{(1,a)}\theta_a &=& r_{(1,0)}\\
|
|||
|
\ldots \\
|
|||
|
r_{(q,1)}\theta_1 + \ldots + r_{(q,a)}\theta_a &=& r_{(q,0)}
|
|||
|
\end{array}
|
|||
|
\right\}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
On peut les présenter sous la forme d'un système matriciel:
|
|||
|
\begin{align}
|
|||
|
\label{eq:contraintelin}
|
|||
|
\underbrace{
|
|||
|
\begin{bmatrix}
|
|||
|
r_{(1,1)}&\ldots&r_{(1,a)}\\
|
|||
|
\vdots&\ddots&\vdots\\
|
|||
|
r_{(q,1)}&\ldots&r_{(q,a)}\\
|
|||
|
\end{bmatrix}}_{\mathbf{R}} \times \underbrace{\begin{bmatrix}
|
|||
|
\theta_1\\
|
|||
|
\vdots\\
|
|||
|
\theta_a
|
|||
|
\end{bmatrix}}_{\mathbf{\theta}} &= \underbrace{\begin{bmatrix}
|
|||
|
r_{(1,0)}\\
|
|||
|
\vdots\\
|
|||
|
r_{(q,0)}
|
|||
|
\end{bmatrix}}_{\mathbf{r}}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
Afin de les inclure dans un problème de minimisation, on préfèrera
|
|||
|
utiliser la notation $a(\theta) = R\theta-r$. On notera au passage
|
|||
|
que le gradient du vecteur de contraintes équivaut à la matrice de
|
|||
|
coefficients:
|
|||
|
\begin{align}
|
|||
|
\label{eq:gradientcontrainte}
|
|||
|
\frac{\partial}{\partial\theta^{\prime}} a(\theta) = R.
|
|||
|
\end{align}
|
|||
|
|
|||
|
Ainsi, on peut estimer les paramètres de la distribution contrainte à
|
|||
|
l'aide de la méthode des moments généralisée, de manière analogue à la
|
|||
|
distribution non contrainte, comme il a été présenté à la section
|
|||
|
précédente. On utilisera la technique du multiplicateur de Lagrange
|
|||
|
afin d'inclure la contrainte $a(\theta)$ dans l'équation de
|
|||
|
minimisation \eqref{eq:estimateurGMM2}. Le vecteur $\gamma$ associe un
|
|||
|
multiplicateur à chaque contrainte linéaire. On définit le lagrangien
|
|||
|
$\mathcal{L}(\tilde{\theta})$ mettant en relation la fonction objectif
|
|||
|
$Q_T(\theta)$ \eqref{eq:objectifGMM2} et les contraintes $a(\theta)$:
|
|||
|
\begin{equation}
|
|||
|
\label{eq:estimateurGMMlagrange}
|
|||
|
\mathcal{L}(\theta) = - Q_T(\theta) - a(\theta)^{\prime} \gamma.
|
|||
|
\end{equation}
|
|||
|
|
|||
|
L'estimateur contraint $\tilde{\theta}$ est obtenu en maximisant ce
|
|||
|
lagrangien:
|
|||
|
\begin{align}
|
|||
|
\label{eq:lagrangienGMMcontraint}
|
|||
|
\tilde{\theta} = \operatorname{arg}\max_{\theta\in\Omega}
|
|||
|
\mathcal{L}(\theta).
|
|||
|
\end{align}
|
|||
|
|
|||
|
La solution optimale s'obtient en résolvant les conditions de premier
|
|||
|
ordre par rapport au vecteur de paramètres $\theta$ et celui des
|
|||
|
multiplicateurs de Lagrange $\gamma$:
|
|||
|
|
|||
|
\begin{align}
|
|||
|
\frac{\partial}{\partial\theta}Q_T(\tilde\theta) -
|
|||
|
\frac{\partial}{\partial\theta^{\prime}}a(\tilde\theta)^{\prime}\gamma_{\scriptscriptstyle
|
|||
|
T} &= 0\label{eq:premierordreGMMlagrange1} \\ a(\tilde\theta) &=
|
|||
|
0. \label{eq:premierordreGMMlagrange2}
|
|||
|
\end{align}
|
|||
|
|
|||
|
On s'intéresse aussi à la distribution asymptotique de cet estimateur
|
|||
|
contraint. Pour ce faire, on doit développer les conditions de premier
|
|||
|
ordre comme il a été fait à la section \ref{sec:matvcovGMM} pour
|
|||
|
l'estimateur non contraint.
|
|||
|
|
|||
|
\subsection{Distribution asymptotique des estimateurs contraints}
|
|||
|
\label{sec:matvcovGMMconst}
|
|||
|
|
|||
|
Supposons que les conditions de premier ordre sont deux fois
|
|||
|
continûment dérivables par rapport au vecteur $\theta$. On développe
|
|||
|
les équations \eqref{eq:premierordreGMMlagrange1} et
|
|||
|
\eqref{eq:premierordreGMMlagrange2} autour de la vraie valeur du
|
|||
|
paramètre contraint $\theta_0$. Puis, on les multiplie par les facteurs
|
|||
|
$\frac{1}{\sqrt{T}}$ et $\sqrt{T}$ respectivement. Notons que la
|
|||
|
fonction $a(\theta)$ vaut 0 au point $\theta_0$, ce qui permettra de
|
|||
|
simplifier la seconde équation:
|
|||
|
\begin{subequations} \label{eq:premierordreGMMlagrange1.1-2}
|
|||
|
\begin{align}
|
|||
|
\frac{1}{\sqrt{T}} \frac{\partial}{\partial\theta}Q_T(\theta_0) +
|
|||
|
\frac{1}{T}
|
|||
|
\frac{\partial^2}{\partial\theta\partial\theta^{\prime}}Q_T(\theta_0)
|
|||
|
\sqrt{T} (\tilde\theta - \theta_0) -
|
|||
|
\frac{\partial}{\partial\theta^{\prime}}a(\tilde\theta)^{\prime}\frac{\gamma_{\scriptscriptstyle
|
|||
|
T}}{\sqrt{T}} &\approx 0 \label{eq:premierordreGMMlagrange1.1}\\
|
|||
|
\frac{\partial}{\partial\theta^{\prime}} a(\theta_0) \sqrt{T}
|
|||
|
(\tilde\theta - \theta_0) &\approx
|
|||
|
0. \label{eq:premierordreGMMlagrange1.2}
|
|||
|
\end{align}
|
|||
|
\end{subequations}
|
|||
|
|
|||
|
On définit la matrice d'information de Fisher comme étant la limite de
|
|||
|
l'espérance de la valeur de la dérivée seconde de la fonction
|
|||
|
objectif. Au point $\theta_0$, on identifie l'estimateur de cette
|
|||
|
matrice par $\mathcal{J}_0$, la variance-covariance de l'estimateur
|
|||
|
non contraint \eqref{matricevcovparamGMMnc}:
|
|||
|
\begin{align}
|
|||
|
\label{eq:fisherJGMMlagrange}
|
|||
|
\mathcal{J}_0 &= \lim_{T\to\infty} -\frac{1}{T}
|
|||
|
\frac{\partial^2}{\partial\theta\partial\theta^{\prime}}Q_T(\theta_0).
|
|||
|
\end{align}
|
|||
|
|
|||
|
On reprend l'équivalent asymptotique de l'équation
|
|||
|
\eqref{eq:premierordreGMMlagrange1.1} pour l'estimateur non contraint:
|
|||
|
\begin{align}
|
|||
|
\frac{1}{\sqrt{T}} \frac{\partial}{\partial\theta}Q_T(\theta_0) -
|
|||
|
\mathcal{J}_0 \sqrt{T} (\hat\theta - \theta_0) &\approx
|
|||
|
0\label{eq:premierordreGMMnc1.1}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
En combinant ces deux dernières expressions, on peut formuler les
|
|||
|
conditions de premier ordre \eqref{eq:premierordreGMMlagrange1.1-2}
|
|||
|
comme étant asymptotiquement des fonctions linéaires de l'estimateur
|
|||
|
non contraint $\sqrt{T} (\hat\theta - \theta_0)$:
|
|||
|
\begin{align}
|
|||
|
\mathcal{J}_0 \sqrt{T} (\hat\theta - \theta_0) - \mathcal{J}_0
|
|||
|
\sqrt{T} (\tilde\theta - \theta_0) -
|
|||
|
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\frac{\gamma_{\scriptscriptstyle
|
|||
|
T}}{\sqrt{T}} &\approx 0 \label{eq:premierordreGMMlagrange2.1}\\
|
|||
|
\frac{\partial}{\partial\theta^{\prime}} a(\theta_0) \sqrt{T}
|
|||
|
(\tilde\theta - \theta_0) &\approx
|
|||
|
0. \label{eq:premierordreGMMlagrange2.2}
|
|||
|
\end{align}
|
|||
|
|
|||
|
En réorganisant la première équation
|
|||
|
\eqref{eq:premierordreGMMlagrange2.1}, on obtient:
|
|||
|
\begin{align}
|
|||
|
\label{eq:premierordreGMMlagrange3.1}
|
|||
|
\sqrt{T} (\tilde\theta - \theta_0) \approx \sqrt{T} (\hat\theta -
|
|||
|
\theta_0) - \mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\frac{\gamma_{\scriptscriptstyle
|
|||
|
T}}{\sqrt{T}}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
En la reportant dans la seconde équation
|
|||
|
\eqref{eq:premierordreGMMlagrange2.2}, on obtient:
|
|||
|
\begin{align}
|
|||
|
\label{eq:premierordreGMMlagrange3.2}
|
|||
|
\frac{\partial}{\partial\theta^{\prime}} a(\theta_0) \sqrt{T}
|
|||
|
(\hat\theta - \theta_0) - \frac{\partial}{\partial\theta^{\prime}}
|
|||
|
a(\theta_0) \mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\frac{\gamma_{\scriptscriptstyle
|
|||
|
T}}{\sqrt{T}} + \frac{\partial}{\partial\theta^{\prime}}
|
|||
|
a(\theta_0) \sqrt{T} (\tilde\theta - \theta_0) &\approx 0.
|
|||
|
\end{align}
|
|||
|
|
|||
|
Comme le rang de la matrice $\frac{\partial}{\partial\theta^{\prime}}
|
|||
|
a(\theta_0)$ est égal au nombre de contraintes $r$, alors
|
|||
|
$\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
\mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}$ est inversible,
|
|||
|
et l'on peut donc isoler le multiplicateur de Lagrange
|
|||
|
$\frac{\gamma_{\scriptscriptstyle T}}{\sqrt{T}}$ en fonction des
|
|||
|
estimateurs contraints $\sqrt{T} (\tilde\theta - \theta_0)$ et non
|
|||
|
contraints $\sqrt{T} (\hat\theta - \theta_0)$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:LagrangienJ.GMM}
|
|||
|
\frac{\gamma_{\scriptscriptstyle T}}{\sqrt{T}} & \approx
|
|||
|
\left(\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
\mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime} \right)^{-1}
|
|||
|
\frac{\partial}{\partial\theta^{\prime}} a(\theta_0) \sqrt{T}
|
|||
|
(\hat\theta - \theta_0).
|
|||
|
\end{align}
|
|||
|
|
|||
|
On définit l'estimateur contraint en fonction de l'estimateur non
|
|||
|
contraint en utilisant le lagrangien \eqref{eq:LagrangienJ.GMM} dans
|
|||
|
la condition \eqref{eq:premierordreGMMlagrange3.1}:
|
|||
|
\begin{align}
|
|||
|
\label{eq:contraintvsncGMM}
|
|||
|
\sqrt{T} (\tilde\theta - \theta_0) &\approx
|
|||
|
\left(I-\underbrace{\mathcal{J}_0^{-1}\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\left(\frac{\partial}{\partial\theta^{\prime}}
|
|||
|
a(\theta_0) \mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}
|
|||
|
\right)^{-1}\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
}_{P}\right)\mathcal{J}_0^{-1}\sqrt{T} (\hat\theta - \theta_0) \\
|
|||
|
& \approx \left(I-P\right)\mathcal{J}_0^{-1}\sqrt{T} (\hat\theta -
|
|||
|
\theta_0). \nonumber
|
|||
|
\end{align}
|
|||
|
|
|||
|
La variance asymptotique de l'estimateur contraint est donc, à partir
|
|||
|
du résultat précédent \eqref{eq:contraintvsncGMM} et de la définition
|
|||
|
\eqref{eq:premierordreGMMnc1.1}:
|
|||
|
\begin{align}
|
|||
|
\label{eq:VcontraintGMM}
|
|||
|
V\left[\sqrt{T} (\tilde\theta - \theta_0) \right] =
|
|||
|
\left(I-P\right)\mathcal{J}_0^{-1}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
L'estimateur $\tilde\theta$ suit donc asymptotiquement une
|
|||
|
distribution normale multivariée de moyenne $\theta_0$ et de variance
|
|||
|
$T\left(I-P\right)\mathcal{J}_0^{-1}$:
|
|||
|
\begin{align}
|
|||
|
\label{eq:distcontraintGMM}
|
|||
|
\tilde\theta &\sim
|
|||
|
\mathcal{N}\left(\theta_0,T\left(I-P\right)\mathcal{J}_0^{-1}\right).
|
|||
|
\end{align}
|
|||
|
|
|||
|
\section{Tests d'hypothèses paramétriques}
|
|||
|
\label{sec:testparam}
|
|||
|
|
|||
|
Les tests d'hypothèses paramétriques sont utilisés afin d'évaluer une
|
|||
|
hypothèse concernant les paramètres d'une distribution, en fonction
|
|||
|
d'un échantillon de données. Afin d'effectuer ces tests, on présume
|
|||
|
que la différence entre l'estimateur $\hat\theta$ et la vraie valeur
|
|||
|
des paramètres $\theta_0$ suit une distribution normale
|
|||
|
multivariée. Les hypothèses sont habituellement formulées sous la
|
|||
|
forme de contraintes linéaires, ainsi, les statistiques de test sont
|
|||
|
obtenues à partir du calcul matriciel. Les trois tests les plus
|
|||
|
couramment utilisés dans le cadre de l'estimation par maximum de
|
|||
|
vraisemblance peuvent être adaptés à la méthode des moments
|
|||
|
généralisée \citep{newey1994large}. Pour l'ensemble de ces tests,
|
|||
|
l'hypothèse nulle correspond à la contrainte linéaire suivante:
|
|||
|
\begin{equation}
|
|||
|
\label{eq:hypcontraintelin}
|
|||
|
H_0: a(\theta) = R\theta - r = 0.
|
|||
|
\end{equation}
|
|||
|
|
|||
|
\subsection{Test de Wald}
|
|||
|
\label{sec:testwald}
|
|||
|
|
|||
|
Le test de Wald permet de vérifier si la différence entre l'estimateur
|
|||
|
non contraint $\hat\theta$ et l'estimateur contraint $\tilde\theta$
|
|||
|
est significative. Les contraintes linéaires posées ne seront pas
|
|||
|
applicables lorsque le résultat est positif. Pour ce faire, on doit
|
|||
|
connaître la distribution asymptotique de celle-ci. Comme la
|
|||
|
distribution asymptotique des deux estimateurs est normale, alors
|
|||
|
celle de cette différence l'est aussi:
|
|||
|
\begin{align}
|
|||
|
\label{eq:7}
|
|||
|
(\hat\theta - \tilde\theta) \sim \mathcal{N}(0,TP\mathcal{J}_0^{-1}).
|
|||
|
\end{align}
|
|||
|
|
|||
|
On obtient l'espérance et la variance de la statistique
|
|||
|
$\sqrt{T}\left(\hat\theta - \tilde\theta\right)$ en utilisant le fait
|
|||
|
que la somme de deux variables aléatoires normales l'est aussi:
|
|||
|
\begin{align}
|
|||
|
\label{eq:moyennevariancesomme}
|
|||
|
E\left[\sqrt{T}\left(\hat\theta - \tilde\theta\right) \right] &=
|
|||
|
E\left[\sqrt{T}\left(\hat\theta - \theta_0\right) \right] -
|
|||
|
E\left[\sqrt{T}\left(\tilde\theta - \theta_0\right) \right]\nonumber\\
|
|||
|
&= \theta_0 - \theta_0 \nonumber\\
|
|||
|
&= 0 \\
|
|||
|
V\left[\sqrt{T}\left(\hat\theta - \tilde\theta\right) \right] &=
|
|||
|
V\left[\sqrt{T}\left(\hat\theta - \theta_0\right) \right] -
|
|||
|
V\left[\sqrt{T}\left(\tilde\theta - \theta_0\right) \right]\nonumber\\
|
|||
|
&= \left(I-(I-P)\right)\mathcal{J}_0^{-1}\nonumber\\
|
|||
|
&= P\mathcal{J}_0^{-1}.
|
|||
|
\end{align}
|
|||
|
|
|||
|
On définit la statistique $\chi^{WALD,1}$, qui a asymptotiquement une
|
|||
|
distribution $\chi^2$ avec $q$ degrés de liberté:
|
|||
|
\begin{align}
|
|||
|
\label{eq:statistiqueWald}
|
|||
|
\chi^{WALD,1} &= T \left(\hat\theta - \tilde\theta\right)^{\prime} P
|
|||
|
\left(\hat\theta - \tilde\theta\right) \\
|
|||
|
&=T \left(\hat\theta - \tilde\theta\right)^{\prime}
|
|||
|
\mathcal{J}_0^{-1}\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\left(\frac{\partial}{\partial\theta^{\prime}}
|
|||
|
a(\theta_0) \mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}
|
|||
|
\right)^{-1}\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
\left(\hat\theta - \tilde\theta\right). \nonumber
|
|||
|
\end{align}
|
|||
|
|
|||
|
|
|||
|
On rejettera l'hypothèse nulle \eqref{eq:hypcontraintelin} lorsque la
|
|||
|
valeur de la statistique $\chi^{WALD,1}$ sera supérieure à un seuil
|
|||
|
critique $\chi_{q,1-\alpha}^2$ au niveau de confiance $1-\alpha$.
|
|||
|
|
|||
|
Une version asymptotiquement équivalente de ce test qui ne requiert
|
|||
|
pas de calculer la valeur de l'estimateur contraint existe. Ce test
|
|||
|
est équivalent lorsque les contraintes définissent certains paramètres
|
|||
|
comme des constantes. On vérifie si un cas particulier d'une
|
|||
|
distribution s'applique, par exemple avec celle de Laplace asymétrique
|
|||
|
généralisée.
|
|||
|
|
|||
|
On définit alors la statistique $\chi^{WALD,2}$, qui a aussi
|
|||
|
asymptotiquement une distribution $\chi^2$ avec $q$ degrés de
|
|||
|
liberté. Par contre, ici, on teste si la valeur de la contrainte
|
|||
|
linéaire est significativement différente de 0:
|
|||
|
\begin{align}
|
|||
|
\label{eq:statistiqueWald2}
|
|||
|
\chi^{WALD,2} &= T a^{\prime}(\hat\theta)
|
|||
|
\left(\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
\mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a^{\prime}(\theta_0) \right)^{-1}
|
|||
|
a(\hat\theta).
|
|||
|
\end{align}
|
|||
|
|
|||
|
|
|||
|
\subsection{Test du multiplicateur de Lagrange}
|
|||
|
\label{sec:testscore}
|
|||
|
|
|||
|
Le test du multiplicateur de Lagrange, ou du score, introduit par
|
|||
|
\cite{newey1987hypothesis}, est basé uniquement sur l'estimateur
|
|||
|
contraint et est équivalent asymptotiquement au test de Wald présenté
|
|||
|
à la section précédente. Il vérifie l'application de la contrainte
|
|||
|
\eqref{eq:contraintelin} à l'estimateur $\tilde\theta$. Selon la
|
|||
|
définition du lagrangien \eqref{eq:estimateurGMMlagrange}, si la
|
|||
|
contrainte est vérifiée, alors la restriction $a(\tilde\theta)$ vaudra
|
|||
|
0. Selon la condition de premier ordre
|
|||
|
\eqref{eq:premierordreGMMlagrange2}, la dérivée de la fonction
|
|||
|
objectif de l'estimateur non contraint
|
|||
|
$\frac{\partial}{\partial\theta}Q_T(\theta)$, le score, $\tilde\theta$
|
|||
|
devrait aussi être égale à 0. On cherchera donc à tester si cette
|
|||
|
valeur est significativement différente de 0.
|
|||
|
|
|||
|
On définit la statistique du multiplicateur de Lagrange $\chi^{LM,1}$,
|
|||
|
qui a asymptotiquement une distribution $\chi^2_q$ avec $q$ degrés de
|
|||
|
liberté:
|
|||
|
\begin{align}
|
|||
|
\label{statistiqueLM}
|
|||
|
\chi^{LM,1} &= T \frac{\partial}{\partial\theta}Q_T(\tilde\theta) P
|
|||
|
\frac{\partial}{\partial\theta}Q_T(\tilde\theta).
|
|||
|
\end{align}
|
|||
|
|
|||
|
On rejettera l'hypothèse nulle \eqref{eq:hypcontraintelin} lorsque la
|
|||
|
valeur de la statistique $\chi^{LM,1}$ sera supérieure à un seuil
|
|||
|
critique $\chi_{q,1-\alpha}^2$ au niveau de confiance $1-\alpha$.
|
|||
|
|
|||
|
On peut construire un test équivalent, basé sur la valeur du
|
|||
|
multiplicateur, dont la matrice de variance-covariance est l'inverse
|
|||
|
de celle de la contrainte. On définit alors la statistique
|
|||
|
$\chi^{LM,2}$ suivante:
|
|||
|
\begin{align}
|
|||
|
\label{eq:statistiqueLM2}
|
|||
|
\chi^{LM,2} &= T \gamma^{\prime}
|
|||
|
\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
\mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a^{\prime}(\theta_0) \gamma.
|
|||
|
\end{align}
|
|||
|
|
|||
|
\subsection{Test basé sur la statistique de métrique de distance}
|
|||
|
|
|||
|
La statistique de métrique de distance est basée sur la différence
|
|||
|
entre les valeurs minimales de la fonction objectif $Q_T(\theta)$
|
|||
|
obtenues lors de l'optimisation avec contraintes
|
|||
|
\eqref{eq:estimateurGMMlagrange} et sans contraintes
|
|||
|
\eqref{eq:estimateurGMM}.
|
|||
|
|
|||
|
On définit la statistique $\chi^{DM}$:
|
|||
|
\begin{align}
|
|||
|
\label{statistiqueD}
|
|||
|
\chi^{DM} &= -T \left[Q_T(\tilde\theta) - Q_T(\hat\theta)\right].
|
|||
|
\end{align}
|
|||
|
|
|||
|
Cette statistique a asymptotiquement une distribution $\chi^2_q$ avec
|
|||
|
$q$ degrés de liberté. Elle est l'analogue de la statistique du ratio
|
|||
|
de vraisemblance dans le cadre de l'estimation par la méthode du
|
|||
|
maximum de vraisemblance.
|
|||
|
|
|||
|
Le test basé sur la métrique de distance vérifie que la contrainte
|
|||
|
\eqref{eq:contraintelin} posée lors de l'estimation du vecteur
|
|||
|
$\tilde\theta$ est valide. Un des désavantages de ce test est qu'il
|
|||
|
requiert deux optimisations. Par contre, on peut facilement récupérer
|
|||
|
les valeurs de $Q_T(\theta)$ lors de l'estimation.
|
|||
|
|
|||
|
On rejettera l'hypothèse nulle \eqref{eq:hypcontraintelin} lorsque la
|
|||
|
valeur de la statistique $\chi^{DM}$ sera supérieure à un seuil
|
|||
|
critique $\chi_{q,1-\alpha}^2$ au niveau de confiance $1-\alpha$.
|
|||
|
|
|||
|
\subsection{En résumé}
|
|||
|
\label{sec:resumetests}
|
|||
|
|
|||
|
On rassemble les différentes statistiques permettant d'effectuer un
|
|||
|
test d'hypothèse paramétrique à la table \ref{tab:testsparamGMM}.
|
|||
|
\begin{table}[!ht]
|
|||
|
\centering
|
|||
|
\begin{tabular}{cc}
|
|||
|
\hline
|
|||
|
\textbf{Statistique} & \textbf{Valeur} \\
|
|||
|
\hline
|
|||
|
$\chi^{WALD,1}$ & $T \left(\hat\theta - \tilde\theta\right)^{\prime}
|
|||
|
\mathcal{J}_0^{-1}\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\left(\frac{\partial}{\partial\theta^{\prime}}
|
|||
|
a(\theta_0) \mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}
|
|||
|
\right)^{-1}\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
\left(\hat\theta - \tilde\theta\right)$ \\
|
|||
|
$\chi^{WALD,2}$ & $T a^{\prime}(\hat\theta)
|
|||
|
\left(\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
\mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a^{\prime}(\theta_0) \right)^{-1}
|
|||
|
a(\hat\theta)$ \\
|
|||
|
$\chi^{LM,1}$ & $T \frac{\partial}{\partial\theta}Q_T(\tilde\theta) P
|
|||
|
\frac{\partial}{\partial\theta}Q_T(\tilde\theta)$ \\
|
|||
|
$\chi^{LM,2}$ & $T \gamma^{\prime}
|
|||
|
\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
|
|||
|
\mathcal{J}_0^{-1}
|
|||
|
\frac{\partial}{\partial\theta}a^{\prime}(\theta_0) \gamma$ \\
|
|||
|
$\chi^{DM}$ & $-T \left[Q_T(\tilde\theta) - Q_T(\hat\theta)\right]$ \\
|
|||
|
\hline
|
|||
|
\end{tabular}
|
|||
|
\caption{Tests d'hypothèse paramétriques pour la méthode des moments généralisée}
|
|||
|
\label{tab:testsparamGMM}
|
|||
|
\end{table}
|
|||
|
|
|||
|
%%% Local Variables:
|
|||
|
%%% mode: latex
|
|||
|
%%% TeX-master: "gabarit-maitrise"
|
|||
|
%%% End:
|