Memoire/memoire/chapitre4.tex

\chapter{Méthode des moments généralisée} % numéroté

Si l'on pose l'hypothèse selon laquelle un échantillon issu d'une
population a une certaine distribution de probabilité, on doit
ensuite déterminer quels sont les paramètres de celle-ci. Ces
paramètres peuvent être estimés à l'aide de différentes méthodes
statistiques. La méthode des moments généralisée est une de celles-ci.

\section{Introduction}
\label{sec:intromethodeGMM}

On considère un échantillon de taille $T$ formé de plusieurs
réalisations $\mathbf{y} = y(1),\ldots,y(T)$ indépendantes entre elles
et identiquement distribuées. Selon le modèle paramétrique, cet
échantillon est formé de réalisations d'une variable aléatoire $Y$
suivant une distribution particulière. Le vecteur de paramètres de
celle-ci, $\theta$, de longueur $a$, appartenant à l'espace $\Omega
\subset \mathbb{R}^a$, doit être estimé à partir de l'échantillon. Une
première approche consiste à maximiser la fonction de vraisemblance
$L(\theta;\mathbf{y})$, qui équivaut au produit de la densité
$f(y;\theta)$ évaluée à chacune des réalisations $y(t)$:
\begin{align}
  \label{eq:vraisemblance}
  L(\theta;\mathbf{y}) = \prod_{t=1}^T
  f(y(t);\theta),\quad\theta\in\Omega.
\end{align}

L'estimateur $\hat\theta$ est, dans ce cas, la valeur pour
laquelle l'échantillon a la plus grande probabilité d'être
observé. Cependant, puisque cela apporte plusieurs simplifications
intéressantes, on cherchera à maximiser la fonction de
log-vraisemblance $l(\theta;\mathbf{y}) =
\ln{(L(\theta;\mathbf{y}))}$:
\begin{align}
  \label{eq:thetavraisemblance}
  \hat\theta = \underset{\theta}{\operatorname{arg\,max}} \,
  l(\theta;\mathbf{y}).
\end{align}

Le maximum est obtenu en résolvant la condition de premier ordre,
c'est-à-dire en égalant le gradient de la fonction de
log-vraisemblance à 0:
\begin{align}
  \label{eq:EEvraisemblance}
  \frac{\partial{l(\theta;\mathbf{y})}}{\partial{\theta}} &= 0.
\end{align}

Cette méthode permet d'obtenir un estimateur convergent de variance
minimale, car elle utilise l'ensemble de l'information contenue dans
l'échantillon. Cependant, la fonction de vraisemblance doit pouvoir
être spécifiée sous une forme analytique, et de plus, celle-ci doit
être différentiable afin de pouvoir utiliser cette méthode, ce qui
n'est pas le cas avec la distribution de Laplace asymétrique
généralisée. Lorsque cette situation se présente, une méthode
alternative est préférée, celle des moments généralisée, comme
proposée par \cite{hansen1982large}. Celle-ci est décrite par
\cite{hamilton1994time} dans le contexte de l'étude des séries
chronologiques. Elle a pour avantage de nécessiter seulement la
spécification de certaines conditions de moment. Par contre, elle
n'utilise pas toute l'information fournie par l'échantillon, ce qui ne
permettra pas d'obtenir un estimateur de variance minimale.

\subsection{Méthode classique des moments}
\label{sec:methodemoments}

Pour certaines distributions, on ne peut directement estimer les
paramètres. On cherchera alors des fonctions des paramètres qui sont
facilement estimables de manière convergente. L'ensemble de fonctions
le plus commun qui répond à cette condition est celui des moments,
d'où le nom de la méthode.

La méthode classique des moments a été introduite par Pearson en
1894. On considère un échantillon de taille $T$ dont les observations
seront notées $y(t)$. On veut estimer le vecteur de paramètres
$\theta$, de longueur $a$ de la distribution. On définit les moments
$\mathbf{m} = m_1, \ldots, m_a$ de la population totale,
représentée par la variable aléatoire $Y$, comme étant l'espérance des
puissances de celle-ci, et donc une fonction des paramètres de la
distribution. On considèrera le même nombre de moments que de
paramètres à estimer.
\begin{align}
  \label{eq:momentspopulation}
  m_i\left( \theta \right) = E \left[ Y^i \right] ,\qquad i=1,
  \ldots, a
\end{align}

Cette méthode consiste à résoudre un système d'équations
\eqref{eq:momentsechantillon} où l'on égale les moments empiriques
$m_i(\theta)$ à ceux de la distribution $\hat{m}(\mathbf{y})$.
\begin{align}
  \label{eq:momentsechantillon}
  \left\{\begin{array}{rcl}
      m_1(\theta) &=& \frac{1}{T}\sum_{t=1}^T y_t\\
      m_2(\theta) &=& \frac{1}{T}\sum_{t=1}^T y_t^2\\
      &\vdots& \\
      m_a(\theta) &=& \frac{1}{T}\sum_{t=1}^T y_t^a
    \end{array}\right\}
\end{align}

L'estimateur des moments $\hat\theta_T$ est celui qui résout ce
système.

\section{Méthode des moments généralisée}
\label{sec:methodeGMM}

La méthode classique des moments utilise le même nombre d'équations
d'estimation que de paramètres $(r=a)$.  De plus, le système
d'équations formé par celles-ci doit admettre une solution réelle
appartenant à l'espace des paramètres $\Omega$, ce qui n'est pas
toujours le cas. Lorsque ces deux conditions ne sont pas réunies, on
doit choisir un vecteur de paramètres $\theta$ pour lequel les moments
de la population $m_i$ ont une valeur la plus près possible de ceux
de l'échantillon $\hat{m}_i$ correspondants. Cette distance est notée
par le vecteur $g(\theta;\mathbf{y})$ et correspond au cas le plus
simple de la méthode des moments généralisée.
\begin{align}
  \label{eq:1}
  g(\theta;\mathbf{y}) &= \begin{bmatrix}
    m_1 - \hat{m}_1\\
    \vdots\\
    m_r - \hat{m}_r\\
  \end{bmatrix}.
\end{align}

Pour obtenir ces estimateurs, on cherchera plutôt à minimiser une
fonction objectif notée $Q\left(\theta;\mathbf{y} \right)$, qui
correspond à une norme quadratique pondérée par une matrice définie
positive $W$:
\begin{align}
  Q\left(\theta;\mathbf{y} \right) \equiv g(\theta;\mathbf{y})' W
  g(\theta;\mathbf{y}).
\end{align}

\cite{hansen1982large} nomme cette procédure «méthode des moments
généralisée». Elle est aussi nommée «méthode du $\chi^2$ minimum» par
\cite{berkson1980minimum}, bien qu'elle n'en soit qu'un cas
particulier. On retrouve aussi le nom d'estimateur de distance
minimale, par \cite{wolfowitz1957minimum}.

\subsection{Définition}
\label{sec:definitionGMM}

On considère un vecteur $\mathbf{y}_{T}$ de longueur $T$ contenant les
données $y(t)$ de l'échantillon tirées d'une population représentée
par la variable aléatoire $Y$. On considère de plus un vecteur de
paramètres $\theta \in \Omega$ de longueur $a$ dont la vraie valeur,
qui est inconnue, est représentée par la constante $\theta_0$. Soit
une fonction vectorielle de longueur $r$ de la variable aléatoire $Y$
appelée condition de moment ou d'orthogonalité:
\begin{align}
  \label{eq:def1condmoment}
  h\left(\theta,Y\right):\left(\mathbb{R}^a \times \mathbb{R}\right)
  \longrightarrow \mathbb{R}^r.
\end{align}

L'espérance de cette fonction, sous l'hypothèse $\theta =
\mathbf{\theta_0}$, est un vecteur nul noté $\mathbf{0}_r$.
\begin{align}
  E \left[h\left(\theta_0,Y \right) \right] = \mathbf{0}_r.
\end{align}

On définit aussi la fonction $g(\theta,\mathbf{y}_{T}):\mathbb{R}^a
\longrightarrow \mathbb{R}^r$ comme étant la moyenne empirique des
conditions de moment $h\left(\theta,y \right)$:
\begin{align}
  \label{eq:estimateurfonctiongh}
  g(\theta,\mathbf{y}_{T}) \equiv \frac{1}{T} \sum_{t=1}^T
  h\left(\theta,y(t) \right).
\end{align}

L’idée derrière la méthode des moments généralisée est de choisir un
ensemble de paramètres $\theta$ de sorte que la valeur de la fonction
$g(\theta,\mathbf{y}_{T})$ soit aussi près que possible du vecteur nul
$\mathbf{0}_r$. Selon la norme utilisée pour mesurer cette distance,
les propriétés de l'estimateur $\hat{\theta}_T$ vont varier. Étant
donné les nombreuses propriétés bien établies dans le domaine des
statistiques, on utilise la norme quadratique avec pondération,
appelée aussi moindres carrés généralisés, qui prend la forme
suivante:
\begin{align}
  \label{eq:objectifGMM1}
  Q(\theta,\mathbf{y}_{T}) = \left[g(\theta,\mathbf{y}_{T}) \right]'
  W_T \left[g(\theta,\mathbf{y}_{T}) \right].
\end{align}

Cette fonction de minimisation permettra d'utiliser des tests
statistiques basés sur la distribution $\chi^2$ de Pearson. La matrice
carrée $W_T$ de dimension $r\times r$ est définie positive et est
habituellement une fonction des données de l'échantillon
$\mathbf{y}_{T}$ et des paramètres $\theta$. Une matrice de
pondération optimale sera déterminée à la section
\ref{sec:matriceWoptimaleGMM}.

\subsection{Convergence}
\label{sec:convergenceGMM}

Si le nombre de paramètres $a$ est égal à celui de conditions de
moments $r$, alors la fonction objectif atteindra un minimum de 0 au
point $\mathbf{\hat\theta}$. On obtiendra ce dernier en résolvant
l'équation suivante pour le paramètre $\theta$:
\begin{align}
  g(\hat\theta_T,\mathbf{y}_{T})=0. \label{eq:paramegalecondmomentsGMM}
\end{align}

Lorsque le nombre de conditions de moments est plus grand que celui
des paramètres, on ne pourra pas obtenir une solution pour l'équation
précédente \eqref{eq:paramegalecondmomentsGMM}. La proximité entre la
valeur de chaque condition de moment et $0$ sera déterminée par la
matrice de pondération $W_T$. Étant donné que la fonction
$g(\hat\theta_T,\mathbf{y}_{T})$ est la moyenne échantillonnale de la
fonction aléatoire $h\left(\theta_0,Y \right)$, on a, par la loi des
grands nombres, la relation suivante entre ces deux quantités:
\begin{align}
  g(\theta,\mathbf{y}_{T}) \stackrel{P}{\longrightarrow} E
  \left[h\left(\theta,Y \right) \right]. \label{eq:normequadratique}
\end{align}

On considère la suite d'observations $\left\{y(t) \right\}_{t=1}^T$
comme un processus stochastique. L'ensemble des conditions de
régularité suivantes permet d'obtenir un estimateur convergent
\citep{hansen1982large}.
\begin{enumerate}
\item Le processus stochastique $\left\{y(t) \right\}_{t=1}^T$ est
  \textbf{stationnaire}, dont la distribution conjointe de plusieurs
  observations ne change pas dans le temps:
  \begin{align}
    \label{eq:conditionGMM1.1}
    F_{Y}(y({t(1)+\tau}) ,\ldots, y({t(k)+\tau})) =
    F_{Y}(y({t(1)}),\ldots, y({t(k)})), \quad \forall \tau \in
    \mathbb{R}.
  \end{align}
  
  Il est aussi \textbf{ergodique}, c'est-à-dire que l'on peut déduire
  les propriétés du processus à partir d'un échantillon (ou
  réalisation) suffisamment long de celui-ci. Entre autres, la moyenne
  et la variance d'un échantillon recueilli sur une période en
  particulier sont représentatives de celles de n'importe quel autre
  intervalle de temps de ce processus. Dans ces deux dernières
  situations, on parle aussi de convergence en moyenne
  ($\mathbb{L}^1$) et en norme quadratique ($\mathbb{L}^2$):
  \begin{align}
    \label{eq:conditionGMM1.2}
    \lim_{T\longrightarrow\infty}\mathrm{E}\left(\left|Y_T-Y\right|^r\right)=0,
    \quad r\in\left\{1,2\right\}.
  \end{align}

\item L'\textbf{espace métrique} $(\Omega,\sigma)$, défini par
  l'espace des paramètres $\Omega$ et la norme valeur absolue est
  \textbf{séparable}:
  \begin{align}
    \label{eq:conditionGMM2.1}
    \sigma=\left|Y_T-Y\right|^r.
  \end{align}

  Cette condition définit l'unicité du vecteur de paramètres, car si
  la distance est nulle, les estimateurs correspondent aux vrais paramètres:
  \begin{align}
    \label{eq:conditionGMM2.2}
    \sigma = 0 &\Longleftrightarrow \mathbf{\hat\theta} = \theta_0,
    \quad \theta_0 \in \Omega.
  \end{align}

\item La fonction $h\left(\theta,\mathbf{y}\right)$ est
  \textbf{mesurable au sens de Borel} pour chaque vecteur $\theta$,
  c'est-à-dire qu'un sous-ensemble de l'espace des paramètres $\Omega$
  existe pour chaque valeur qu'elle peut prendre. De plus, la fonction
  est continue sur l'ensemble $\Omega$ pour chaque échantillon
  $\mathbf{y}$.

\item L'espérance de la fonction $h\left(\theta, Y \right)$ existe et
  est définie pour toute valeur $\theta \in \Omega$. De plus, par
  définition, l'espérance de la fonction pour les vrais paramètres est
  de 0:
  \begin{align*}
    E\left[h\left(\theta_0, Y \right)\right] &= 0.
  \end{align*}

\item La séquence de matrices de pondération $\left\{ W_T
  \right\}_{T=1}^{\infty}$ converge presque sûrement, élément par
  élément, vers une constante $W_0$, en utilisant la norme valeur
  absolue définie précédemment \eqref{eq:conditionGMM2.1}.
\end{enumerate}

$\hat\theta_T \in \Omega$ est un estimateur convergent de $\theta$
lorsque les conditions précédentes sont respectées.
\begin{align}
  \hat{\theta}_T &= \operatorname{arg}\min_{\theta\in\Omega} Q(\theta,\mathbf{y}_{T}) \nonumber\\
  &= \operatorname{arg}\min_{\theta\in\Omega}
  \left[g(\theta,\mathbf{y}_{T}) \right]' W_T
  \left[g(\theta,\mathbf{y}_{T}) \right]. \label{eq:estimateurGMM}
\end{align}

\subsection{Matrice de pondération optimale}
\label{sec:matriceWoptimaleGMM}

On définit la variance-covariance $\mathbf{S}(\theta;\mathbf{y})$ de
la moyenne échantillonnale de la fonction
$h(\theta,\mathbf{y})$. Cette matrice est formée par l'espérance,
élément par élément, du produit extérieur de l'estimateur par sa
transposée, multiplié par la taille de l'échantillon $T$
\begin{align}
  \label{eq:matricevcov1}
  \mathbf{S}(\theta;\mathbf{y}) = T \cdot E\left\{ \left[
      h(\theta,\mathbf{y})\right] \left[ h(\theta,\mathbf{y}) \right]'
  \right\} .
\end{align}

La variance-covariance asymptotique de la moyenne échantillonnale de
la fonction $h(\theta_0,y(t))$ est obtenue en évaluant la matrice
\eqref{eq:matricevcov1} au point $\mathbf{\theta_0}$.
\begin{align}
  \mathbf{S}(\theta_0;\mathbf{y}) = T \left[\cdot \lim_{T
      \longrightarrow \infty} E \left\{ \left[
        h(\theta,\mathbf{y})\right] \left[ h(\theta,\mathbf{y})
      \right]' \right\} \right]_{\theta=\theta_0}
\end{align}

La valeur optimale de la matrice de pondération $W_T$ de l'équation
\eqref{eq:estimateurGMM} est obtenue en inversant la
variance-covariance asymptotique:
\begin{align}
  \label{eq:matriceWinvercevcov}
  W_T = \mathbf{S}^{-1}(\theta_0;\mathbf{y}_T).
\end{align}

Cependant, comme on ne connaît pas la valeur de $\theta_0$, on
utilisera l'estimateur convergent ${\mathbf{\hat\theta}}$, qui
minimise la condition suivante:
\begin{align}
  \label{eq:objectifGMM2}
  Q_T(\theta,\mathbf{y}_{T}) = \left[g(\theta,\mathbf{y}_{T}) \right]'
  \mathbf{S}_T^{-1}(\theta;\mathbf{y}_T)
  \left[g(\theta,\mathbf{y}_{T}) \right].
\end{align}

Le problème d'optimisation se note alors comme suit:
\begin{align}
  \label{eq:estimateurGMM2}
  \hat{\theta}_T &= \operatorname{arg}\min_{\theta\in\Omega}
  Q_T(\theta,\mathbf{y}_{T}).
\end{align}

Comme la séquence $\left\{ h(\theta_0,y(t))
\right\}_{t=-\infty}^{\infty}$ ne présente pas de corrélation
sérielle, on pourrait estimer la variance-covariance $S_T$ de manière
convergente en évaluant la moyenne empirique du produit extérieur de
la condition de moment \citep[p.413]{hamilton1994time}:
\begin{align}
  \label{eq:matponderationproduith}
  \mathbf{S}_T^{*}(\theta;\mathbf{y}_T) = \frac{1}{T} \sum_{t=1}^T
  \left[g\left(\theta_0,y(t) \right) \right]
  \left[g\left(\theta_0,y(t) \right) \right]^{\prime}.
\end{align}

L'estimateur $\mathbf{\hat{S}}_T({\mathbf{\hat\theta}};\mathbf{y}_T)$
converge en probabilité vers la vraie valeur de la matrice
$\mathbf{S}(\theta_0;\mathbf{y}_T)$.  Étant donné que l'on estime la
fonction $h(\theta,\mathbf{y}_{T})$ à l'aide de la fonction
$g(\mathbf{\hat\theta};\mathbf{y}_T)$, on a aussi la convergence en
probabilité:
\begin{align}
  \mathbf{\hat{S}}_T({\mathbf{\hat\theta}};\mathbf{y}_T) = \frac{1}{T}
  \sum_{t=1}^T \left[g\left(\hat{\theta}_T,w(t) \right) \right]
  \left[g\left(\hat{\theta}_T,w(t) \right) \right]^{\prime}
  \stackrel{P}{\longrightarrow} \mathbf{S}(\theta_0;\mathbf{y}_T).
\end{align}

L'estimateur de la matrice de pondération optimale est alors défini
comme étant l'inverse de la variance-covariance estimée:
\begin{align}
  \hat{W}_T &=
  \mathbf{\hat{S}}_T^{-1}(\mathbf{\hat\theta};\mathbf{y}_T). \label{eq:matvcovGMM}
\end{align}

Comme cette matrice dépend de l'estimateur $\hat\theta$, qui est pour
l'instant inconnu, elle ne pourra pas être utilisée pour une première
optimisation de l'équation de minimisation
\eqref{eq:estimateurGMM}. Cependant, elle pourra être utilisée dans
une procédure itérative à la section \ref{sec:GMMtwostep}. On devra
considérer l'utilisation d'un point de départ alternatif pour le
vecteur de paramètres dans l'algorithme de minimisation.

\subsection{Méthode des moments généralisée itérative}
\label{sec:GMMtwostep}
\nocite{wooldridge2001econometric}

La méthode des moments généralisée itérative de
\cite{hall2005generalized} permet de contourner le problème de
l'estimation de la matrice
$\mathbf{\hat{S}}_T(\mathbf{\hat\theta};\mathbf{y}_T)$. Elle consiste,
en premier lieu, à calculer un estimateur préliminaire
$\mathbf{\hat{\theta}}^{(0)}$, en utilisant la matrice identité $W_T =
I_r$ dans l'équation \eqref{eq:estimateurGMM}. On suggère d'utiliser
un vecteur de valeurs initiales $\hat{\theta}^{I}$ obtenues par une
autre méthode d'estimation, lorsque possible, comme point de départ de
l'optimisation numérique.

À l'aide de l'estimateur initial $\mathbf{\hat{\theta}}^{(0)}$, on
obtient une première évaluation de la matrice de pondération:
\begin{align}
  W_T = \left[\hat{S}_T(\mathbf{\hat{\theta}}^{(0)};\mathbf{y}_T)
  \right]^{-1}.
\end{align}

En utilisant la matrice $W_T$ comme pour pondérer la fonction objectif
\eqref{eq:estimateurGMM}, on obtiendra un nouvel estimateur
$\hat{\theta}_T^{(1)}$.

Par la suite, on répète cette procédure jusqu'à ce qu'on obtienne deux
estimateurs consécutifs ($\hat{\theta}_T^{(j)}$ et
$\hat{\theta}_T^{(j+1)}$) qui ne sont pas significativement
différents, selon un critère d'arrêt $\epsilon_i < \epsilon$.  Ce
critère d'arrêt prendra ici la forme suivante, qui correspond à la
norme euclidienne de la différence entre les deux derniers estimateurs
obtenus:
\begin{align}
  \label{eq:criterearret}
  \epsilon_i =
  \sqrt{\left[\hat\theta^{(i)}_T-\hat\theta^{(i-1)}_T\right]^{\prime}\left[\hat\theta^{(i)}_T-\hat\theta^{(i-1)}_T\right]}.
\end{align}

On peut aussi fixer un nombre maximal d'itérations $i_{max}$ si l'on
ne parvient pas à obtenir le niveau de précision voulu. Par contre,
dans cette situation, on préfère utiliser un autre point de départ.

Chaque estimateur $\hat{\theta}_T^{(i)}$ a la même distribution
asymptotique. La méthode itérative a pour avantage, en pratique, que
les estimateurs produits sont invariants d'échelle et ne dépendent pas
de la matrice $W_T$ initiale.

\subsection{Distribution asymptotique des estimateurs}
\label{sec:matvcovGMM}

On considère $\hat{\theta}_T$, la valeur qui minimise la fonction
objectif $Q(\theta,\mathbf{y}_{T})$ \eqref{eq:objectifGMM2}. Cette
minimisation équivaut à résoudre le système non linéaire où l'on égale
la dérivée de l'équation d'optimisation à 0:
\begin{align} \label{eq:premierordreGMM}
  \frac{d}{d\theta^{\prime}}Q(\theta,\mathbf{y}_{T}) &=
  \left[\left.\frac{d}{d\theta^{\prime}}g(\theta,\mathbf{y}_{T})\right|_{\theta=\hat{\theta}}
  \right]^{\prime} \cdot \hat{W}_T \cdot g(\theta,\mathbf{y}_{T}) \\
  &= 0. \nonumber
\end{align}

où le gradient $D'(\theta,\mathbf{y}_{T})$ est
\begin{align} \label{eq:gradientGMM} D'(\theta,\mathbf{y}_{T}) &=
  \left[\frac{d}{d\theta^{\prime}}g(\theta,\mathbf{y}_{T})
  \right]^{\prime} \nonumber\\
  &= \begin{bmatrix}
    \frac{d}{d\theta_1}g_1(\theta,\mathbf{y}_{T})& \cdots & \frac{d}{d\theta_1}g_a(\theta,\mathbf{y}_{T}) \\
    \vdots & \ddots & \vdots \\
    \frac{d}{d\theta_k}g_1(\theta,\mathbf{y}_{T})& \cdots &
    \frac{d}{d\theta_k}g_a(\theta,\mathbf{y}_{T})
  \end{bmatrix}.
\end{align}

En appliquant le théorème central limite multivarié
\eqref{eq:TCLmulti2} à l'estimateur des conditions de moments
$g(\theta,\mathbf{y}_{T})$, on obtient que, lorsque la taille $T$ est
suffisamment grande, celui-ci converge en loi vers un vecteur
aléatoire de distribution normale multivariée de moyenne
$\mathbf{0}_a$ et de variance-covariance
$T^{-1}\mathbf{S}(\mathbf{\theta};\mathbf{y}_T)$:
\begin{align}
  \label{eq:TCL-GMM}
  \sqrt{T} g(\theta,\mathbf{y}_{T}) \stackrel{L}{\longrightarrow}
  N\left(\mathbf{0}_a,\mathbf{S}(\mathbf{\theta};\mathbf{y}_T)\right).
\end{align}

Cette relation permet de conclure que l'estimateur $\hat\theta$ est
gaussien. On n'a donc qu'à calculer sa variance-covariance
asymptotique.

Soit $\left\{\mathbf{\hat{S}}_T \right\}_{T=1}^{\infty}$, une séquence
de matrices $(r \times r)$ définies positives qui convergent en
probabilité vers la variance-covariance asymptotique:
\begin{align*}
  \mathbf{\hat{S}}_T \stackrel{P}{\longrightarrow} \mathbf{S}.
\end{align*}

On ajoute que la fonction $g(\theta,\mathbf{y}_{T})$ doit être
différentiable par rapport au vecteur $\theta$ pour tout échantillon
$\mathbf{y}_{T}$.

On doit préalablement poser un ensemble de conditions supplémentaires
de régularité:
\begin{enumerate}
\item L'estimateur $\hat\theta_T$ converge en probabilité vers la
  vraie valeur des paramètres $\theta_0$:
  \begin{align}
    \label{eq:varasympt.1}
    \hat\theta_T \stackrel{P}{\longrightarrow} \theta_0.
  \end{align}
\item Le théorème central limite s'applique pour la fonction
  $g(\theta,\mathbf{y}_{T})$ \eqref{eq:TCL-GMM}.
\item Pour toute séquence d'estimateurs $\left\{ \theta_T^{*}
  \right\}_{T=1}^{\infty}$ convergents en probabilité $\theta_T^{*}
  \stackrel{P}{\longrightarrow} \theta_0$, on peut évaluer le gradient
  $D^{\prime}(\theta,\mathbf{y}_{T})$ de l'équation
  $g(\theta,\mathbf{y}_{T})$ \eqref{eq:gradientGMM} à l'aide de
  limites:
  \begin{align}
    \label{eq:varasympt.3}
    D^{\prime}_T(\theta,\mathbf{y}_{T}) &\equiv plim \left\{\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}|_{\theta=\theta_T^{*}} \right\} \nonumber\\
    &= plim
    \left\{\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}|_{\theta=\theta_0}
    \right\}.
  \end{align}
  On note que les colonnes de la matrice $D$ sont linéairement
  indépendantes.
\end{enumerate}

Pour obtenir la distribution asymptotique de l'estimateur
$\hat\theta$, on utilise le premier ordre du développement de Taylor
de la fonction $g(\hat\theta,\mathbf{y}_{T})$ autour de la valeur du
vrai paramètre $\theta_0$, tel qu'avancé par
\cite{gourieroux1989statistique}:
\begin{align}
  \label{eq:taylorfonction.g}
  g(\hat\theta,\mathbf{y}_{T}) &= g(\theta_0,\mathbf{y}_{T}) +
  D^{\prime}_T(\theta,\mathbf{y}_{T}) \left(\hat\theta-\theta_0
  \right).
\end{align}

On multiplie de part et d'autre par la matrice $
\left(\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
  \times W_T \right)$ de dimension $(a \times r)$:
\begin{align}
  \label{eq:taylorfonction.gprod}
  \left(\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
    \times W_T\right) \times g(\hat\theta,\mathbf{y}_{T}) &=
  \left(\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
    \times W_T\right) \times g(\theta_0,\mathbf{y}_{T})\nonumber\\
  &+
  \left(\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
    \times W_T\right) \times D^{\prime}_T(\theta,\mathbf{y}_{T})
  \left(\hat\theta-\theta_0 \right).
\end{align}

L'équation de premier ordre \eqref{eq:premierordreGMM} nous indique
que le côté gauche de l'égalité précédente
\eqref{eq:taylorfonction.gprod} vaut 0. On retrouve alors une
expression de la distance entre l'estimateur et la vraie valeur des
paramètres, qui dépend de la matrice de pondération, de la fonction
$g(\theta_0,\mathbf{y}_{T})$ et du gradient
$D^{\prime}_T(\theta,\mathbf{y}_{T})$:
\begin{align}
  \label{eq:taylorfonction.gprod2}
  \left(\hat\theta-\theta_0 \right) &= -
  \left[\left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
    \times W_T \times D^{\prime}_T(\theta,\mathbf{y}_{T}) \right]^{-1} \nonumber\\
  &\quad\times
  \left.\frac{dg(\theta,\mathbf{y}_{T})}{d\theta^{\prime}}\right|_{\theta=\theta_T}
  \times W_T \times g(\theta_0,\mathbf{y}_{T}).
\end{align}

La condition de régularité \eqref{eq:varasympt.3} permet la
convergence de chaque rangée de l'estimateur
$D^{\prime}_T(\theta,\mathbf{y}_{T})$ vers celles du gradient
$D^{\prime}(\theta_0,\mathbf{y}_{T})$. De plus, l'équation
\eqref{eq:taylorfonction.gprod2} implique la relation de convergence
suivante:
\begin{align}
  \label{eq:taylorfonction.gprod3}
  \sqrt{T} \left(\hat\theta-\theta_0 \right)
  &\stackrel{P}{\longrightarrow}
  -\left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime}(\theta,\mathbf{y}_{T})
  \right\}^{-1} \nonumber\\
  &\quad\times \left\{D(\theta,\mathbf{y}_{T})W_T\sqrt{T} \cdot
    g(\theta_0,\mathbf{y}_{T}) \right\}.
\end{align}

Afin de simplifier la notation, on définit la constante
$C(\theta,\mathbf{y}_{T})$:
\begin{align*}
  C(\theta,\mathbf{y}_{T})=-\left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime}
    (\theta,\mathbf{y}_{T}) \right\}^{-1} \times
  D(\theta,\mathbf{y}_{T})W_T.
\end{align*}

L'équation \eqref{eq:taylorfonction.gprod3} devient
\begin{align}
  \label{eq:taylorfonction.gprod4}
  \sqrt{T} \left(\hat\theta-\theta_0 \right)
  &\stackrel{P}{\longrightarrow} C(\theta,\mathbf{y}_{T})\sqrt{T}
  \cdot g(\theta_0,\mathbf{y}_{T}).
\end{align}

En combinant la relation \eqref{eq:TCL-GMM}, où l'on applique le
théorème central limite à la fonction $g(\theta_0,\mathbf{y}_{T})$,
avec la méthode delta multivariée \eqref{eq:deltamethodmult}, on
retrouve la forme suivante, avec une convergence en loi cependant,
puisque celle-ci est moins forte que celle en probabilité:
\begin{align}
  \sqrt{T} (\hat{\theta}-\theta_0) \stackrel{L}{\longrightarrow}
  N(0,\mathcal{J}_0^{-1})
\end{align}
où
\begin{align}
  \mathcal{J}_0^{-1} &=
  C(\theta,\mathbf{y}_{T})\left\{W_T\right\}^{-1}C(\theta,\mathbf{y}_{T})
  \nonumber\\
  &= \left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime}
    (\theta,\mathbf{y}_{T}) \right\}^{-1} D(\theta,\mathbf{y}_{T})W_T
  \left\{W_T\right\}^{-1}\nonumber\\
  &\quad\times W_T D^{\prime}(\theta,\mathbf{y}_{T})
  \left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime} (\theta,\mathbf{y}_{T})
  \right\}^{-1}\nonumber\\
  &=
  \left\{D(\theta,\mathbf{y}_{T})W_TD^{\prime}(\theta,\mathbf{y}_{T})\right\}^{-1}. \label{matricevcovparamGMMnc}
\end{align}

\section{Estimation sous contraintes}
\label{sec:estimGMMcontraint}

La méthode des moments généralisée suppose que le vrai vecteur de
paramètres $\theta_0$ appartient à l'ensemble $\Omega$. En pratique,
les paramètres sont souvent soumis à certaines contraintes à
l'égalité.

On définit un ensemble de $q$ contraintes linéaires implicites
appliquées au vecteur de paramètres $\theta$ de longueur $a$:
\begin{align}
  \label{eq:contraintelin0}
  \left\{
    \begin{array}{rcl}
      r_{(1,1)}\theta_1 + \ldots + r_{(1,a)}\theta_a &=& r_{(1,0)}\\
      \ldots \\
      r_{(q,1)}\theta_1 + \ldots + r_{(q,a)}\theta_a &=& r_{(q,0)}
    \end{array}
  \right\}.
\end{align}

On peut les présenter sous la forme d'un système matriciel:
\begin{align}
  \label{eq:contraintelin}
  \underbrace{
    \begin{bmatrix}
      r_{(1,1)}&\ldots&r_{(1,a)}\\
      \vdots&\ddots&\vdots\\
      r_{(q,1)}&\ldots&r_{(q,a)}\\
    \end{bmatrix}}_{\mathbf{R}} \times \underbrace{\begin{bmatrix}
      \theta_1\\
      \vdots\\
      \theta_a
    \end{bmatrix}}_{\mathbf{\theta}} &= \underbrace{\begin{bmatrix}
      r_{(1,0)}\\
      \vdots\\
      r_{(q,0)}
    \end{bmatrix}}_{\mathbf{r}}.
\end{align}

Afin de les inclure dans un problème de minimisation, on préfèrera
utiliser la notation $a(\theta) = R\theta-r$.  On notera au passage
que le gradient du vecteur de contraintes équivaut à la matrice de
coefficients:
\begin{align}
  \label{eq:gradientcontrainte}
  \frac{\partial}{\partial\theta^{\prime}} a(\theta) = R.
\end{align}

Ainsi, on peut estimer les paramètres de la distribution contrainte à
l'aide de la méthode des moments généralisée, de manière analogue à la
distribution non contrainte, comme il a été présenté à la section
précédente. On utilisera la technique du multiplicateur de Lagrange
afin d'inclure la contrainte $a(\theta)$ dans l'équation de
minimisation \eqref{eq:estimateurGMM2}. Le vecteur $\gamma$ associe un
multiplicateur à chaque contrainte linéaire.  On définit le lagrangien
$\mathcal{L}(\tilde{\theta})$ mettant en relation la fonction objectif
$Q_T(\theta)$ \eqref{eq:objectifGMM2} et les contraintes $a(\theta)$:
\begin{equation}
  \label{eq:estimateurGMMlagrange}
  \mathcal{L}(\theta) = - Q_T(\theta) - a(\theta)^{\prime} \gamma.
\end{equation}

L'estimateur contraint $\tilde{\theta}$ est obtenu en maximisant ce
lagrangien:
\begin{align}
  \label{eq:lagrangienGMMcontraint}
  \tilde{\theta} = \operatorname{arg}\max_{\theta\in\Omega}
  \mathcal{L}(\theta).
\end{align}

La solution optimale s'obtient en résolvant les conditions de premier
ordre par rapport au vecteur de paramètres $\theta$ et celui des
multiplicateurs de Lagrange $\gamma$:

\begin{align}
  \frac{\partial}{\partial\theta}Q_T(\tilde\theta) -
  \frac{\partial}{\partial\theta^{\prime}}a(\tilde\theta)^{\prime}\gamma_{\scriptscriptstyle
    T} &= 0\label{eq:premierordreGMMlagrange1} \\ a(\tilde\theta) &=
  0. \label{eq:premierordreGMMlagrange2}
\end{align}

On s'intéresse aussi à la distribution asymptotique de cet estimateur
contraint. Pour ce faire, on doit développer les conditions de premier
ordre comme il a été fait à la section \ref{sec:matvcovGMM} pour
l'estimateur non contraint.

\subsection{Distribution asymptotique des estimateurs contraints}
\label{sec:matvcovGMMconst}

Supposons que les conditions de premier ordre sont deux fois
continûment dérivables par rapport au vecteur $\theta$. On développe
les équations \eqref{eq:premierordreGMMlagrange1} et
\eqref{eq:premierordreGMMlagrange2} autour de la vraie valeur du
paramètre contraint $\theta_0$.  Puis, on les multiplie par les facteurs
$\frac{1}{\sqrt{T}}$ et $\sqrt{T}$ respectivement. Notons que la
fonction $a(\theta)$ vaut 0 au point $\theta_0$, ce qui permettra de
simplifier la seconde équation:
\begin{subequations} \label{eq:premierordreGMMlagrange1.1-2}
  \begin{align}
    \frac{1}{\sqrt{T}} \frac{\partial}{\partial\theta}Q_T(\theta_0) +
    \frac{1}{T}
    \frac{\partial^2}{\partial\theta\partial\theta^{\prime}}Q_T(\theta_0)
    \sqrt{T} (\tilde\theta - \theta_0) -
    \frac{\partial}{\partial\theta^{\prime}}a(\tilde\theta)^{\prime}\frac{\gamma_{\scriptscriptstyle
        T}}{\sqrt{T}} &\approx 0 \label{eq:premierordreGMMlagrange1.1}\\
    \frac{\partial}{\partial\theta^{\prime}} a(\theta_0) \sqrt{T}
    (\tilde\theta - \theta_0) &\approx
    0. \label{eq:premierordreGMMlagrange1.2}
  \end{align}
\end{subequations}

On définit la matrice d'information de Fisher comme étant la limite de
l'espérance de la valeur de la dérivée seconde de la fonction
objectif. Au point $\theta_0$, on identifie l'estimateur de cette
matrice par $\mathcal{J}_0$, la variance-covariance de l'estimateur
non contraint \eqref{matricevcovparamGMMnc}:
\begin{align}
  \label{eq:fisherJGMMlagrange}
  \mathcal{J}_0 &= \lim_{T\to\infty} -\frac{1}{T}
  \frac{\partial^2}{\partial\theta\partial\theta^{\prime}}Q_T(\theta_0).
\end{align}

On reprend l'équivalent asymptotique de l'équation
\eqref{eq:premierordreGMMlagrange1.1} pour l'estimateur non contraint:
\begin{align}
  \frac{1}{\sqrt{T}} \frac{\partial}{\partial\theta}Q_T(\theta_0) -
  \mathcal{J}_0 \sqrt{T} (\hat\theta - \theta_0) &\approx
  0\label{eq:premierordreGMMnc1.1}.
\end{align}

En combinant ces deux dernières expressions, on peut formuler les
conditions de premier ordre \eqref{eq:premierordreGMMlagrange1.1-2}
comme étant asymptotiquement des fonctions linéaires de l'estimateur
non contraint $\sqrt{T} (\hat\theta - \theta_0)$:
\begin{align}
  \mathcal{J}_0 \sqrt{T} (\hat\theta - \theta_0) - \mathcal{J}_0
  \sqrt{T} (\tilde\theta - \theta_0) -
  \frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\frac{\gamma_{\scriptscriptstyle
      T}}{\sqrt{T}} &\approx 0 \label{eq:premierordreGMMlagrange2.1}\\
  \frac{\partial}{\partial\theta^{\prime}} a(\theta_0) \sqrt{T}
  (\tilde\theta - \theta_0) &\approx
  0. \label{eq:premierordreGMMlagrange2.2}
\end{align}

En réorganisant la première équation
\eqref{eq:premierordreGMMlagrange2.1}, on obtient:
\begin{align}
  \label{eq:premierordreGMMlagrange3.1}
  \sqrt{T} (\tilde\theta - \theta_0) \approx \sqrt{T} (\hat\theta -
  \theta_0) - \mathcal{J}_0^{-1}
  \frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\frac{\gamma_{\scriptscriptstyle
      T}}{\sqrt{T}}.
\end{align}

En la reportant dans la seconde équation
\eqref{eq:premierordreGMMlagrange2.2}, on obtient:
\begin{align}
  \label{eq:premierordreGMMlagrange3.2}
  \frac{\partial}{\partial\theta^{\prime}} a(\theta_0) \sqrt{T}
  (\hat\theta - \theta_0) - \frac{\partial}{\partial\theta^{\prime}}
  a(\theta_0) \mathcal{J}_0^{-1}
  \frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\frac{\gamma_{\scriptscriptstyle
      T}}{\sqrt{T}} + \frac{\partial}{\partial\theta^{\prime}}
  a(\theta_0) \sqrt{T} (\tilde\theta - \theta_0) &\approx 0.
\end{align}

Comme le rang de la matrice $\frac{\partial}{\partial\theta^{\prime}}
a(\theta_0)$ est égal au nombre de contraintes $r$, alors
$\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
\mathcal{J}_0^{-1}
\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}$ est inversible,
et l'on peut donc isoler le multiplicateur de Lagrange
$\frac{\gamma_{\scriptscriptstyle T}}{\sqrt{T}}$ en fonction des
estimateurs contraints $\sqrt{T} (\tilde\theta - \theta_0)$ et non
contraints $\sqrt{T} (\hat\theta - \theta_0)$:
\begin{align}
  \label{eq:LagrangienJ.GMM}
  \frac{\gamma_{\scriptscriptstyle T}}{\sqrt{T}} & \approx
  \left(\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
    \mathcal{J}_0^{-1}
    \frac{\partial}{\partial\theta}a(\theta_0)^{\prime} \right)^{-1}
  \frac{\partial}{\partial\theta^{\prime}} a(\theta_0) \sqrt{T}
  (\hat\theta - \theta_0).
\end{align}

On définit l'estimateur contraint en fonction de l'estimateur non
contraint en utilisant le lagrangien \eqref{eq:LagrangienJ.GMM} dans
la condition \eqref{eq:premierordreGMMlagrange3.1}:
\begin{align}
  \label{eq:contraintvsncGMM}
  \sqrt{T} (\tilde\theta - \theta_0) &\approx
  \left(I-\underbrace{\mathcal{J}_0^{-1}\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\left(\frac{\partial}{\partial\theta^{\prime}}
        a(\theta_0) \mathcal{J}_0^{-1}
        \frac{\partial}{\partial\theta}a(\theta_0)^{\prime}
      \right)^{-1}\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
    }_{P}\right)\mathcal{J}_0^{-1}\sqrt{T} (\hat\theta - \theta_0) \\
  & \approx \left(I-P\right)\mathcal{J}_0^{-1}\sqrt{T} (\hat\theta -
  \theta_0). \nonumber
\end{align}

La variance asymptotique de l'estimateur contraint est donc, à partir
du résultat précédent \eqref{eq:contraintvsncGMM} et de la définition
\eqref{eq:premierordreGMMnc1.1}:
\begin{align}
  \label{eq:VcontraintGMM}
  V\left[\sqrt{T} (\tilde\theta - \theta_0) \right] =
  \left(I-P\right)\mathcal{J}_0^{-1}.
\end{align}

L'estimateur $\tilde\theta$ suit donc asymptotiquement une
distribution normale multivariée de moyenne $\theta_0$ et de variance
$T\left(I-P\right)\mathcal{J}_0^{-1}$:
\begin{align}
  \label{eq:distcontraintGMM}
  \tilde\theta &\sim
  \mathcal{N}\left(\theta_0,T\left(I-P\right)\mathcal{J}_0^{-1}\right).
\end{align}

\section{Tests d'hypothèses paramétriques}
\label{sec:testparam}

Les tests d'hypothèses paramétriques sont utilisés afin d'évaluer une
hypothèse concernant les paramètres d'une distribution, en fonction
d'un échantillon de données. Afin d'effectuer ces tests, on présume
que la différence entre l'estimateur $\hat\theta$ et la vraie valeur
des paramètres $\theta_0$ suit une distribution normale
multivariée. Les hypothèses sont habituellement formulées sous la
forme de contraintes linéaires, ainsi, les statistiques de test sont
obtenues à partir du calcul matriciel. Les trois tests les plus
couramment utilisés dans le cadre de l'estimation par maximum de
vraisemblance peuvent être adaptés à la méthode des moments
généralisée \citep{newey1994large}. Pour l'ensemble de ces tests,
l'hypothèse nulle correspond à la contrainte linéaire suivante:
\begin{equation}
  \label{eq:hypcontraintelin}
  H_0: a(\theta) = R\theta - r = 0.
\end{equation}

\subsection{Test de Wald}
\label{sec:testwald}

Le test de Wald permet de vérifier si la différence entre l'estimateur
non contraint $\hat\theta$ et l'estimateur contraint $\tilde\theta$
est significative. Les contraintes linéaires posées ne seront pas
applicables lorsque le résultat est positif. Pour ce faire, on doit
connaître la distribution asymptotique de celle-ci. Comme la
distribution asymptotique des deux estimateurs est normale, alors
celle de cette différence l'est aussi:
\begin{align}
  \label{eq:7}
  (\hat\theta - \tilde\theta) \sim \mathcal{N}(0,TP\mathcal{J}_0^{-1}).
\end{align}

On obtient l'espérance et la variance de la statistique
$\sqrt{T}\left(\hat\theta - \tilde\theta\right)$ en utilisant le fait
que la somme de deux variables aléatoires normales l'est aussi:
\begin{align}
  \label{eq:moyennevariancesomme}
  E\left[\sqrt{T}\left(\hat\theta - \tilde\theta\right) \right] &=
  E\left[\sqrt{T}\left(\hat\theta - \theta_0\right) \right] -
  E\left[\sqrt{T}\left(\tilde\theta - \theta_0\right) \right]\nonumber\\
  &= 0 - 0 \nonumber\\
  &= 0 \\
  V\left[\sqrt{T}\left(\hat\theta - \tilde\theta\right) \right] &=
  V\left[\sqrt{T}\left(\hat\theta - \theta_0\right) \right] +
  V\left[\sqrt{T}\left(\theta_0 - \tilde\theta\right) \right]\nonumber\\
  &= \left(I+(P-I)\right)\mathcal{J}_0^{-1}\nonumber\\
  &= P\mathcal{J}_0^{-1}.
\end{align}

On définit la statistique $\chi^{WALD,1}$, qui a asymptotiquement une
distribution $\chi^2$ avec $q$ degrés de liberté:
\begin{align}
  \label{eq:statistiqueWald}
  \chi^{WALD,1} &= T \left(\hat\theta - \tilde\theta\right)^{\prime} P
  \left(\hat\theta - \tilde\theta\right) \\
  &=T \left(\hat\theta - \tilde\theta\right)^{\prime}
  \mathcal{J}_0^{-1}\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\left(\frac{\partial}{\partial\theta^{\prime}}
    a(\theta_0) \mathcal{J}_0^{-1}
    \frac{\partial}{\partial\theta}a(\theta_0)^{\prime}
  \right)^{-1}\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
  \left(\hat\theta - \tilde\theta\right). \nonumber
\end{align}


On rejettera l'hypothèse nulle \eqref{eq:hypcontraintelin} lorsque la
valeur de la statistique $\chi^{WALD,1}$ sera supérieure à un seuil
critique $\chi_{q,1-\alpha}^2$ au niveau de confiance $1-\alpha$.

Une version asymptotiquement équivalente de ce test qui ne requiert
pas de calculer la valeur de l'estimateur contraint existe. Ce test
est équivalent lorsque les contraintes définissent certains paramètres
comme des constantes. On vérifie si un cas particulier d'une
distribution s'applique, par exemple avec celle de Laplace asymétrique
généralisée.

On définit alors la statistique $\chi^{WALD,2}$, qui a aussi
asymptotiquement une distribution $\chi^2$ avec $q$ degrés de
liberté. Par contre, ici, on teste si la valeur de la contrainte
linéaire est significativement différente de 0:
\begin{align}
  \label{eq:statistiqueWald2}
  \chi^{WALD,2} &= T a^{\prime}(\hat\theta)
  \left(\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
    \mathcal{J}_0^{-1}
    \frac{\partial}{\partial\theta}a^{\prime}(\theta_0) \right)^{-1}
  a(\hat\theta).
\end{align}


\subsection{Test du multiplicateur de Lagrange}
\label{sec:testscore}

Le test du multiplicateur de Lagrange, ou du score, introduit par
\cite{newey1987hypothesis}, est basé uniquement sur l'estimateur
contraint et est équivalent asymptotiquement au test de Wald présenté
à la section précédente. Il vérifie l'application de la contrainte
\eqref{eq:contraintelin} à l'estimateur $\tilde\theta$. Selon la
définition du lagrangien \eqref{eq:estimateurGMMlagrange}, si la
contrainte est vérifiée, alors la restriction $a(\tilde\theta)$ vaudra
0. Selon la condition de premier ordre
\eqref{eq:premierordreGMMlagrange2}, la dérivée de la fonction
objectif de l'estimateur non contraint
$\frac{\partial}{\partial\theta}Q_T(\theta)$, le score, $\tilde\theta$
devrait aussi être égale à 0. On cherchera donc à tester si cette
valeur est significativement différente de 0.

On définit la statistique du multiplicateur de Lagrange $\chi^{LM,1}$,
qui a asymptotiquement une distribution $\chi^2_q$ avec $q$ degrés de
liberté:
\begin{align}
  \label{statistiqueLM}
  \chi^{LM,1} &= T \frac{\partial}{\partial\theta}Q_T(\tilde\theta) P
  \frac{\partial}{\partial\theta}Q_T(\tilde\theta).
\end{align}

On rejettera l'hypothèse nulle \eqref{eq:hypcontraintelin} lorsque la
valeur de la statistique $\chi^{LM,1}$ sera supérieure à un seuil
critique $\chi_{q,1-\alpha}^2$ au niveau de confiance $1-\alpha$.

On peut construire un test équivalent, basé sur la valeur du
multiplicateur, dont la matrice de variance-covariance est l'inverse
de celle de la contrainte. On définit alors la statistique
$\chi^{LM,2}$ suivante:
\begin{align}
  \label{eq:statistiqueLM2}
  \chi^{LM,2} &= T \gamma^{\prime}
  \frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
  \mathcal{J}_0^{-1}
  \frac{\partial}{\partial\theta}a^{\prime}(\theta_0) \gamma.
\end{align}

\subsection{Test basé sur la statistique de métrique de distance}

La statistique de métrique de distance est basée sur la différence
entre les valeurs minimales de la fonction objectif $Q_T(\theta)$
obtenues lors de l'optimisation avec contraintes
\eqref{eq:estimateurGMMlagrange} et sans contraintes
\eqref{eq:estimateurGMM}.

On définit la statistique $\chi^{DM}$:
\begin{align}
  \label{statistiqueD}
  \chi^{DM} &= -T \left[Q_T(\tilde\theta) - Q_T(\hat\theta)\right].
\end{align}

Cette statistique a asymptotiquement une distribution $\chi^2_q$ avec
$q$ degrés de liberté. Elle est l'analogue de la statistique du ratio
de vraisemblance dans le cadre de l'estimation par la méthode du
maximum de vraisemblance.

Le test basé sur la métrique de distance vérifie que la contrainte
\eqref{eq:contraintelin} posée lors de l'estimation du vecteur
$\tilde\theta$ est valide. Un des désavantages de ce test est qu'il
requiert deux optimisations. Par contre, on peut facilement récupérer
les valeurs de $Q_T(\theta)$ lors de l'estimation.

On rejettera l'hypothèse nulle \eqref{eq:hypcontraintelin} lorsque la
valeur de la statistique $\chi^{DM}$ sera supérieure à un seuil
critique $\chi_{q,1-\alpha}^2$ au niveau de confiance $1-\alpha$.

\subsection{En résumé}
\label{sec:resumetests}

On rassemble les différentes statistiques permettant d'effectuer un
test d'hypothèse paramétrique à la table \ref{tab:testsparamGMM}.
\begin{table}[!ht]
  \centering
  \begin{tabular}{cc}
    \hline
    \textbf{Statistique} & \textbf{Valeur} \\
    \hline
    $\chi^{WALD,1}$ & $T \left(\hat\theta - \tilde\theta\right)^{\prime}
    \mathcal{J}_0^{-1}\frac{\partial}{\partial\theta}a(\theta_0)^{\prime}\left(\frac{\partial}{\partial\theta^{\prime}}
      a(\theta_0) \mathcal{J}_0^{-1}
      \frac{\partial}{\partial\theta}a(\theta_0)^{\prime}
    \right)^{-1}\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
    \left(\hat\theta - \tilde\theta\right)$ \\
    $\chi^{WALD,2}$ & $T a^{\prime}(\hat\theta)
    \left(\frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
      \mathcal{J}_0^{-1}
      \frac{\partial}{\partial\theta}a^{\prime}(\theta_0) \right)^{-1}
    a(\hat\theta)$ \\
    $\chi^{LM,1}$ & $T \frac{\partial}{\partial\theta}Q_T(\tilde\theta) P
    \frac{\partial}{\partial\theta}Q_T(\tilde\theta)$ \\
    $\chi^{LM,2}$ & $T \gamma^{\prime}
    \frac{\partial}{\partial\theta^{\prime}} a(\theta_0)
    \mathcal{J}_0^{-1}
    \frac{\partial}{\partial\theta}a^{\prime}(\theta_0) \gamma$ \\
    $\chi^{DM}$ & $-T \left[Q_T(\tilde\theta) - Q_T(\hat\theta)\right]$ \\
    \hline
  \end{tabular}
  \caption{Tests d'hypothèse paramétriques pour la méthode des moments généralisée}
  \label{tab:testsparamGMM}
\end{table}

%%% Local Variables: 
%%% mode: latex
%%% TeX-master: "gabarit-maitrise"
%%% End: