coursdirige-tauxinterets/rapport-gmm.tex


\subsection{Description de la méthode}

La méthode des moments généralisés est une technique d'estimation paramétrique introduite entre autres par Hansen (1982). Elle consiste à construire des fonctions d'estimation basées sur les moments empiriques qui vérifient une condition d'orthogonalité. Ainsi, le vecteur optimal de paramètres sera celui qui minimisera la valeur de la fonction, ou qui du moins l'approchera le plus de 0 dans l'éventualité de données négatives.\\

Formellement, on a un vecteur de $k$ paramètres $\theta = (\theta_1, \ldots, \theta_k)'$ auquel on définit $f = (f_1, \ldots, f_m) $, un vecteur de $m, m\geq k$ fonctions $f_i(r_t | \theta)$ de l'échantillon $r_t$, qui sera pour nous une série chronologie de taux court-terme.
Ces fonctions sont telles que $E[f_i(r_t | \theta)] = 0\\$.\\

On obtient le vecteur de paramètres estimés $\hat{\theta}$ en minimisant la fonction objectif $\hat{\theta} = argmin(\theta,f' \times W \times f)$ pour une matrice de pondération définie positive $W$. Pour la méthode des moindres carrés ordinaires, la matrice $W$ est la matrice identité. Elle peut aussi être l'inverse de la matrice de variance-covariance empirique des moments, ou encore l'estimateur robuste de Newey and West (1987), qui tient compte de l'autocorrélation et de l'hétéroscédasticité des données. \\

Enfin, on pose les tests diagnostiques habituels avec le coefficient d'ajustement est les statistiques de Student pour vérifier la validité de l'estimation.\\

\subsection{Modèles de taux d'intérêt court-terme}

Les modèles suivants sont des modèles couramment utilisés en pratique pour modéliser le taux d'intérêt à court terme, souvent à des fins d'évaluations de produits financiers, notamment des obligations et des produits dérivés.

\paragraph{Modèle de Vasicek}

Le modèle de Vasicek (1977) est un des modèles les plus simples utilisés en pratique pour modéliser les taux d'intérêt à court terme. Il est basé sur un processus de Ornstein–Uhlenbeck. Une des caractéristique de ce modèle est qu'il présente une forme de retour à la moyenne.

\begin{equation} \label{eq:vasicek}
  dr_t = a(b-r_t)\, dt + \sigma \, dW_t
\end{equation}

\eqref{eq:vasicek} présente le modèle sous la forme d'une équation différentielle stochastique, où la moyenne à long terme est $b$, et où $a$ est un paramètre qui fixe la vitesse à laquelle le processus a tendance à retourner à sa moyenne. La volatilité instantanée du processus est représentée par le paramètre $\sigma$ qui multiplie la variation du processus bruit blanc $dW_t$. La variance du processus à long terme est donnée par $\frac{\sigma^2}{2 a}$. On peut retrouver ces valeurs en appliquant le lemme d'Îto, qui nous donne la moyenne et la variance du processus au temps $t$, et en prenant la limite lorsque $t \rightarrow \infty$.

La solution de l'équiation différentielle stochastique est la variable aléatoire suivante:

\begin{eqnarray*}
  r(t) = r(0) e^{-a t} +  b \left(1- e^{-a t}\right) + \sigma e^{-a t}\int_0^t e^{a s}\,dW_s.\,\!
\end{eqnarray*}

La moyenne et la variance de $r(t)$ sont dérivées facilement à partir de cette équation:

\begin{eqnarray*}
  \mathrm{E}[r_t] &=& r_0 e^{-a t} + b(1 - e^{-at}) \\
  \mathrm{Var}[r_t] &=& \frac{\sigma^2}{2 a}(1 - e^{-2at}) \\
  \lim_{t\rightarrow \infty} \mathrm{E}[r_t] &=& b \\
  \lim_{t\rightarrow \infty} \mathrm{Var}[r_t] &=& \frac{\sigma^2}{2 a} \\
\end{eqnarray*}


\paragraph{Modèle de Cox, Ingersoll et Ross}

Le modèle de Cox, Ingersoll et Ross (1985) (ci-après CIR) est un modèle basé sur le modèle de Vasicek et le concept de retour à la moyenne. Cependant, il n'utilise pas le même processus pour la volatilité, car le modèle de Vasicek peut produire des taux d'intérêt négatif, ce qui n'est pas possible en pratique selon les hypothèses des marchés efficients (Par contre, on a retrouvé à divers moments, des taux d'intérêt négatifs depuis la crise financière de 2008, résultant d'anomalies d'ordre calculatoires, étant donné les taux très bas de cette période.) Le modèle CIR est plutôt basé sur le processus racine carrée.

\begin{equation}
  \label{eq:CIR}
  dr_t = a(b-r_t)\, dt + \sigma\sqrt{r_t}\, dW_t
\end{equation}

\eqref{eq:CIR} représente le modèle CIR sous sa forme d'équation différentielle stochastique. Les paramètres ont la même signification que dans le modèle de Vasicek. La moyenne et la variance de la variable aléatoire qui résous l'équation différentielle stochastique sont respectivement:

\begin{eqnarray*}
  E[r_t|r_0] &=& r_0 e^{-\theta t} + \mu (1-e^{-\theta t}) \\
  Var[r_t|r_0] &=& r_0 \frac{\sigma^2}{\theta} (e^{-\theta t}-e^{-2\theta t}) + \frac{\mu\sigma^2}{2\theta}(1-e^{-\theta t})^2 \\
\end{eqnarray*}

\paragraph{Modèle de Chan, Karolyi, Longstaff et Sanders}

Le modèle de Chan, Karolyi, Longstaff et Sanders (1992) est une généralisation de plusieurs modèles de taux d'intérêt à court terme. Il constitue ainsi une base pour évaluer les différents modèles et les comparer entre eux.
Sa particularité, par rapport au modèle CIR, est que l'exposant de $r_t$ est aussi un paramètre du modèle, $\gamma$, alors qu'il est fixé dans le modèle de CIR $(\gamma = 0.5)$. Pour le modèle de Vasicek, on a $(\gamma = 0)$.
\begin{equation}
  \label{eq:CKLS}
  dr_t = a(b-r_t)\, dt + \sigma r_t^{\gamma}\, dW_t
\end{equation}

\subsection{Discrétisation}

Afin de calibrer ces modèles, nous faisons appel à la discrétisation, étant donné que le modèle sera calibré sur des données discrètes. Une des façons les plus simples de discrétiser une équation différentielle stochastique est la méthode d'Euler. Pour le modèle CKLS, on obtient \eqref{eq:discretisationCKLS}

\begin{equation}
  \label{eq:discretisationCKLS}
  r_{t+1} = a + br_t+\sigma r_t^{\gamma}u_{t-1}
\end{equation}

Si on fixe

\begin{eqnarray*}
  \epsilon_{t+1} &=& r_{t+1} - (a+br_t) \\
  &=& \sigma r_t^{\gamma}u_{t-1} \\
\end{eqnarray*}

On ontient alors une variable aléatoire $\epsilon_{t+1}$ qui suit une loi normale centrée de variance $\sigma^2 r_t^{2\gamma}\Delta t$. De plus, $\epsilon_{t+1}$ n'est pas corrélé avec $r_t$. Ces deux conditions vont permettre de construire les fonctions d'estimation pour la méthode des moments. Pour les modèles de Vasicek et CIR, il suffit de remplacer la valeur de $\gamma$ par $0$ ou $0.5$ respectivement.

\subsection{Conditions de moments utilisés}

À partir des conditions précédentes, nous pouvons facilement construire au moins quatre équations basées sur les moments de $\epsilon_{t+1}$. Comme les moments d'ordre supérieur peuvent produire un phénomène d'oscillation en présence de données extrêmes, on préfèrera utiliser des moments de premier et second ordre. On a donc les moments en \eqref{eq:moments1} et \eqref{eq:moments2}.

\begin{eqnarray}
  \label{eq:moments1}
  E[\epsilon_{t+1}] &=& 0 \\
  \label{eq:moments2}
  E[\epsilon_{t+1}^2 - \sigma^2r_t^{2\gamma}\Delta t] &=& 0
\end{eqnarray}

On peut aussi utiliser le fait que $\epsilon_{t+1}$ n'est pas corrélé avec $r_t$ (\ref{eq:momentscr1} et \ref{eq:momentscr2}).

\begin{eqnarray}
  \label{eq:momentscr1}
  E[\epsilon_{t+1}r_t] &=& 0 \\
  \label{eq:momentscr2}
  E[(\epsilon_{t+1}^2 - \sigma^2r_t^{2\gamma}\Delta t)r_t] &=& 0
\end{eqnarray}

Pour une valeur de $\theta$ donnée, on peut calculer les moments empiriques équivalents \eqref{eq:momentsemp1},\eqref{eq:momentsemp2},\eqref{eq:momentsemp3} et \eqref{eq:momentsemp4}.

\begin{eqnarray}
  \label{eq:momentsemp1}
  f_1 &=& \nsumin (r_{t+1} - a - br_t) \\
  \label{eq:momentsemp2}
  f_2 &=& \nsumin (r_{t+1} - a - br_t)^2 - \sigma^2r_t^{2\gamma}\Delta t \\
  \label{eq:momentsemp3}
  f_3 &=& \nsumin (r_{t+1} - a - br_t)r_t \\
  \label{eq:momentsemp4}
  f_4 &=& \nsumin ((r_{t+1} - a - br_t)- \sigma^2r_t^{2\gamma}\Delta t)r_t
\end{eqnarray}

On rassemble ces équations en une somme de moindres carrée (méthode des moindres carrés ordinaires) et on obtient l'équation d'estimation \eqref{eq:objectif1}

\begin{equation}
  \label{eq:objectif1}
  J(a,b,\sigma,\gamma) = f'f = \sum_{i=1}^4 f_i^2
\end{equation}

Cependant, cette équation fait une hypothèse forte d'absence de corrélation et d'homoscédasticité des erreurs, que nous allons éviter en utilisant les moindres carrés pondérés \eqref{eq:objectif2}.

\begin{equation}
  \label{eq:objectif2}
  J(a,b,\sigma,\gamma) = f'W f
\end{equation}

Une matrice optimale pour $W = S^{-1}$ est la matrice qui minimise la covariance. Il est suggéré d'utiliser la matrice d'information de Fisher empirique \eqref{eq:omega0} de l'estimateur f.
\begin{equation}
  \label{eq:omega0}
  \hat{\Omega_0} = \frac{1}{T} \sum_{t=1}^T \hat{f_t}^2
\end{equation}

Cependant, il existe un meilleur choix qui tient compte à la fois de l'autocovariance et de l'hétéroscédasticité des erreurs, l'estimateur de Newey et West (1987). C'est cet estimateur que nous utiliserons.

\subsection{Matrice de pondération de Newey-West}

L'estimateur de Newey-West \cite{Newey_West_1987} prend la forme \eqref{eq:neweywest}

\begin{eqnarray}
  \label{eq:neweywest}
  \hat{S_T} &=& \sum_{j=1}^m (1-\frac{j}{m-1})[\hat{\Omega_j}+\hat{\Omega_j}'] \\
  \label{eq:neweywestac}
  \hat{\Omega_j} &=& \frac{1}{T} \sum_{t=j+1}^T \hat{f_t}\hat{f_{t-j}}
\end{eqnarray}

Où $m$ est le nombre de pas de temps de décalage utilisés, et $\hat{\Omega_j}$ est une matrice d'autocovariance entre la série de données et la même série mais décalée de $j$ pas de temps \eqref{eq:neweywestac}. Le rôle du coefficient ($1-\frac{j}{m-1})$ est de s'assurer que la matrice est semi-définie positive. L'estimateur, sans ce facteur de pondération, donne parfois des résultats erronés. C'était l'estimateur proposé dans Hansen (1982) lors de la proposition du modèle GMM.
\newpage
\begin{landscape}
\subsection{Jacobien des moments}

Nous aurons besoin, pour former les statistiques de diagnostic, du gradient des moments empiriques.
Pour le modèle CKLS:

\begin{eqnarray*}
\frac{df}{d\theta} &=&
\left[ \begin{array}{cccc}
\frac{\partial f_1}{\partial a} & \frac{\partial f_1}{\partial b} & \frac{\partial f_1}{\partial \sigma} & \frac{\partial f_1}{\partial \gamma} \\
\frac{\partial f_2}{\partial a} & \frac{\partial f_2}{\partial b} & \frac{\partial f_2}{\partial \sigma} & \frac{\partial f_2}{\partial \gamma} \\
\frac{\partial f_3}{\partial a} & \frac{\partial f_3}{\partial b} & \frac{\partial f_3}{\partial \sigma} & \frac{\partial f_3}{\partial \gamma} \\
\frac{\partial f_4}{\partial a} & \frac{\partial f_4}{\partial b} & \frac{\partial f_4}{\partial \sigma} & \frac{\partial f_4}{\partial \gamma} \\
\end{array} \right] \\
\end{eqnarray*}

\begin{eqnarray*}
\frac{df}{d\hat{\theta}} &=& \left[ \begin{array}{cccc}
-n& -\sum_{t=1}^{T-1}\left(r_t\right)& 0& 0\\
-2\sum_{t=1}^{T-1}\left(r_{t+1} - a - br_t\right)& -2\sum_{t=1}^{T-1}\left(\left(r_{t+1} - a - br_t\right)r_t\right)& -\Delta t \sum_{t=1}^{T-1}\left(r_t^{2\gamma}\right)& -2\sigma^2\Delta t \sum_{t=1}^{T-1}\left(log\left(r_t\right)r_t^{2\gamma}\right)\\
-\sum_{t=1}^{T-1}\left(r_t\right)& -\sum_{t=1}^{T-1}\left(r_t^2\right)& 0& 0 \\
-2\sum_{t=1}^{T-1}\left(\left(r_{t+1} - a - br_t\right)r_t\right)& -2\sum_{t=1}^{T-1}\left(\left(r_{t+1} - a - br_t\right)r_t^2\right)& -\Delta t \sum_{t=1}^{T-1}\left(r_t^{2\gamma+1}\right)& -2\sigma^2\Delta t \sum_{t=1}^{T-1}\left(log\left(r_t\right)r_t^{2\gamma+1}\right)\\
\end{array} \right] \\
\end{eqnarray*}
\end{landscape}
\newpage

\subsection{Statistique de Student (t)}

On utilise ici la méthode delta pour construire la matrice de variance-covariance des paramètres à partir de celle des équations (estimateur de Newey-West) \eqref{eq:varparam}

\begin{equation}
  \label{eq:varparam}
  V = \frac{df}{d\hat{\theta}} W \frac{df}{d\hat{\theta}}'
\end{equation}

On prend la diagonale de cette matrice, qui contient les variances des estimateurs, pour calculer les statistiques de Student

\begin{eqnarray*}
t &=& \frac{\theta_i}{\sqrt{V_{ii}}}
\end{eqnarray*}

\newpage
\subsection{Données utilisées}

Les données utilisées sont des données mensuelles entre les dates suivantes

\verbatiminput{GMM-dates.txt}

La série se décrit visuellement comme suit:

\includegraphics[scale=0.75]{serieGMM.pdf}

Les statistiques descriptives de base de la série sont:

\verbatiminput{summaryDonneesGMM.txt}

Ces statistiques peuvent servir de point de comparaison pour évaleur la pertinence des résultats d'un modèle étant donné que l'on travaille avec des méthodes numériques.

\subsection{Applications}

Les résultats des estimations, les statistiques de test ainsi que les matrices de variance-covariance des paramètres, pour chacun des modèles de taux d'intérêt. \\

\input{MMGestimation.tex}

On remarque que les modèles semblent cohérents les uns envers les autres, notamment par rapport à la moyenne à long terme ainsi qu'à la vitesse de retour à l'équilibre. \\

\subsection{Conclusion}

L'application de la méthode est facile à implémenter mais il semble avoir des difficultés au niveau du calcul de la matrice de variance-covariance qui explose pour le modèle CKLS. Cette méthode donne tout du moins des estimateur semblables, sauf en ce qui concerne la volatilité. On peut donc dire que cette analyse est cohérente avec l'intuition que l'on peut avoir des modèles de taux d'intérêt à court terme.