lapply(c("tidyverse", "mvtnorm", "rstan"), library, character.only = TRUE)
### clean-up
rm(list = ls())
### set paths
setwd(WorkDir <- getwd())
DataDir <- paste(WorkDir, "data", sep = "/")
OutDir <- paste(WorkDir, "output", sep = "/")
options(mc.cores = parallel::detectCores())
rstan_options(auto_write = TRUE)
### useful functions
lower <- function(x, alpha = 0.8) { coda::HPDinterval(coda::as.mcmc(x), prob = alpha)[1] }
upper <- function(x, alpha = 0.8) { coda::HPDinterval(coda::as.mcmc(x), prob = alpha)[2] }
sakura <- read.table(file = paste(DataDir, "sakura2019.txt", sep = "/"), header = TRUE,
colClasses = c("numeric", "character")[c(2, 2, rep(1, 16))]
sakura <- subset(sakura, !
sakura %>%
ggplot(aes(x = X, y = Y, fill = Flowering)) +
geom_point(size = 3, shape = 21) +
xlab("Easting") + ylab("Northing") +
theme_bw() +
ggtitle("2019 Flowering Predictions")
Nous avons vu précédément comment travailler sur la structure du prédicteur linéaire (partie systématique) dans un GLM. Aujourd’hui nous allons voir comment travailler aussi sur la structure des résidus, et notamment nous allons tenir compte de la dimension spatiale qui peut exister.
Le krigeage ordinaire est un modèle hiérarchique dans lequel on suppose qu’il existe une variable latente \(\upsilon\) définie sur un domaine spatial \(\mathcal{S}\) :
\(\upsilon(.) \sim \mathcal{GP}(m(.), c(.,~.))\)
avec moyenne
\[\mathbb{E}[\upsilon(\mathbb{s})] = m(\mathbb{s})\]
et fonction de covariance de Matern d’ordre \(\frac{3}{2}\)
\[c(s_i,~s_j) = \sigma_{\mathrm{sill}}^2 (1 + \dfrac{|s_i - s_j|\sqrt{3}}{\rho}) e^{\dfrac{|s_i - s_j|\sqrt{3}}{\rho}}\]
matern_cov <- function(d, sill = 1, range = 1) {
sill * sill * (1.0 + abs(d) * sqrt(3.0) / range) * exp(-abs(d) * sqrt(3.0) / range)
D <- as.matrix(dist(sakura[, c("X", "Y")])/10000)
## [1] 48 48
En pratique, cette matrice de distance va nous permettre de calculer la covariance spatiale entre deux localisations du domaine :
\[\upsilon\left(\begin{bmatrix}s_1\\ \dots\\s_n\end{bmatrix}\right) \sim \mathcal{MVN}\left(\begin{bmatrix}m(s_1)\\ \dots\\m(s_n)\end{bmatrix},~\begin{bmatrix}c(s_1,~s_1) & \dots & c(s_1,~s_n)\\ & \dots & \\ c(s_n,~s_1) & \dots & c(s_n,~s_n)\end{bmatrix}\right)\]
Cette matrice dépend de \(\rho\), de \(\sigma_{\mathrm{sill}}\) et de la distance entre la localisation \(s_i\) et la localisation \(s_j\). Cette matrice est de taille finie, mais une fois que l’on aura une estimation de \(\rho\) et de \(\sigma_{\mathrm{sill}}\), alors on pourra prédire la valeur de \(z\) en tout point du domaine \(\mathcal{S}\).
Pour un krigeage ordinaire, la moyenne du processus Gaussien est supposée constante en tout point de l’espace :
\[\forall s \in \mathcal{S}, ~m(s) = \mu\]
Donc en \(\texttt{Stan}\), cela donne
stan_sglm1 <- '
data {
int<lower = 1> n_obs;
vector[n_obs] FLOWERING;
matrix[n_obs, n_obs] D; // distance matrix (km)
real prior_location_intercept;
real<lower = 0.0> prior_scale_intercept;
parameters {
real unscaled_intercept;
simplex[2] pi;
real<lower = 0.0> sigma_tot;
real<lower = 0.0> rho;
vector[n_obs] upsilon;
transformed parameters {
real intercept;
cov_matrix[n_obs] Omega;
vector[n_obs] linear_predictor;
real sill;
real nugget;
intercept = prior_location_intercept + unscaled_intercept * prior_scale_intercept;
nugget = sigma_tot * sqrt(pi[1]);
sill = sigma_tot * sqrt(pi[2]);
for(i in 1:n_obs) {
for(j in 1:n_obs) {
Omega[i, j] = (1 + D[i, j] * sqrt(3) / rho) * exp(-D[i, j] * sqrt(3) / rho);
linear_predictor = rep_vector(intercept, n_obs) + sill * upsilon;
model {
rho ~ gamma(2.1535, 0.0292); // prior range between 10 and 200
sigma_tot ~ student_t(3, 0.0, 1.0);
unscaled_intercept ~ normal(0.0, 1.0);
upsilon ~ multi_normal(rep_vector(0.0, n_obs), Omega);
FLOWERING ~ normal(linear_predictor, nugget);
generated quantities {
vector[n_obs] log_lik;
for(i in 1:n_obs) {
log_lik[i] = normal_lpdf(FLOWERING[i]| linear_predictor[i], nugget);
## Compilation
sglm1 <- stan_model(model_code = stan_sglm1,
model_name = "Mon premier GLM spatial avec Stan"
On va se limiter aux données complètes pour les analyses à venir.
n_chains <- 4
n_iter <- 2000
n_warm <- 500
n_thin <- 5
fit_1 <- sampling(object = sglm1,
data = list(n_obs = nrow(sakura),
FLOWERING = sakura$Flowering,
D = round(D, 6),
prior_location_intercept = 100,
prior_scale_intercept = 10
pars = c("intercept", "rho", "sill", "nugget", "upsilon", "log_lik"),
chains = n_chains,
iter = n_iter,
warmup = n_warm,
thin = n_thin
Exercice : changer le prior sur \(\rho\) pour une distribution uniforme entre \(0\) et \(250\). Que remarquez-vous?
La première chose à faire est de vérifier la convergence des paramètres.
Vérfier la convergence des paramètres :
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Regarder la distribution a posteriori
pairs(x = fit_1,
pars = c("intercept", "nugget", "sill", "rho", "lp__")
Tracer le correlogramme
correlo <-'cbind', purrr::map(.x = 0:250,
.f = function(d) { (1.0 + abs(d) * sqrt(3.0) / rstan::extract(fit_1, "rho")$rho) * exp(-abs(d) * sqrt(3.0) / rstan::extract(fit_1, "rho")$rho) })
ggplot(data = data.frame(distance = 0:250,
correlation = apply(correlo, 2, mean),
lower = apply(correlo, 2, lower),
upper = apply(correlo, 2, upper)
aes(x = distance, y = correlation)
) +
geom_ribbon(aes(x = distance, ymin = lower, ymax = upper), fill = "steelblue", alpha = 0.1) +
geom_line(colour = "midnightblue") +
Et on peut enfin regarder rapidement les estimations
print(fit_1, digits = 3)
Et maintenant, un peu d’algèbre !
On veut prédire les dates de floraisons sur l’ensemble du japon.
japan <- read.table(file = paste(OutDir, "Loc2Predict.txt", sep = "/"), header = TRUE,
colClasses = "numeric"
## X Y
## 1 -995000 -685000
## 2 -995000 -675000
## 3 -985000 -665000
## 4 -975000 -665000
## 5 -1005000 -655000
## 6 -995000 -655000
ggplot(data = japan,
aes(x = X, y = Y)
) +
geom_point(size = 2, alpha = 0.3, color = "red") +
xlab("easting") + ylab ("northing") +
Pour cela, on va réaliser un krigeage ordinaire, càd une prédiction qui nécessite uniquement de connaître la distance entre les localisations pour lesquels on veut une prédiction et les données observées. Il faut commencer par calculer la matrice de corrélations entre ces points :
D_xnew_xobs <- as.matrix(fields::rdist(japan[, c("X", "Y")], sakura[, c("X", "Y")])/10000)
## [1] 4630 48
Et on va calculer les covariances \(\hat{C}(s_{\mathrm{new}}, s_{\mathrm{obs}})\) grâce aux estimations a posteriori
Cov_xnew_xobs <- purrr::map(.x = rstan::extract(fit_1, "rho")$rho,
.f = function(range) {
matern_cov(d = D_xnew_xobs, sill = 1, range = range)
On va également avoir besoin de l’inverse de la matrice de covariance des données \(\hat{C}^{-1}(s_{\mathrm{obs}}, s_{\mathrm{obs}})\) :
inv_cov_xobs <- purrr::map(.x = rstan::extract(fit_1, "rho")$rho,
.f = function(range) {
solve(matern_cov(d = D, sill = 1, range = range))
Enfin, on a besoin des valeurs estimées de la variable \(\hat{\upsilon}(s_{\mathrm{obs}})\) pour nos données, et des a posteriori des autres paramètres :
upsilon <- rstan::extract(fit_1, "upsilon")$upsilon
mu <- rstan::extract(fit_1, "intercept")$intercept
sill <- rstan::extract(fit_1, "sill")$sill
nugget <- rstan::extract(fit_1, "nugget")$nugget
La prédiction par krigeage aux \(n\) nouvelles localisations \(s_{\mathrm{new}}\) est :
\[\mathbb{\overset{\sim}{y}}(s_{\mathrm{new}}) \sim \mathcal{N} \left(\mathcal{1}_n\hat{\mu} + \hat{\sigma}_{\mathrm{sill}} \hat{C}(s_{\mathrm{new}}, s_{\mathrm{obs}}) \hat{C}^{-1}(s_{\mathrm{obs}}, s_{\mathrm{obs}}) \mathbb{\hat{\upsilon}}, \hat{\sigma}_{\mathrm{nugget}} \mathcal{I}_n \right)\]
pred <- lapply(1:1000, function(iter) {
drop(rep(mu[iter], nrow(japan)) + sill[iter] * Cov_xnew_xobs[[iter]] %*% inv_cov_xobs[[iter]] %*% upsilon[iter, ] + nugget[iter] * rnorm(nrow(japan)))
pred <-'rbind', pred)
japan$pred <- round(apply(pred, 2, mean), 0)
japan$lower <- floor(apply(pred, 2, lower))
japan$upper <- ceiling(apply(pred, 2, upper))
## X Y pred lower upper
## 1 -995000 -685000 89 82 96
## 2 -995000 -675000 89 82 96
## 3 -985000 -665000 89 82 95
## 4 -975000 -665000 89 82 96
## 5 -1005000 -655000 89 83 97
## 6 -995000 -655000 88 81 95
ggplot(data = japan,
aes(x = X, y = Y, fill = pred)
) +
geom_tile() +
xlab("easting") + ylab ("northing") +
scale_fill_gradientn(colours = viridisLite::viridis(256)) +
Le krigeage universel est du jargon pour signifier que l’on inclut également des covariables dans la partie systématique du modèle. On dispose ici de covariables dont on pourrait tout à fait tenir compte dans l’analyse.
input <- c("Temp_nov", "Temp_dec", "Temp_janv", "Temp_feb", "Temp_mar_09",
"Sunshine_nov", "Sunshine_dec", "Sunshine_janv", "Sunshine_feb",
## [1] "Temp_nov" "Temp_dec" "Temp_janv" "Temp_feb"
## [5] "Temp_mar_09" "Sunshine_nov" "Sunshine_dec" "Sunshine_janv"
## [9] "Sunshine_feb" "Lat"
Mais on a un tout petit jeu de données : \(N = 48\); et pas mal de covariables possibles \(p = 10\)!
Sachant que le modèle de base inclus déjà trois paramètres (questions: lesquels? est-ce que l’estimation du nombre de paramètres par la fonction \(\texttt{loo::waic()}\) est proche de ce chiffre?).
Cela fait donc un ratio paramètres-données de \(\frac{48}{13} \approx 3.7\), soit moins de quatre données pour renseigner un paramètre en moyenne… Ce n’est vraiment pas beaucoup. Néanmoins, cela peut se tenter car le prior apporte aussi une information. Tourefois, comme le jeu de données est faible, l’influence du prior sera importante.
On va supposer que les différents \(\beta_{j\in[1:10]}\) sont indépendants, et on va leur donner à chacun un prior :
\(\forall j, \beta_j \sim \mathcal{N}(0.0, 5.0)\)
stan_sglm2 <- '
data {
int<lower = 1> n_obs;
int<lower = 1> n_cov;
vector[n_obs] FLOWERING;
matrix[n_obs, n_obs] D; // distance matrix (km)
matrix[n_obs, n_cov] X;
real prior_location_intercept;
real<lower = 0.0> prior_scale_intercept;
vector<lower = 0.0>[n_cov] prior_scale_beta;
parameters {
real unscaled_intercept;
simplex[2] pi;
real<lower = 0.0> sigma_tot;
real<lower = 0.0> rho;
vector[n_obs] upsilon;
vector[n_cov] unscaled_beta;
transformed parameters {
real intercept;
cov_matrix[n_obs] Omega;
vector[n_obs] linear_predictor;
vector[n_cov] beta;
real sill;
real nugget;
intercept = prior_location_intercept + unscaled_intercept * prior_scale_intercept;
nugget = sigma_tot * sqrt(pi[1]);
beta = unscaled_beta .* prior_scale_beta;
sill = sigma_tot * sqrt(pi[2]);
for(i in 1:n_obs) {
for(j in 1:n_obs) {
Omega[i, j] = (1 + D[i, j] * sqrt(3) / rho) * exp(-D[i, j] * sqrt(3) / rho);
linear_predictor = rep_vector(intercept, n_obs) + X * beta + sill * upsilon;
model {
unscaled_beta ~ normal(0.0, 1.0);
rho ~ gamma(2.1535, 0.0292); // prior range between 10 and 200
sigma_tot ~ student_t(3, 0.0, 1.0);
unscaled_intercept ~ normal(0.0, 1.0);
upsilon ~ multi_normal(rep_vector(0.0, n_obs), Omega);
FLOWERING ~ normal(linear_predictor, nugget);
generated quantities {
vector[n_obs] log_lik;
for(i in 1:n_obs) {
log_lik[i] = normal_lpdf(FLOWERING[i]| linear_predictor[i], nugget);
## Compilation
sglm2 <- stan_model(model_code = stan_sglm2,
model_name = "Mon second GLM spatial avec Stan"
Ajuster ce modèle aux données :
fit_2 <- sampling(object = sglm2,
data = list(n_obs = nrow(sakura),
n_cov = length(input),
FLOWERING = sakura$Flowering,
D = round(D, 6),
X = as.matrix(sapply(input, function(j) { scale(sakura[, j]) })),
prior_location_intercept = 100,
prior_scale_intercept = 10,
prior_scale_beta = rep(5.0, length(input))
pars = c("intercept", "beta", "rho", "sill", "nugget", "upsilon", "log_lik"),
chains = n_chains,
iter = n_iter,
warmup = n_warm,
thin = n_thin
Vérifier la convergence des paramètres :
On va stocker les moyennes a posteriori :
independent <- apply(rstan::extract(fit_2, "beta")$beta, 2, mean)
## [1] 0.4566274 4.6443686 -1.9296857 0.4704134 -5.4100900 2.1873820
## [7] 1.3360764 -2.8451736 -1.2884024 6.3601248
Questions :
On peut également décider de faire quelque chose d’étrange ici : on va supposer que les \(\beta_j\) ne sont pas indépendants, mais échangeables. En d’autres termes, nous sommes dans une situation où l’on a peu de connaissances ou d’idée sur quelles variables est a priori plus importante que les autres, et on suppose que leurs effets proviennent d’une distribution commune :
\(\forall j, \beta_j|\sigma_{\beta} \sim \mathcal{N}(0.0, \sigma_{\beta})\)
stan_sglm3 <- '
data {
int<lower = 1> n_obs;
int<lower = 1> n_cov;
vector[n_obs] FLOWERING;
matrix[n_obs, n_obs] D; // distance matrix (km)
matrix[n_obs, n_cov] X;
real prior_location_intercept;
real<lower = 0.0> prior_scale_intercept;
parameters {
real unscaled_intercept;
simplex[2] pi;
real<lower = 0.0> sigma_tot;
real<lower = 0.0> rho;
vector[n_obs] upsilon;
vector[n_cov] unscaled_beta;
real<lower = 0.0> sigma_beta;
transformed parameters {
real intercept;
cov_matrix[n_obs] Omega;
vector[n_obs] linear_predictor;
vector[n_cov] beta;
real sill;
real nugget;
intercept = prior_location_intercept + unscaled_intercept * prior_scale_intercept;
nugget = sigma_tot * sqrt(pi[1]);
beta = unscaled_beta * sigma_beta;
sill = sigma_tot * sqrt(pi[2]);
for(i in 1:n_obs) {
for(j in 1:n_obs) {
Omega[i, j] = (1 + D[i, j] * sqrt(3) / rho) * exp(-D[i, j] * sqrt(3) / rho);
linear_predictor = rep_vector(intercept, n_obs) + X * beta + sill * upsilon;
model {
sigma_beta ~ student_t(3.0, 0.0, 1.0);
unscaled_beta ~ normal(0.0, 1.0);
rho ~ gamma(2.1535, 0.0292); // prior range between 10 and 200
sigma_tot ~ student_t(3, 0.0, 1.0);
unscaled_intercept ~ normal(0.0, 1.0);
upsilon ~ multi_normal(rep_vector(0.0, n_obs), Omega);
FLOWERING ~ normal(linear_predictor, nugget);
generated quantities {
vector[n_obs] log_lik;
for(i in 1:n_obs) {
log_lik[i] = normal_lpdf(FLOWERING[i]| linear_predictor[i], nugget);
## Compilation
sglm3 <- stan_model(model_code = stan_sglm3,
model_name = "Mon troisieme GLM spatial avec Stan"
AJuster ce modèle aux données :
fit_3 <- sampling(object = sglm3,
data = list(n_obs = nrow(sakura),
n_cov = length(input),
FLOWERING = sakura$Flowering,
D = round(D, 6),
X = as.matrix(sapply(input, function(j) { scale(sakura[, j]) })),
prior_location_intercept = 100,
prior_scale_intercept = 10
pars = c("intercept", "beta", "rho", "sill", "nugget", "sigma_beta", "upsilon", "log_lik"),
chains = n_chains,
iter = n_iter,
warmup = n_warm,
thin = n_thin
Vérifier la convergence des paramètres :
Extraire les estimations moyennes a posteriori :
ridge <- apply(rstan::extract(fit_3, "beta")$beta, 2, mean)
Comparer ces estimations avec les précédentes : que remarquez-vous?
Le problème de la régression ridge est qu’elle ne permet pas de sélectionner les variables : aucun des \(\hat{\beta}_j\) ne sera estimé à exactement \(0\). Une manière de permettre cette sélection est encore une fois via le prior, on va ici utiliser un prior particulier : un prior à shrinkage, le fer à cheval!
\[\forall j, \beta_j|\sigma_{\mathrm{global}}, \sigma_{\mathrm{local}_j} \sim \mathcal{N} (0.0, \sigma_{\mathrm{global}} \times \sigma_{\mathrm{local}_j})\]
Dans cette formule, le paramètre global \(\sigma_{\mathrm{global}}\) excerce une force qui a priori va forcer la valeur de \(\hat{\beta}_j\) vers \(0\). Le \(j^{\mathrm{ieme}}\) paramètre local \(\sigma_{\mathrm{local}_j}\) va permettre d’échapper cette force graviationnelle vers \(0\), et donc d’estimer une valeur non nulle de \(\hat{\beta}_j\) si il y a un signal fort dans les données.
Reste à donner des priors pour ces paramètres \(\sigma_{\mathrm{global}}, \sigma_{\mathrm{local}_j}\).
\[\forall j, \sigma_{\mathrm{local}_j} \sim \mathcal{C}^{+}(0.0, 1.0)\]
\[\sigma_{\mathrm{global}} \sim \mathcal{C}^{+}(0.0, 1.0)\]
où \(\mathcal{C}^{+}(0.0, 1.0)\) est la distribution demi-Cauchy standard. A quoi est-ce que cela ressemble?
hist(abs(sn::rst(1e6, xi = 0.0, omega = 1.0, nu = 1.0)))
Que ce passe-t-il?
La distribution de Cauchy est très intéressante car elle est complétement atypique : par exemple le théorème central limite ne s’applique pas à une variable aléatoire qui suit une distribution Cauchy. Exemple, je veux estimer la moyenne empirique d’une variable aléatoire et pour cela je vais réaliser \(1\), puis \(2\), puis \(3\) jusqu’à \(1000\) mesures et à chaque fois je vais calculer la moyenne.
clt <- function(n = 1000, ddl = Inf) {
samp <- sn::rst(n, xi = 0.0, omega = 1.0, nu = ddl)
df <- data.frame(x = 1:n,
y = sapply(1:n, function(i) { mean(samp[1:i]) })
g <- ggplot(data = df,
aes(x = x, y = y)
) +
geom_line() +
xlab("Sample Size") + ylab("Empirical mean") +
### normal
### cauchy
clt(ddl = 1)
La moyenne empirique d’une variable Cauchy ne converge pas vers la valeur du paramètre de location…
Pourquoi est-ce utile?
La distribution de Cauchy n’interdit aucune valeur a priori : sa moyenne et sa variance sont infinies…
… et pour le prior Fer à cheval, cela va être particulièrement intéressant car cela aboutit à un prior sur le facteur de rétrécissement, ou shrinkage factor, \(\kappa_j\) qui est une distribution \(\mathcal{Be}(0.5, 0.5)\).
data.frame(x = seq(0, 1, length.out = 1e3),
y = dbeta(seq(0, 1, length.out = 1e3), 0.5, 0.5)
) %>%
ggplot(aes(x = x, y = y)) +
geom_line() +
xlab(bquote(kappa)) + ylab("pdf") +
Le facteur de rétrécissement \(\kappa_j\) intervient dans la formule ci-dessous :
\[\beta_j^{\mathrm{Horseshoe}} = (1 - \kappa_j) \times \beta_j^{\mathrm{Independent~Normal}}\]
Donc le prior Fer à cheval favorise a priori de rétrécir le coefficient à \(0\), soit de ne pas le rétrécir du tout.
stan_sglm4 <- '
data {
int<lower = 1> n_obs;
int<lower = 1> n_cov;
vector[n_obs] FLOWERING;
matrix[n_obs, n_obs] D; // distance matrix (km)
matrix[n_obs, n_cov] X;
real prior_location_intercept;
real<lower = 0.0> prior_scale_intercept;
parameters {
real unscaled_intercept;
simplex[2] pi;
real<lower = 0.0> sigma_tot;
real<lower = 0.0> rho;
vector[n_obs] upsilon;
vector<lower = 0.0>[n_cov] local;
vector[n_cov] unscaled_beta;
real<lower = 0.0> global;
transformed parameters {
real intercept;
cov_matrix[n_obs] Omega;
vector[n_obs] linear_predictor;
vector[n_cov] beta;
vector[n_cov] shrinkage;
real sill;
real nugget;
intercept = prior_location_intercept + unscaled_intercept * prior_scale_intercept;
nugget = sigma_tot * sqrt(pi[1]);
beta = unscaled_beta .* local * global * nugget;
sill = sigma_tot * sqrt(pi[2]);
for(i in 1:n_obs) {
for(j in 1:n_obs) {
Omega[i, j] = (1 + D[i, j] * sqrt(3) / rho) * exp(-D[i, j] * sqrt(3) / rho);
linear_predictor = rep_vector(intercept, n_obs) + X * beta + sill * upsilon;
for(j in 1:n_cov) {
shrinkage[j] = 1 / (1 + n_obs * square(global * local[j]));
model {
global ~ cauchy(0.0, 1.0);
local ~ cauchy(0.0, 1.0);
unscaled_beta ~ normal(0.0, 1.0);
rho ~ gamma(2.1535, 0.0292); // prior range between 10 and 200
sigma_tot ~ student_t(3, 0.0, 1.0);
unscaled_intercept ~ normal(0.0, 1.0);
upsilon ~ multi_normal(rep_vector(0.0, n_obs), Omega);
FLOWERING ~ normal(linear_predictor, nugget);
generated quantities {
vector[n_obs] log_lik;
for(i in 1:n_obs) {
log_lik[i] = normal_lpdf(FLOWERING[i]| linear_predictor[i], nugget);
## Compilation
sglm4 <- stan_model(model_code = stan_sglm4,
model_name = "Mon quatrieme GLM spatial avec Stan"
Ajuster ce modèle aux données :
fit_4 <- sampling(object = sglm4,
data = list(n_obs = nrow(sakura),
n_cov = length(input),
FLOWERING = sakura$Flowering,
D = round(D, 6),
X = as.matrix(sapply(input, function(j) { scale(sakura[, j]) })),
prior_location_intercept = 100,
prior_scale_intercept = 10
pars = c("intercept", "beta", "rho", "sill", "nugget", "upsilon", "shrinkage", "local", "global", "log_lik"),
chains = n_chains,
iter = n_iter,
warmup = n_warm,
thin = n_thin
Vérifier la convergence des paramètres :
Regarder les facteurs de rétrécissement \(\hat{\kappa}_j\) …
apply(rstan::extract(fit_4, "shrinkage")$shrinkage, 2, mean)
## [1] 0.3268729 0.3108892 0.3210409 0.3269257 0.1612299 0.3267736 0.3589905
## [8] 0.2801298 0.3339094 0.1875859
… et les estimations
horseshoe <- apply(rstan::extract(fit_4, "beta")$beta, 2, mean)
Comparer ces nouvelles estimations aux précédentes.
Ce prior est proposé par Piironen et Vehtari (2017) et permet de mieux contrôler le nombre de covariables que l’on veut inclure a priori dans un modèle. Ici nous avons \(48\) observations, \(10\) covariables possibles, et on ne voudrait qu’en garder \(1\) pour améliorer nos prédictions. La déviation standard résiduelle est de l’ordre de \(2.8\) (cf notre premier modèle).
prior_m_eff <- function(sigma = 1, n, p, p0, n_sim = 1e5) {
# prior for global scale
tau0 = p0/(p - p0) * sigma/sqrt(n)
tau = abs(sn::rst(n_sim, xi = 0, omega = tau0, nu = 1))
# local scales
lambda = replicate(p, abs(sn::rst(n_sim, xi = 0, omega = 1, nu = 1)))
# shrinkage factors
One_minus_kappa = apply(lambda, 2, function(x) { 1 - 1 / (1 + n * (tau * x / sigma)^2) } )
# m_eff
m_eff <- apply(One_minus_kappa, 1, sum)
prior_m_eff(sigma = 2.8, n = 48, p = 10, p0 = 1) %>%
ggplot(aes(x = m_eff)) +
geom_histogram() +
scale_x_continuous(name = "Nb of covariates",
breaks = seq(0, 10, 1)) +
theme_bw() +
labs(subtitle = "A priori nb of active inputs")
On va aussi avoir besoin d’une valeur pour l’échelle a priori du prior pour le paramètre \(\sigma_{\mathrm{global}}\) (Piironen & Vehtari 2017). Cette valeur dépend de la taille de notre jeu de données, du nombre de covariables (\(p\)) et de la complexité a priori du modèle (\(p_0\))
prior_global <- function(n = 48, p = 10, p0 = 1) {
return(p0/((p - p0) * sqrt(n)))
stan_sglm5 <- '
data {
int<lower = 1> n_obs;
int<lower = 1> n_cov;
vector[n_obs] FLOWERING;
matrix[n_obs, n_obs] D; // distance matrix (km)
matrix[n_obs, n_cov] X;
real prior_location_intercept;
real<lower = 0.0> prior_scale_intercept;
real<lower = 0> prior_scale_global;
real<lower = 0> slab_scale; // regularization scale for ponyshoe
parameters {
real unscaled_intercept;
simplex[2] pi;
real<lower = 0.0> sigma_tot;
real<lower = 0.0> rho;
vector[n_obs] upsilon;
vector<lower = 0.0>[n_cov] local;
vector[n_cov] unscaled_beta;
real<lower = 0.0> global;
transformed parameters {
real intercept;
cov_matrix[n_obs] Omega;
vector[n_obs] linear_predictor;
vector[n_cov] regularized_local;
vector[n_cov] beta;
vector[n_cov] shrinkage;
real sill;
real nugget;
real b;
intercept = prior_location_intercept + unscaled_intercept * prior_scale_intercept;
nugget = sigma_tot * sqrt(pi[1]);
regularized_local = slab_scale * local ./ sqrt(rep_vector(square(slab_scale), n_cov) + square(local) * square(prior_scale_global * global) * square(nugget));
beta = unscaled_beta .* regularized_local * prior_scale_global * global * nugget;
sill = sigma_tot * sqrt(pi[2]);
for(i in 1:n_obs) {
for(j in 1:n_obs) {
Omega[i, j] = (1 + D[i, j] * sqrt(3) / rho) * exp(-D[i, j] * sqrt(3) / rho);
linear_predictor = rep_vector(intercept, n_obs) + X * beta + sill * upsilon;
b = 1 / (1 + n_obs * square(slab_scale / nugget));
for(j in 1:n_cov) {
shrinkage[j] = b + (1 - b) / (1 + n_obs * square(prior_scale_global * global * local[j]));
model {
global ~ cauchy(0.0, 1.0);
local ~ cauchy(0.0, 1.0);
unscaled_beta ~ normal(0.0, 1.0);
rho ~ gamma(2.1535, 0.0292); // prior range between 10 and 200
sigma_tot ~ student_t(3, 0.0, 1.0);
unscaled_intercept ~ normal(0.0, 1.0);
upsilon ~ multi_normal(rep_vector(0.0, n_obs), Omega);
FLOWERING ~ normal(linear_predictor, nugget);
generated quantities {
vector[n_obs] log_lik;
for(i in 1:n_obs) {
log_lik[i] = normal_lpdf(FLOWERING[i]| linear_predictor[i], nugget);
## Compilation
sglm5 <- stan_model(model_code = stan_sglm5,
model_name = "Mon cinquieme GLM spatial avec Stan"
Ajuster enfin de modèle aux données
fit_5 <- sampling(object = sglm5,
data = list(n_obs = nrow(sakura),
n_cov = length(input),
FLOWERING = sakura$Flowering,
D = round(D, 6),
X = as.matrix(sapply(input, function(j) { scale(sakura[, j]) })),
prior_location_intercept = 100,
prior_scale_intercept = 10,
slab_scale = 1,
prior_scale_global = prior_global()
pars = c("intercept", "beta", "rho", "sill", "nugget", "upsilon", "shrinkage", "local", "regularized_local", "global", "log_lik"),
chains = n_chains,
iter = n_iter,
warmup = n_warm,
thin = n_thin
Vérifier la convergence des paramètres :
Les facteurs de rétrécissement \(\hat{\kappa}_j\) (les comparer aux estimations précédentes)
apply(rstan::extract(fit_5, "shrinkage")$shrinkage, 2, mean)
## [1] 0.6490488 0.6410082 0.6385399 0.6373223 0.5617698 0.6278468 0.6460894
## [8] 0.5753431 0.5695688 0.6454387
et, enfin! les estimations moyennes a posteriori
pony <- apply(rstan::extract(fit_5, "beta")$beta, 2, mean)
Comparer les différentes estimations. Quel est la covariable la plus importante au final pour prédire la date de floraison des sakura?
Exercice : représenter les différentes estimations des \(\beta_j\) selon les différents priors.