-
Notifications
You must be signed in to change notification settings - Fork 0
/
02-Neutre.Rmd
2581 lines (1866 loc) · 140 KB
/
02-Neutre.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# (PART) Diversité neutre d’une communauté {-}
# Mesures neutres de la diversité $\alpha$ ou $\gamma$ {#chap-MesuresNeutres}
```{r, include=FALSE}
library("tidyverse")
library("gridExtra")
```
::: {.Summary data-latex=""}
Les indices classiques de diversité sont ceux de Shannon et de Simpson, et la richesse spécifique.
Ils peuvent être estimés à partir des données d'inventaire.
L'estimation de la richesse est particulièrement difficile et fait l'objet d'une abondante littérature: les estimateurs non-paramétriques (Chao et Jackknife) sont les plus utilisés.
:::
Les mesures classiques [@Peet1974] considèrent que chaque classe d'objets est différente de toutes les autres, sans que certaines soient plus ou moins semblables.
Dans ce chapitre, les classes seront des espèces.
Les mesures sont qualifiées de neutres (*species-neutral*) au sens où elles ne prennent en compte aucune caractéristique propre des espèces.
La diversité neutre est souvent appelée diversité taxonomique [@Devictor2010; @Stegen2011], même si le terme peut prêter à confusion avec la diversité phylogénétique, quand la phylogénie se réduit à une taxonomie [@Clarke2001; @Ricotta2003c].
Ce type de mesure n'a de sens qu'à l'intérieur d'un taxocène bien défini: sommer un nombre d'espèces d'insectes à un nombre d'espèces de mammifères a peu d'intérêt.
Ces méthodes ne sont donc pas forcément les plus adaptées à la conservation: à grande échelle, des indicateurs de biodiversité [@Balmford2003] peuvent être plus pertinents.
D'autre part, les communautés sont considérées comme limitées, avec un nombre d'espèces fini: la courbe d'accumulation des espèces atteint donc théoriquement une asymptote quand l'effort d'inventaire est suffisant.
Cette approche est opposée à celle, traitée dans les chapitres \@ref(chap-Fisher) et suivants, qui considère que la diversité augmente indéfiniment avec la surface [@Williamson2001], que ce soit par changement d'échelle (élargir l'inventaire ajoute de nouvelles communautés) ou, plus théoriquement, parce que les communautés réelles sont considérées comme un tirage aléatoire parmi une infinités d'espèces [@Fisher1943].
Les mesures présentées ici sont les plus utilisées: richesse, indices de Shannon et de Simpson, et l'indice de Hurlbert.
Elles sont sujettes à des biais d'estimation [@Mouillot1999], notamment (mais pas seulement) à cause des espèces non échantillonnées.
Au chapitre suivant, l'entropie HCDT permettra d'unifier ces mesures et les nombres de Hill, et de leur donner un sens intuitif.
## Richesse spécifique {#sec-Richesse}
La richesse est tout simplement le nombre d'espèces présentes dans le taxocène considéré.
C'est la mesure conceptuellement la plus simple mais pratiquement la plus délicate dans des systèmes très riches comme les forêts tropicales: même avec des efforts d'inventaire considérables, il n'est en général pas possible de relever toutes les espèces rares, ce qui implique de recourir à des modèles mathématiques pour en estimer le nombre.
On ne fait pas de supposition sur la forme de la SAD quand on utilise des méthodes d'estimation non paramétriques.
Les estimateurs les plus connus sont ceux de @Chao1984 et le *jackknife* [@Burnham1979].
Une alternative consiste à inférer à partir des données les paramètres d'une SAD choisie, et particulièrement le nombre total d'espèces.
Cette approche est bien moins répandue parce qu'elle suppose le bon choix du modèle et est beaucoup plus intensive en calcul.
Il n'existe pas de meilleur estimateur universel [@OHara2005] et il peut être efficace d'utiliser plusieurs méthodes d'estimation de façon concurrente sur les mêmes données [@Basset2012].
### Techniques d'estimation non paramétrique
Dans le cadre d'un échantillonnage de $n$ individus, on observe $s^{n}_{\ne 0}$ espèces différentes parmi les $S$ existantes.
Chaque individu a une probabilité $p_s$ d'appartenir à l'espèce $s$.
On ne sait rien sur la loi des $p_s$.
On sait seulement, comme les individus sont tirés indépendamment les uns des autres, que l'espérance du nombre $n_s$ d'individus de l'espèce $s$ observé dans l'échantillon est $np_s$.
La probabilité de ne pas observer l'espèce est $(1-p_s)^n$.
Pour les espèces fréquentes, $np_s$ est grand, et les espèces sont observées systématiquement.
La difficulté est due aux espèces pour lesquelles $np_s$, l'espérance du nombre d'observations, est petit.
La probabilité de les observer est donnée par la loi binomiale: si $np_s$ est proche de 0, la probabilité d'observer un individu est faible.
Les estimateurs non paramétriques cherchent à tirer le maximum d'information de la distribution des abondances $n_s$ pour estimer le nombre d'espèces non observées.
Une présentation détaillée du problème et des limites à sa résolution est fournie par @Mao2005 qui concluent notamment que les estimateurs ne peuvent fournir qu'une borne inférieure de l'intervalle des possibles valeurs du nombre réel d'espèces.
#### Chao1 et Chao2
@Chao1984 estime le nombre d'espèces non observées à partir de celles observées 1 ou 2 fois.
Dans un échantillon de taille $n$ résultant d'un tirage indépendant des individus, la probabilité que l'espèce $s$ soit observée $\nu$ fois est obtenue en écrivant la probabilité de tirer dans l'ordre $\nu$ fois l'espèce $s$ puis $n-\nu$ fois une autre espèce, multiplié par le nombre de combinaisons possible pour prendre en compte l'ordre des tirages:
\begin{equation}
(\#eq:psnu)
p^{n}_{s, \nu} = \binom{n}{\nu} {p_s^\nu \left( 1-p_s \right)^{n-\nu}}.
\end{equation}
L'espérance du nombre d'espèces observées $\nu$ fois, ${\mathbb E}(s^{n}_{\nu})$, est obtenue en sommant pour toutes les espèces la probabilité de les observer $\nu$ fois:
\begin{equation}
(\#eq:Esnnu)
{\mathbb E}\left( s^{n}_{\nu} \right) = \binom{n}{\nu} \sum_s{p_s^\nu \left( 1-p_s \right)^{n-\nu}}.
\end{equation}
Le carré de la norme du vecteur en $S$ dimensions dont les coordonnées sont $(1-p_s)^{n/2}$ est
$$\sum_s{(1-p_s)^n},$$
c'est-à-dire ${\mathbb E}(s^{n}_{0})$, l'espérance du nombre d'espèces non observées.
Celui du vecteur de coordonnées $p_s (1-p_s)^{n/2-1}$ est
$$\sum_s{p_s^2(1-p_s)^{n-2}}=\frac{2}{n(n-1)}{\mathbb E}(s^{n}_{2}).$$
Enfin, le produit scalaire des deux vecteurs vaut
$$\sum_s{p_s(1-p_s)^{n-1}}=\frac{1}{n}{\mathbb E}(s^{n}_{1}).$$
L'inégalité de Cauchy-Schwarz (le produit scalaire est inférieur au produit des normes des vecteurs) peut être appliquée aux deux vecteurs (tous les termes sont au carré):
\begin{equation}
(\#eq:CauchySchwarz)
\left[ \sum_s{(1-p_s)^n} \right] \left[ \sum_s{p_s^2(1-p_s)^{n-2}} \right]
\ge \left[ \sum_s{p_s(1-p_s)^{n-1}} \right]^2,
\end{equation}
d'où
\begin{equation}
(\#eq:Esn0)
{\mathbb E}(s^{n}_{0})
\ge \frac{n-1}{n}\frac{\left[ {\mathbb E}(s^{n}_{1}) \right]^2}{2 {\mathbb E}(s^{n}_{2})}.
\end{equation}
L'estimateur est obtenu en remplaçant les espérances par les valeurs observées:
\begin{equation}
(\#eq:Chao1)
{\hat{S}}_\mathit{Chao1}
= s^{n}_{\ne 0} + \frac{\left(n-1 \right){\left(s^{n}_{1}\right)}^2}{2n{s^{n}_{2}}},
\end{equation}
où $s^{n}_{\ne 0}$ est le nombre d'espèces différentes observé.
Il s'agit d'un estimateur minimum: l'espérance du nombre d'espèces est supérieure ou égale au nombre estimé.
@Beguinot2014 a montré que l'estimateur est sans biais si le nombre d'espèces non observées décroît exponentiellement avec la taille de l'échantillon:
\begin{equation}
(\#eq:BiaisChao)
s^{n}_{0} = S e^{-kn},
\end{equation}
où $k$ est un réel strictement positif.
Cette relation est cohérente avec un échantillonnage poissonien dans lequel la densité des individus est constante: voir le chapitre \@ref(chap-Accumulation).
Si aucune espèce n'est observée deux fois, l'estimateur est remplacé par
\begin{equation}
(\#eq:Chao1sansf2)
{\hat{S}}_\mathit{Chao1} = s^{n}_{\ne 0} + \frac{\left(n-1\right){s^{n}_{1}}\left(s^{n}_{1}-1\right)}{2n}.
\end{equation}
Si $n$ n'est pas trop petit, les approximations suivantes sont possibles:
\begin{equation}
(\#eq:Chao1sansn)
\hat{S}_\mathit{Chao1}
= {s^{n}_{\ne 0}} + \frac{{\left(s^{n}_{1}\right)}^2}{2s^{n}_{2}}.
\end{equation}
Si aucune espèce n'est observée deux fois, l'estimateur est remplacé [@Chao2004] par
\begin{equation}
(\#eq:Chao1sansnf2)
{\hat{S}}_\mathit{Chao1}
= {s^{n}_{\ne 0}}+{s^{n}_{1}\left(s^{n}_{1}-1\right)}/{2}.
\end{equation}
La variance de l'estimateur est connue, mais pas sa distribution:
\begin{equation}
(\#eq:VarChao1)
\operatorname{Var}{\left({\hat{S}}_\mathit{Chao1}\right)}
= {s^{n}_{2}}\left[\frac{1}{2}{\left(\frac{s^{n}_{1}}{s^{n}_{2}}\right)}^2 + {\left(\frac{s^{n}_{1}}{s^{n}_{2}}\right)}^3 + \frac{1}{4}{\left(\frac{s^{n}_{1}}{s^{n}_{2}}\right)}^4\right].
\end{equation}
Si aucune espèce n'est observée deux fois:
\begin{equation}
(\#eq:VarChao1sansf2)
\operatorname{Var}{\left({\hat{S}}_\mathit{Chao1}\right)}
= \frac{s^{n}_{1}\left(s^{n}_{1}-1\right)}{2}
+ \frac{s^{n}_{1}{\left(2s^{n}_{1} -1\right)}^2}{4}
+ \frac{{\left(s^{n}_{1}\right)}^4}{4s^{n}_{\ne 0}}.
\end{equation}
@Chao1987 donne une approximation de l'intervalle de confiance à 95\% en assumant une distribution normale:
\begin{equation}
(\#eq:ICChao1)
s^{n}_{\ne 0}+\frac{{\hat{S}}_\mathit{Chao1}-{s^{n}_{\ne 0}}}{c}\le S\le {s^{n}_{\ne 0}}+\left({\hat{S}}_\mathit{Chao1}-{s^{n}_{\ne 0}}\right)c,
\end{equation}
où
\begin{equation}
(\#eq:ICChao1c)
c=e^{t^{n}_{1-{\alpha}/{2}}\sqrt{\ln\left(1+\frac{\operatorname{Var}\left({\hat{S}}_\mathit{Chao1}\right)}{{\left({\hat{S}}_\mathit{Chao1}-{s^{n}_{\ne 0}}\right)}^2}\right)}}.
\end{equation}
@Eren2012 [eq. 8] calculent un intervalle de confiance qui est plus petit quand la valeur maximum théorique du nombre d'espèces est connue, ce qui est rarement le cas en écologie.
@Chao1987 propose un estimateur du nombre d'espèces appliqué aux données de présence-absence (un certain nombre de relevés contiennent seulement l'information de présence ou absence de chaque espèce), appelé Chao2. Il est identique à Chao1 mais $n$ est le nombre de relevés, en général trop petit pour appliquer l'approximation de Chao1.
@Chiu2014a améliorent l'estimateur en reprenant la démarche originale de Chao mais en utilisant un estimateur plus précis du taux de couverture, \@ref(eq:CChao) au lieu de \@ref(eq:CGood):
\begin{equation}
(\#eq:iChao1)
{\hat{S}}_\mathit{iChao1}
= {\hat{S}}_\mathit{Chao1}
+ \frac{s^{n}_{3}}{4s^{n}_{4}}\,
\max\left(s^{n}_{1}-\frac{s^{n}_{2}s^{n}_{3}}{2s^{n}_{4}};0\right).
\end{equation}
@Chao2017 étendent l'applicabilité de l'estimateur Chao2 à des données dans lesquelles les espèces sont notées uniquement comme singletons ou doubletons et plus, sans distinction entre doubletons et espèces plus fréquentes.
Une relation entre le nombre de doubletons et les données disponibles est fournie; sa résolution numérique (le code R nécessaire est disponible avec l'article) permet d'estimer $s^{n}_{2}$ et de l'injecter dans l'estimateur Chao2.
#### L'estimateur ACE
@Chao1992 développent l'estimateur ACE (*Abundance-based coverage estimator*) à travers l'estimation du taux de couverture $C$.
L'estimateur ACE utilise toutes les valeurs de $^{\nu }s$ correspondant aux espèces rares: concrètement, la valeur limite de $\nu$ notée $\kappa$ est fixée arbitrairement, généralement à 10.
L'estimateur prend en compte le coefficient de variation de la distribution des fréquences (${\hat{p}}_s$): plus les probabilités sont hétérogènes, plus le nombre d'espèces non observées sera grand.
Finalement:
\begin{equation}
(\#eq:ACE)
\hat{S}_{\mathit{ACE}} = s^{n}_{>\kappa} + \frac{s^{n}_{\le\kappa}}{\hat{C}_\mathit{rares}}+\frac{s^{n}_{1}}{{\hat{C}}_\mathit{rares}}{\hat{\gamma}}_\mathit{rares}.
\end{equation}
$s^{n}_{>\kappa}$ est le nombre d'espèces dites abondantes, observées plus de $\kappa$ fois, $s^{n}_{\le\kappa}$ le nombre d'espèces dites rares, observées $\kappa$ fois ou moins.
$\hat{C}_\mathit{rares}$ est le taux de couverture ne prenant en compte que les espèces rares.
L'estimateur du coefficient de variation est
\begin{equation}
(\#eq:ACEcv)
\hat{\gamma}^{2}_\mathit{rares} = \max\left(\frac{s^{n}_{\le\kappa}\sum^{\kappa}_{\nu=1}{\nu\left(\nu-1\right){s^{n}_{\nu}}}}{\hat{C}_\mathit{rares}\left(\sum^{\kappa}_{\nu=1}{\nu s^{n}_{\nu}}\right)\left(\sum^{\kappa}_{\nu=1}{\nu s^{n}_{\nu}}-1\right)}-1; 0\right).
\end{equation}
Lorsque l'hétérogénéité est très forte, un autre estimateur est plus performant:
\begin{equation}
(\#eq:ACEcv2)
\tilde{\gamma}^{2}_\mathit{rares} = \max\left({\widehat{\gamma}}^2_\mathit{rares}\left(1+\frac{\left(1-{\hat{C}}_\mathit{rares}\right)\sum^{\kappa}_{\nu=1}{\nu\left(\nu -1\right){s^{n}_{\nu}}}}{{\hat{C}}_\mathit{rares}\left(\sum^{\kappa}_{\nu =1}{\nu s^{n}_{\nu}-1}\right)}\right); 0 \right).
\end{equation}
@Chao2010a conseillent d'utiliser le deuxième estimateur dès que ${\widehat{\gamma}}^2_\mathit{rares}$ dépasse 0,8.
L'estimateur ACE donne normalement une valeur plus grande que Chao1.
Si ce n'est pas le cas, la limite des espèces rares $\kappa$ doit être augmentée.
#### L'estimateur jackknife
La méthode jackknife a pour objectif de réduire le biais d'un estimateur en considérant des jeux de données dans lesquels on a supprimé un certain nombre d'observations (ce nombre est l'ordre de la méthode).
Burnham et Overton [-@Burnham1978; -@Burnham1979] ont utilisé cette technique pour obtenir des estimateurs du nombre d'espèces, appelés jackknife à l'ordre $j$, prenant en compte les valeurs de $s^{n}_{1}$ à $s^{n}_{j}$.
Les estimateurs du premier et du deuxième ordre sont les plus utilisés en pratique:
\begin{equation}
(\#eq:Jack1)
\hat{S}_\mathit{J1} = {s^{n}_{\ne 0}} + \frac{\left(n-1\right){s^{n}_{1}}}{n},
\end{equation}
\begin{equation}
(\#eq:Jack2)
\hat{S}_\mathit{J2} = {s^{n}_{\ne 0}} + \frac{\left(2n-3\right){s^{n}_{1}}}{n} - \frac{{\left(n-2\right)}^{2}s^{n}_{2}}{n\left(n-1\right)}.
\end{equation}
Augmenter l'ordre du jackknife diminue le biais mais augmente la variance de l'estimateur.
@Chao1984 a montré que les estimateurs jackknife pouvaient être retrouvés par approximation de l'indice Chao1.
La variance du jackknife d'ordre 1 est [@Heltshe1983]
\begin{equation}
(\#eq:VarJack1)
\operatorname{Var}{\left( \hat{S}_\mathit{J1} \right)}
= \frac{n-1}{n} \left( \sum_{j=1}^{n}{j^2 s^{n}_{j}} - \frac{\left( s^{n}_{\ne 0} \right)^2}{n} \right).
\end{equation}
L'estimateur est construit à partir de l'hypothèse selon laquelle le nombre d'espèces non observées est de la forme
$$s^{n}_{0} = \sum_{i=1}^{\infty}{\frac{a_i}{n^i}}.$$
Pour cette raison, @Cormack1989 affirme qu'il n'a pas de support théorique solide.
L'espérance du nombre d'espèces non observées est \@ref(eq:Esnnu) $\sum_s{(1-p_s)^n}$, qui décroît beaucoup plus rapidement que $\sum_{i}{{a_i}/{n^i}}$: l'hypothèse est bien fausse.
En revanche, pour une gamme de $n$ fixée (de la taille de l'inventaire à une taille suffisante pour approcher la richesse asymptotique par exemple), il est toujours possible d'écrire le nombre d'espèces non observées sous la forme d'une série de puissances négatives de $n$, comme dans l'illustration ci-dessous.
Une communauté log-normale, similaire à BCI (300 espèces, écart-type égal à 2) est simulée et un échantillon de 1000 individus est tiré.
```{r BiaisJack1}
library("entropart")
# Ecart-type
sdlog <- 2
# Nombre d'espèces
S <- 300
# Tirage des probabilités log-normales
Ps <- as.ProbaVector(rlnorm(S, 0, sdlog))
# Taille de l'échantillon
N <- 1000
# Tirage d'un échantillon
Ns <- rCommunity(1, size = N, NorP = Ps)
```
L'échantillon est présenté en figure \@ref(fig:BiaisJack1Fig).
Code de la figure \@ref(fig:BiaisJack1Fig):
```{r BiaisJack1Code, eval=FALSE}
autoplot(Ns, Distribution="lnorm")
```
```{r BiaisJack1Fig, echo=FALSE, results='hide', ref.label='BiaisJack1Code', fig.cap="Echantillon de 1000 individus tiré dans une communauté log-normale."}
```
Il est possible de vérifier que l'espérance du nombre d'espèces non observées correspond bien à la moyenne des observations.
```{r BiaisJack2}
# Espérance des espèces non vues
E0 <- (1-Ps)^N
(f0 <- sum(E0))
# Tirage de 1000 échantillons, nombre moyen d'espèces observées
(Sn <- mean(colSums(rmultinom(1000, N, Ps)>0)))
# Vérification: nombre d'espèces observées en moyenne et non observées
Sn+f0
# Nombre total d'espèces dans la communauté
(S <- length(Ps))
```
Le nombre d'espèces non observées peut être écrit sous la forme d'une série de puissances négatives de $n$, comme le prévoit le jackknife, entre deux valeurs de $n$ fixées.
```{r BiaisJack3}
# Echantillonnage de 500 à 5000 individus
n.seq <- 500:5000
# Calcul du nombre d'espèces non observées
Bias <- sapply(n.seq, function(n) sum((1-Ps)^n))
```
Le nombre d'espèces non observées, qui est le biais de l'estimateur de la richesse, est présenté en figure \@ref(fig:BiaisJack3Fig).
Code de la figure \@ref(fig:BiaisJack3Fig):
```{r BiaisJack3Code, eval=FALSE, tidy=FALSE}
ggplot(data.frame(n=n.seq, Biais=Bias, lm1=predict(lm1),
lm2=predict(lm2), lm4=predict(lm4)), aes(x=n)) +
geom_line(aes(y=Biais), col="black", lty=1) +
geom_line(aes(y=lm1), col="red", lty=2) +
geom_line(aes(y=lm2), col="orange", lty=3) +
geom_line(aes(y=lm4), col="blue", lty=4) +
coord_cartesian(ylim = c(0, 250))
```
La courbe peut être approchée par une série de puissances négatives de $n$ dont quelques termes sont présentés sur la figure.
```{r BiaisJack4, tidy=FALSE}
# Ordre 1
lm1 <- lm(Bias ~ 0 +I(1/n.seq))
# Ordre 2
lm2 <- lm(Bias ~ 0 +I(1/n.seq) + I(1/n.seq^2))
# Ordre 4
summary(lm4 <- lm(Bias ~ 0 +I(1/n.seq) + I(1/n.seq^2)
+ I(1/n.seq^3) + I(1/n.seq^4)))
```
(ref:BiaisJack3Fig) Nombre d'espèces non obervées dans un échantillon de taille croissante et sa décomposition en séries de puissances négatives de $n$. Le nombre d'espèces non observées est représenté par la courbe continue noire. Les séries de puissances négatives d'ordre 1 (courbe rouge), 2 (courbe orange) et 4 (courbe bleue) sont représentées en pointillés. Les courbes d'ordre 6 et plus sont confondues avec la courbe noire.
```{r BiaisJack3Fig, echo=FALSE, results='hide', ref.label='BiaisJack3Code', fig.cap="(ref:BiaisJack3Fig)"}
```
L'ajustement est possible pour des valeurs de $n$ différentes mais les coefficients $a_i$ sont alors différents: la forme du biais n'est valide que pour une gamme de valeurs de $n$ fixée.
@Beguinot2016 apporte un autre argument important en faveur du jackknife.
À condition que $n$ soit suffisamment grand, l'estimateur du nombre d'espèces non observées est une fonction linéaire du nombre d'espèces observées $\nu$ fois: $s^{n}_{1}$ pour le jackknife 1, $2 s^{n}_{1} - s^{n}_{2}$ pour le jackknife 2 et ainsi de suite pour les ordres suivants, contrairement à l'estimateur de Chao.
Grâce à cette propriété, l'estimateur du jackknife est additif quand plusieurs groupes d'espèces disjoints sont pris en compte: l'estimation du nombre d'espèces de papillons et de scarabées inventoriées ensemble est égale à la somme des estimations des deux groupes inventoriés séparément.
Ce n'est pas le cas pour l'estimateur de Chao.
L'estimateur du jackknife est très utilisé parce qu'il est efficace en pratique, notamment parce que son ordre peut être adapté aux données.
#### L'estimateur du bootstrap
L'estimateur du bootstrap [@Smith1984] est
\begin{equation}
(\#eq:Smith1984)
\hat{S}_\mathit{b} = {s^{n}_{\ne 0}} + \sum_s{(1-p_s)^n}.
\end{equation}
Il est peu utilisé parce que le jackknife est plus performant [@Colwell1994].
#### Calcul
Ces estimateurs peuvent être calculés de façon relativement simple à l'aide du logiciel SPADE, dans sa version pour R [@Chao2016c].
Le guide de l'utilisateur présente quelques estimateurs supplémentaires et des directives pour choisir.
Il est conseillé d'utiliser Chao1 pour une estimation minimale, et ACE pour une estimation moins biaisée de la richesse.
Les intervalles de confiance de chaque estimateur sont calculés par bootstrap: même quand la variance d'un estimateur est connue, sa loi ne l'est généralement pas, et le calcul analytique de l'intervalle de confiance n'est pas possible.
Les estimateurs et leurs intervalles de confiance peuvent également être calculés avec le package *vegan* qui dispose pour cela de deux fonctions: `specpool` et `estimateR`.
`specpool` est basé sur les incidences des espèces dans un ensemble de sites d'observation et donne une estimation unique de la richesse selon les méthodes Chao2, jackknife (ordre 1 et 2) et bootstrap.
L'écart-type de l'estimateur est également fourni par la fonction, sauf pour le jackknife d'ordre 2.
`estimateR` est basé sur les abondances des espèces et retourne un estimateur de la richesse spécifique par site et non global comme `specpool`.
#### Exemple
On utilise les données de Barro Colorado Island (BCI).
La parcelle a été divisée en carrés de 1 ha.
Le tableau d'entrée est un `dataframe` contenant, pour chaque espèce d'arbres ($\mathit{DBH}\ge$ 10 cm), ses effectifs par carré.
On charge le tableau de données:
```{r Richesse1}
library("vegan")
data(BCI)
```
On utilise la fonction `estimateR` pour calculer la richesse des deux premiers carrés:
```{r Richesse2}
estimateR(BCI[1:2,])
```
Le package *SPECIES* [@Wang2011] permet de calculer les estimateurs jackknife d'ordre supérieur à 2 et surtout choisit l'ordre qui fournit le meilleur compromis entre biais et variance.
Comparaison des fonctions sur l'ensemble du dispositif BCI ($s^{n}_{\ne 0}=225$, $s_{1}=19$):
```{r Richesse3, tidy=FALSE}
specpool(BCI)
library("SPECIES")
# Distribution du nombre d'espèces (vecteur:
# noms = nombre d'individus
# valeurs = nombres d'espèces ayant ce nombre d'individus)
Ns <- colSums(BCI)
# Mise au format requis (matrice:
# colonne 1 = nombre d'individus
# colonne 2 = nombres d'espèces ayant ce nombre d'individus)
# par la fonction AbdFreqCount dans entropart
jackknife(AbdFreqCount(Ns))
```
Comparaison avec la valeur de l'équation \@ref(eq:Jack1):
```{r VerifJack1}
# Nombre d'espèces par efffectif observé
DistNs <- tapply(Ns, Ns, length)
# Calcul direct de Jack1
sum(DistNs)+DistNs[1]*(sum(BCI)-1)/sum(BCI)
```
La valeur du jackknife 1 fournie par `specpool` est fausse.
La fonction `jackknife` de *SPECIES* donne le bon résultat, avec un intervalle de confiance calculé en supposant que la distribution est normale ($\pm$ 1,96 écart-type au seuil de 95\%).
L'estimateur du bootstrap est calculable simplement:
```{r Richesse4}
N <- sum(Ns)
Ps <- Ns/N
length(Ps) + sum((1-Ps)^N)
```
#### Choix de l'estimateur {#sec-ChoixEstimateur}
Des tests poussés ont été menés par @Brose2003 pour permettre le choix du meilleur estimateur de la richesse en fonction de la complétude de l'échantillonnage $s^{n}_{\ne 0}/{S}$.
Les auteurs appellent cette proportion couverture (*coverage*).
Le terme *completeness* a été proposé par @Beck2010 pour éviter la confusion avec le taux de couverture défini par Good (vu en section \@ref(sec-Couverture)).
La complétude est inférieure à la couverture: toutes les espèces ont le même poids alors que les espèces manquantes sont plus rares et pénalisent moins le taux de couverture.
(ref:Brose2003) Arbre de décision du meilleur estimateur du nombre d'espèces.
```{r Brose2003, fig.cap="(ref:Brose2003)", echo=FALSE}
knitr::include_graphics('images/Brose2003.png')
```
Dans tous les cas, les estimateurs jackknife sont les meilleurs.
L'arbre de décision est en figure \@ref(fig:Brose2003) [@Brose2003, fig. 6].
Le choix dépend principalement de la complétude (*coverage* sur la figure).
Une première estimation est nécessaire par plusieurs estimateurs.
Si les résultats sont cohérents, choisir un estimateur jackknife d'ordre d'autant plus faible que la complétude est grande.
Au-delà de 96\%, le nombre d'espèces observé est plus performant parce que les jackknifes surestiment $S$.
S'ils sont incohérents (intervalle des estimations supérieur à 50\% de leur moyenne), le critère majeur est l'équitabilité (voir section \@ref(sec-Equitabilite)).
Si elle est faible (de l'ordre de 0,5-0,6), les estimateurs jackknife 2 à 4 sont performants, l'ordre diminuant avec l'intensité d'échantillonnage (forte: 10\%, faible: 0,5\% de la communauté).
Pour une forte équitabilité (0,8-0,9), on préférera jackknife 1 ou 2.
Pour BCI, le nombre d'espèces estimé par jackknife 1 est 244.
La complétude est ${225}/{244}=92\%$, dans le domaine de validité du jackknife 1 (74\% à 96\%) qui est donc le bon estimateur.
La parcelle 6 de Paracou nécessite l'estimateur jackknife 2:
```{r ParacouJack}
library("SpatDiv")
jackknife(AbdFreqCount(as.AbdVector(Paracou6)))
# Complétude
as.numeric(Richness(Paracou6, Correction = "None")/Richness(Paracou6, Correction = "Jackknife"))
```
@Chiu2014a, à partir d'autres simulations, préfèrent l'utilisation de l'estimateur *iChao1*.
Quand l'échantillonnage est suffisant, les estimateurs de Chao ont l'avantage de posséder une base théorique solide et de fournir une borne inférieure du nombre d'espèces possible.
Dans ce cas, les estimations du jackknife d'ordre 1 sont cohérentes avec celles de Chao.
En revanche, quand l'échantillonnage est insuffisant, l'estimateur jackknife d'ordre supérieur à 1 permet de réduire le biais d'estimation, au prix d'une variance accrue [@Marcon2015a].
Enfin, Beguinot [-@Beguinot2015a; -@Beguinot2016] suggère d'utiliser en règle générale le jackknife 2 (mais ne traite pas les cas dans lesquels l'échantillonnage est trop faible pour justifier un ordre supérieur) tant que le nombre de singletons est supérieur à $2-\sqrt(2) \approx 0,6$ fois le nombre de doubletons.
Le ratio des singletons sur les doubletons diminue quand l'échantillonnage approche de l'exhaustivité.
Quand le seuil de 0,6 est dépassé, la valeur de l'estimateur de Chao devient supérieur au jackknife 2 et doit être utilisé.
Ce seuil est cohérent avec les règles de @Brose2003.
#### Prédiction de la richesse d'un nouvel échantillon {#sec-Extrapol}
La prédiction du nombre d'espèces $\hat{S'}$ découvert dans une nouvelle placette d'un habitat dans lequel on a déjà échantillonné est une question importante, par exemple pour évaluer le nombre d'espèces préservées dans le cadre d'une mise en réserve, ou évaluer le nombre d'espèces perdues en réduisant la surface d'une forêt.
@Shen2003 proposent un estimateur et le confrontent avec succès à des estimateurs antérieurs.
On note $\hat{S}^{n}_{0}$ l'estimateur du nombre d'espèces non observées dans le premier échantillon, et $\hat{C}$ l'estimateur de son taux de couverture.
L'estimateur du nombre d'espèces du nouvel échantillon de $n'$ individus est
\begin{equation}
\hat{S'} = \hat{S}^{n}_{0} \left[1-{\left(1-\frac{1-\hat{C}}{\hat{S}^{n}_{0}}\right)}^{n'}\right].
\end{equation}
$\hat{S}^{n}_{0}$ est obtenu par la différence entre les nombres d'espèces estimé et observé: $\hat{S}^{n}_{0}=\hat{S}-s^{n}_{\ne 0}$.
Exemple de BCI, suite: combien de nouvelles espèces seront découvertes en échantillonnant plus?
```{r NonObserve}
# Espèces non observées
(NonObs <- jackknife(AbdFreqCount(Ns))$Nhat-length(Ns))
# Taux de couverture
(C <- Coverage(Ns))
```
(ref:NonObsNFig) Nombre de nouvelles espèces découvertes en fonction de l'effort d'échantillonnage supplémentaire (données de BCI). Seulement 7 nouvelles espèces seront observées en échantillonnant 10000 arbres supplémentaires (environ 25 ha en plus des 50 ha de la parcelle qui contiennent 225 espèces).
```{r NonObsNFig, echo=FALSE, results='hide', ref.label='NonObsNCode', fig.cap="(ref:NonObsNFig)"}
```
Le taux de couverture de l'inventaire de BCI est très proche de 100\%, donc peu de nouvelles espèces seront découvertes en augmentant l'effort d'échantillonnage.
La courbe obtenue est en figure \@ref(fig:NonObsNFig).
Le code R nécessaire pour réaliser la figure est:
```{r NonObsNCode, eval=FALSE, tidy=FALSE}
# Nouvelles espèces en fonction du nombre de nouveaux individus
Sprime <- function(Nprime) NonObs * (1 - (1 - (1 - C)/NonObs)^Nprime)
ggplot(data.frame(x = c(1, 10000)), aes(x)) +
stat_function(fun = Sprime) +
labs(x = "n'", y = "S'")
```
La question de l'extrapolation de la richesse est traitée plus en détail dans les sections \@ref(sec-RarExtrapol) et \@ref(sec-Extrapolation).
### Inférence du nombre d'espèces à partir de la SAD
#### Distribution de Preston
@Preston1948 fournit dès l'introduction de son modèle log-normal une technique d'estimation du nombre total d'espèces par la célèbre méthode des octaves.
Elle est disponible dans le package *vegan*:
```{r Preston}
veiledspec(colSums(BCI))
```
L'ajustement direct du modèle aux données, sans regroupement par octaves [@Williamson2005], est également possible (figure \@ref(fig:PrestonSansOFig)):
```{r PrestonSansO}
mod.ll <- prestondistr(colSums(BCI))
veiledspec(mod.ll)
```
(ref:PrestonSansOFig) Ajustement du modèle de Preston aux données de BCI.
```{r PrestonSansOFig, echo=FALSE, results='hide', ref.label='PrestonSansO2', fig.cap="(ref:PrestonSansOFig)"}
```
Le code R nécessaire pour réaliser la figure est:
```{r PrestonSansO2, eval=FALSE}
plot(mod.ll)
```
#### Maximum de vraisemblance d'une distribution de Fisher
@Norris1998 supposent que la distribution des espèces suit le modèle de Fisher (voir chapitre \@ref(chap-Fisher)) et infèrent le nombre d'espèces par maximum de vraisemblance non paramétrique (ils ne cherchent pas à inférer les paramètres de la loi de probabilité de $p_s$ mais seulement à ajuster au mieux le modèle de Poisson aux valeurs de ${\hat{p}}_s$ observées).
Le calcul est possible avec la librairie *SPECIES* de R:
```{r NorrisPollock}
# Distribution du nombre d'espèces (vecteur:
# noms = nombre d'individus
# valeurs = nombres d'espèces ayant ce nombre d'individus)
Ns <- colSums(BCI)
# Mise au format requis (matrice:
# colonne 1 = nombre d'individus
# colonne 2 = nombres d'espèces ayant ce nombre d'individus)
DistNs.SPECIES <- AbdFreqCount(Ns)
# Regroupement de la queue de distribution: la longueur du vecteur est limitée à 25 pour alléger les calculs.
DistNs.SPECIES[25, 2] <- sum(DistNs.SPECIES[25: nrow(DistNs.SPECIES), 2])
DistNs.SPECIES <- DistNs.SPECIES[1:25,]
unpmle(DistNs.SPECIES)
```
Le problème de cette méthode d'estimation est qu'elle diverge fréquemment.
Les calculs n'aboutissent pas si la queue de distribution n'est pas regroupée (il existe 108 valeurs différentes de $n_s$ dans l'exemple de BCI: aucune des fonctions de *SPECIES* ne fonctionne en l'état).
@Wang2005 ont amélioré sa stabilité en pénalisant le calcul de la vraisemblance:
```{r Wang}
pnpmle(DistNs.SPECIES)
```
Enfin, @Wang2010 perfectionne la technique d'estimation en supposant que les $p_s$ suivent une loi gamma et en estimant aussi ses paramètres.
La souplesse de la loi gamma permet d'ajuster le modèle à des lois diverses et l'estimateur de Wang est très performant.
Il est disponible dans *SPECIES*: fonction `pcg`.
Son défaut est qu'il nécessite un très long temps de calcul (plusieurs heures selon les données).
```{r Wang2010, eval=FALSE}
# Calcul long
pcg(DistNs.SPECIES)
```
### Inférence du nombre d'espèces à partir de courbes d'accumulation {#sec-RichesseSAC}
Cette approche consiste à extrapoler la courbe d'accumulation observée.
Le modèle le plus connu est celui de Michaelis-Menten [@Michaelis1913] proposé par @Clench1979.
En fonction de l'effort d'échantillonnage $n$, évalué en temps (il s'agit de la collecte de papillons), le nombre d'espèces découvert augmente jusqu'à une asymptote égale au nombre d'espèces total:
\begin{equation}
S^{n} = S\frac{n}{K+n}.
\end{equation}
$K$ est une constante, que Clench relie à la difficulté de collecte.
L'estimation empirique du modèle de Michaelis-Menten peut être faite avec R^[ Fiche TD de J.R. Lobry: <http://pbil.univ-lyon1.fr/R/pdf/tdr47.pdf>].
Les 50 carrés de BCI sont utilisés pour fabriquer une courbe d'accumulation:
```{r Lobry1}
data(BCI)
# Cumul du nombre d'arbres
nArbres <- cumsum(rowSums(BCI))
# Cumul de l'inventaire
Cumul <- apply(BCI, 2, cumsum)
# Nombre d'espèces cumulées
nEspeces <- apply(Cumul, 1, function(x) sum(x>0))
```
Le modèle est ajusté par `nlsfit`.
Des valeurs de départ doivent être fournies pour $K$ et $\hat{S}$.
$K$ est la valeur de $n$ correspondant à $\hat{S}^{n} =\hat{S}/2$.
Une approximation suffisante est $n/4$.
Pour $\hat{S}$, le nombre total d'espèces inventoriées est un bon choix.
Le résultat se trouve en figure \@ref(fig:SobLLorFig).
```{r Lobry2}
# Ajustement du modèle
(nlsfit <- nls(nEspeces ~ S * nArbres/(K + nArbres), data = list(nArbres, nEspeces), start = list(K = max(nArbres)/4, S = max(nEspeces))))
```
L'estimation précédente utilise la méthode des moindres carrés, qui suppose l'indépendance des résidus, hypothèses évidemment violée par une courbe d'accumulation [@Colwell1994].
L'estimation par le maximum de vraisemblance est plus convenable [@Raaijmakers1987].
Elle utilise la totalité des points de la courbe d'accumulation.
La courbe d'accumulation de BCI est présentée en figure \@ref(fig:specaccumFig).
Ses données sont utilisées ici:
```{r Raaijmakers1}
SAC <- specaccum(BCI, "random")
# Calculs intermédiaires
Yi <- SAC$richness
N <- length(Yi)
Xi <- Yi/(1:N)
Xbar <- mean(Xi)
Ybar <- mean(Yi)
Syy <- sum((Yi-Ybar)^2)
Sxx <- sum((Xi-Xbar)^2)
Sxy <- sum((Xi-Xbar)*(Yi-Ybar))
# Estimations
(Khat <- (Xbar*Syy - Ybar*Sxy)/(Ybar*Sxx - Xbar*Sxy))
(Shat <- Ybar + Khat*Xbar)
```
L'estimation précédente repose sur une approximation numérique.
Le paramètre $K$ peut être estimé plus précisément par résolution numérique de l'équation exacte du maximum de vraisemblance:
```{r Raaijmakers2}
# Equation que Khat doit annuler
f <- function(Khat) Sxy + Khat*Sxx - (Syy +2*Khat*Sxy +Khat*Khat*Sxx)*sum(Xi/(Yi+Khat*Xi)/N)
# Résolution numérique, l'intervalle de recherche doit être fourni
Solution <- uniroot(f, c(0, 1E+7))
(Khat <- Solution$root)
(Shat <- Ybar + Khat*Xbar)
```
Le nombre d'espèces estimé est `r round(Shat, 0)`, inférieur au nombre d'espèces observé.
Pour calculer l'intervalle de confiance, il est plus simple de passer par une transformation linéaire du modèle [@Lineweaver1934]:
\begin{equation}
(\#eq:Lineweaver1934)
\left[\frac{1}{\hat{S}^{n}}\right] = \frac{K}{\hat{S}}\left[\frac{1}{n}\right]+\frac{1}{\hat{S}}
\end{equation}
Le nombre d'espèces est estimé par l'inverse de l'ordonnée à l'origine du modèle.
```{r Lineweaver1}
y <- 1/nEspeces
x <- 1/nArbres
lm1 <- lm(y ~ x)
(S <- 1/lm1$coef[1])
```
(ref:LineweaverFig) Ajustement du même modèle de Michaelis-Menten transformé selon Lineweaver et Burk.
```{r LineweaverFig, echo=FALSE, results='hide', ref.label='Lineweaver2', fig.cap="(ref:LineweaverFig)"}
```
On voit assez clairement que le modèle (figure \@ref(fig:LineweaverFig)) s'ajuste mal quand il est représenté sous cette forme [@Raaijmakers1987].
Le code R nécessaire pour réaliser la figure est:
```{r Lineweaver2, eval=FALSE, tidy = FALSE}
ggplot(data.frame(x, y), aes(x, y)) +
geom_point() +
stat_smooth(method = "lm", col = "red") +
labs(x = "1/n", y="1/S")
```
Le nombre d'espèces estimé est inférieur au nombre observé, qui ne se trouve même pas dans l'intervalle de confiance à 95\%.
Le modèle de Michaelis-Menten ne convient pas.
@Soberon1993 développent un cadre théorique plus vaste qui permet d'ajuster la courbe d'accumulation à plusieurs modèles.
Ces modèles sont efficaces empiriquement mais manquent de support théorique pour justifier leur forme.
Le modèle le plus simple est exponentiel négatif.
Si la probabilité de trouver une nouvelle espèce est proportionnelle au nombre d'espèces non encore découvertes, la courbe d'accumulation suit la relation
\begin{equation}
(\#eq:Soberon1993a)
S^{n} = S \left( 1 - e^{Kn} \right).
\end{equation}
Les paramètres peuvent être estimés par la méthode des moindres carrés:
```{r Holdridge}
(nlsexp <- nls(nEspeces ~ S * (1 - exp(K*nArbres)), data = list(nArbres, nEspeces), start = list(S = max(nEspeces), K=-1/1000)))
```
Ce modèle, proposé par @Holdridge1971, sous-estime la richesse parce que la probabilité de découvrir une nouvelle espèce diminue plus vite que le nombre d'espèces restant à découvrir: les dernières espèces sont plus rares et donc plus difficiles à détecter.
Un modèle plus réaliste définit cette probabilité comme une fonction décroissante du nombre d'espèces manquantes.
La fonction la plus simple est une exponentielle négative mais elle ne s'annule jamais et le nombre d'espèces n'a pas d'asymptote.
Un paramètre supplémentaire pour obtenir l'asymptote est nécessaire et aboutir à la relation
\begin{equation}
(\#eq:Soberon1993b)
S^{n} = \frac{1}{z} \ln \left[ \frac{a}{c} - \frac{a-c}{c} e^{-czn} \right].
\end{equation}
Les paramètres à estimer sont $z$, $a$ et $c$.
```{r Soberon}
(nlslog <- nls(nEspeces ~ 1/z * log(a/c -(a-c)/c*exp(-c*z*nArbres)), data = list(nArbres, nEspeces), start = list(z=.05, a=1, c=.001)))
# Nombre d'espèces
coefs <- coef(nlslog)
log(coefs["a"]/coefs["c"])/coefs["z"]
```
(ref:SobLLorFig) Ajustement des modèle de Michaelis-Menten (trait plein) et de de Soberón et Llorente (pointillés longs: modèle exponentiel négatif; pointillés courts: modèle à trois paramètres) aux données de BCI. Les cercles représentent le nombre d'espèces cumulées en fonction du nombre d'arbres. Le modèle exponentiel négatif (Holdridge) sous-estime la richesse, plus que celui de Michaelis-Menten (Clench). Le modèle à trois paramètres s'ajuste mieux aux données, mais il surestime probablement la richesse.
```{r SobLLorFig, echo=FALSE, results='hide', ref.label='SobLLor', fig.cap="(ref:SobLLorFig)"}
```
L'estimation est cette fois supérieure à celle du jackknife (`r round(SPECIES::jackknife(entropart::AbdFreqCount(Ns, CheckArguments=FALSE))$Nhat, 0)` espèces).
La figure \@ref(fig:SobLLorFig) présente les deux ajustements de modèle de Soberón et Llorente avec celui de Clench.
L'estimation de la richesse par extrapolation est plus incertaine que par les méthodes non paramétriques.
Elle est très peu utilisée.
Le code R nécessaire pour réaliser la figure est:
```{r SobLLor, eval=FALSE, tidy=FALSE}
x <- seq(from = 0, to = max(nArbres), length = 255)
NewData <- list(nArbres = x)
ggplot(data.frame(x,
MM = predict(nlsfit, newdata = NewData),
Holdridge = predict(nlsexp, newdata = NewData),
Soberon = predict(nlslog, newdata = NewData)),
aes(x)) +
geom_point(aes(nArbres, nEspeces), data.frame(nArbres, nEspeces)) +
geom_line(aes(y = MM)) +
geom_line(aes(y = Holdridge), lty = 2) +
geom_line(aes(y = Soberon), lty = 3) +
labs(x = "Nombre d'arbres", y = "Nombre d'espèces")
```
### Diversité générique
La détermination des genres est plus facile et fiable que celle des espèces, le biais d'échantillonnage moins sensible (le nombre de singletons diminue rapidement en regroupant les données), et les coûts d'inventaire sont généralement largement réduits [@Balmford1996b].
Le choix d'estimer la diversité de taxons de rang supérieur (genres ou même familles au lieu des espèces) est envisageable [@Williams1994].
Empiriquement, la corrélation entre la richesse générique et la richesse spécifique (des angiospermes, des oiseaux et des mammifères) est bonne en forêt tropicale [@Balmford1996a], suffisante pour comparer les communautés, même si la prédiction de la richesse spécifique à partir de la richesse générique est très imprécise.
@Cartozo2008 ont montré que le nombre de taxons de niveau supérieur (genre par rapport aux espèces, ordres par rapport aux sous-ordres) est universellement proportionnel au nombre de taxons du niveau immédiatement inférieur à la puissance 0,61. Cette relation est validée à l'échelle mondiale pour les systèmes végétaux. La loi de puissance reste valide pour des assemblages aléatoires, c'est donc la conséquence de propriétés mathématiques [@Caldarelli2002], mais la puissance de la relation est plus élevée (les communautés réelles sont plus agrégées du point de vue phylogénétique que sous l'hypothèse nulle d'un assemblage aléatoire) et varie entre les niveaux.
### Combien y a-t-il d'espèces différentes sur Terre?
La question de l'estimation du nombre total d'espèces génère une abondante littérature.
@Mora2011 en font une revue et proposent une méthode nouvelle.
Dans chaque règne, le nombre de taxons de niveaux supérieurs (phylums, classes, ordres, familles et même genres) est estimé par des modèles prolongeant jusqu'à leur asymptote les valeurs connues en fonction du temps.
Cette méthode est applicable jusqu'au niveau du genre (figure \@ref(fig:Mora2011), A à E).
Le nombre de taxon de chaque niveau est lié à celui du niveau précédent, ce qui est représenté par la figure \@ref(fig:Mora2011), G [@Mora2011, figure 1] sous la forme du relation linéaire entre le logarithme du logarithme du nombre de taxons et le rang (1 pour les phylums, 5 pour les genres).
La droite est prolongée jusqu'au rang 6 pour obtenir le nombre d'espèces.
Une façon alternative de décrire la méthode est de dire que le nombre de taxons du niveau $n+1$ est égal à celui du niveau $n$ à la puissance $k$.
La pente de la droite de la figure est $\ln{k}$.
Aucune justification de ce résultat majeur n'est donnée par les auteurs, si ce n'est leur vérification empirique.
Le nombre total d'espèces estimé est 8,7 millions, tous règnes confondus, dans la fourchette des estimations précédentes (de 3 à 100 millions), et nécessitant près de 500 ans d'inventaires au rythme actuel des découvertes [@May2011].
(ref:Mora2011) Évolution du nombre de taxons connus en fonction du temps et valeur estimée du nombre total (ligne horizontale grise, A à E). Le nombre d'espèces connues est trop faible pour utiliser cette méthode (F). Il est obtenu par extrapolation de la relation du nombre de taxons d'un niveau à celui du niveau supérieur (G).
```{r Mora2011, fig.cap="(ref:Mora2011)", echo=FALSE}
knitr::include_graphics('images/Mora2011.png')
```
En se limitant aux arbres, l'estimation se monte à 16000 espèces pour l'Amazonie [@TerSteege2013], de l'ordre de 5000 pour l'Afrique et entre 40000 et 53000 pour l'ensemble des tropiques [@Slik2015] (donc pour l'ensemble de la planète, le nombre d'espèces non-tropicales étant négligeable).
Ces estimations sont obtenues par extrapolation du modèle en log-séries (chapitre \@ref(chap-Fisher)) et sont sujettes au paradoxe de Fisher: les espèces représentées par un très petit nombre d'individu dans le modèle, notamment les singletons, sont les plus nombreuses.
Une discussion approfondie est donnée par @Hubbell2015: les espèces récemment apparues au sens du modèle ne sont pas détectables avant plusieurs générations, créant un décalage entre le nombre d'espèces reconnues par la taxonomie et le modèle.
@Wilson2012 compilent les relevés du nombre d'espèces de plantes vasculaires en fonction de la surface et retiennent uniquement les plus riches à chaque échelle spatiale (du millimètre carré à l'hectare).
Ces relevés sont tous situés en forêt tropicale ou en prairie tempérée gérée (les perturbations régulières et modérées y favorisent la diversité, conformément à la théorie de la perturbation intermédiaire [@Connell1978]).
La relation entre le nombre d'espèces et la surface est celle d'Arrhenius.
Son extrapolation à la surface terrestre donne environ 220000 espèces, comparables à l'estimation de 275000 espèces rapportée par Mora et al.
## Indice de Simpson
### Définition
On note $p_s$ la probabilité qu'un individu tiré au hasard appartienne à l'espèce $s$.
L'indice de @Simpson1949, ou Gini-Simpson, est
\begin{equation}
(\#eq:SimpsonE)
E =1-\sum^{S}_{s=1}{p^2_s}.
\end{equation}
Il peut être interprété comme la probabilité que deux individus tirés au hasard soient d'espèces différentes.
Il est compris dans l'intervalle $\left[0;1\right[$.
Sa valeur diminue avec la régularité de la distribution: $E=0$ si une seule espèce a une probabilité de 1, $E=1-{1}/{S}$ si les $S$ espèces ont la même probabilité $p_s={1}/{S}$.
La valeur 1 est atteinte pour un nombre infini d'espèces, de probabilités nulles.
Deux autres formes de l'indice sont utilisées.
Tout d'abord, la probabilité que deux individus soient de la même espèce, souvent appelée *indice de concentration de Simpson*, qui est celui défini dans l'article original de Simpson:
\begin{equation}
(\#eq:SimpsonD)
D =\sum^{S}_{s=1}{p^2_s}.
\end{equation}
L'indice de Simpson est parfois considéré comme une mesure d'équitabilité [@Olszewski2004] mais il varie avec la richesse: cette approche est donc erronnée.
@Hurlbert1971 l'a divisé par sa valeur maximale $1-{1}/{S}$ pour obtenir une mesure d'équitabilité valide généralisée plus tard par @Mendes2008, voir section \@ref(sec-Mendes).
Le nombre d'espèces doit être estimé par les méthodes présentées plus haut, pour ne pas dépendre de la taille de l'échantillon.
L'estimateur du maximum de vraisemblance de l'indice est
\begin{equation}
(\#eq:EstEML)
\hat{E} = 1-\sum^{s^{n}_{\ne 0}}_{s=1}{\hat{p}^2_s}.
\end{equation}
Le calcul de l'indice de Simpson peut se faire avec la fonction `diversity` disponible dans le package *vegan* de R ou avec la fonction `Simpson` du package *entropart*:
```{r Simpson}
data(BCI)
# as.ProbaVector() transforme les abondances en probabilités
Ps <- as.ProbaVector(colSums(BCI))
Simpson(Ps)
```
Un historique de la définition de l'indice, de @Gini1912 à Simpson, inspiré par Turing, est fourni par Ellerman [-@Ellerman2013].
### Estimation
Définissons l'indicatrice ${{\mathbf 1}}_{sh}$ valant 1 si l'individu $h$ appartient à l'espèce $s$, 0 sinon.
${{\mathbf 1}}_{sh}$ suit une loi de Bernoulli d'espérance $p_s$ et de variance $p_s\left(1-p_s\right)$.
$E$ est la somme sur toutes les espèces de cette variance.
Un estimateur non biaisé d'une variance à partir d'un échantillon est la somme des écarts quadratiques divisée par le nombre d'observation moins une.
L'estimateur $\hat{E}$ est légèrement biaisé parce qu'il est calculé à partir des ${\hat{p}}_s$, ce qui revient à diviser la somme des écarts par $n$, et non $n-1$.
Un estimateur non biaisé est [@Good1953; @Lande1996]
\begin{equation}
(\#eq:BiaisSimpson)
\tilde{E} = \left(\frac{n}{n-1}\right)\left(1-\sum^{s^{n}_{\ne 0}}_{s=1}{{\hat{p}}^2_s}\right).
\end{equation}
La correction par ${n}/{\left(n-1\right)}$ tend rapidement vers 1 quand la taille de l'échantillon augmente: l'estimateur est très peu biaisé.
Le non-échantillonnage des espèces rares est pris en compte dans cette correction parce qu'elle considère que $\tilde{E}$ est l'estimateur de variance d'un échantillon et non d'une population complètement connue.
Il est négligeable: si $p_s$ est petit, $p^2_s$ est négligeable dans la somme.
Simpson a fourni un estimateur non biaisé de $D$, à partir du calcul du nombre de paires d'individus tirés sans remise:
\begin{equation}
(\#eq:EstSimpson1949)
\tilde{D} = \frac{\sum^{S}_{s=1}{n_s\left(n_s -1\right)}}{n\left(n-1\right)}.
\end{equation}
L'argumentation est totalement différente, mais le résultat est le même: $\tilde{E}=1-\tilde{D}$.
La fonction `Simpson` de *entropart* accepte comme argument un vecteur d'abondances et propose par défaut la correction de Lande:
```{r Simpsonetntropart}
Simpson(colSums(BCI))
```
## Indice de Shannon
### Définition
L'indice de Shannon [@Shannon1948; @Shannon1963], aussi appelé indice de Shannon-Weaver ou Shannon-Wiener [@Spellerberg2003], ou simplement *entropie* est dérivé de la théorie de l'information:
\begin{equation}
(\#eq:Shannon)
H = -\sum^S_{s=1}{p_s\ln{p_s}}.
\end{equation}
Considérons une placette forestière contenant $S$ espèces végétales différentes.
La probabilité qu'une plante choisie au hasard appartienne à l'espèce $s$ est notée $p_s$.
On prélève $n$ plantes, et on enregistre la liste ordonnée des espèces des $n$ plantes.
Si $n$ est suffisamment grand, le nombre de plantes de l'espèce $s$ est $np_s$.
On note $L$ le nombre de listes respectant ces conditions:
\begin{equation}
(\#eq:ShannonL)
L = \frac{n!}{\prod^S_{i=1}{\left({np}_s\right)!}}.
\end{equation}
Ce résultat est obtenu en calculant le nombre de positions possibles dans la liste pour les individus de la première espèce: $\binom{n}{np_1}$.
Le nombre de positions pour la deuxième espèce est $\binom{n-np_1}{np_2}$.
Pour la $S$-ième espèce, le nombre est $\binom{n-np_1-\dots -np_{s-1}}{np_i}$.
Les produits de combinaisons se simplifient pour donner l'équation \@ref(eq:ShannonL).
On peut maintenant écrire le logarithme de $L$:
$$\ln{L}=\ln{n!}-\sum^S_{s=1}{\ln{np_s}!}.$$
On utilise l'approximation de Stirling,
$$\ln{n!}\approx n\ln{n}-n,$$
pour obtenir après simplifications:
\begin{equation}
(\#eq:ShannonlnL)
\ln{L} = -n\sum^S_{s=1}{p_s \ln{p_s}}.
\end{equation}
$H=(\ln{L})/{n}$ est l'indice de Shannon.
Ce résultat est connu sous le nom de formule de @Brillouin1962.
À l'origine, Shannon a utilisé un logarithme de base 2 pour que $H$ soit le nombre moyen de questions binaires (réponse oui ou non) nécessaire pour identifier l'espèce d'une plante (un caractère utilisé dans une chaîne dans le contexte du travail de Shannon).
Les logarithmes naturels, de base 2 ou 10 ont été utilisés par la suite [@Pielou1966a].
La formule \@ref(eq:ShannonlnL) est celle de l'indice de @Theil1967, présenté en détail par @Conceicao2000, à l'origine utilisé pour mesurer les inégalités de revenu puis pour caractériser les structures spatiales en économie.
L'indice est proportionnel au nombre de plantes choisies, on peut donc le diviser par $n$ et on obtient l'indice de biodiversité de Shannon.
Ces indices ont été définis en choisissant des lettres au hasard pour former des chaînes de caractères.
Leur valeur est le nombre de chaînes de caractères différentes que l'on peut obtenir avec l'ensemble des lettres disponibles, c'est-à-dire la quantité d'information contenue dans l'ensemble des lettres.
L'indice de Shannon donne une mesure de la biodiversité en tant que quantité d'information.
L'estimateur du maximum de vraisemblance de l'indice est
\begin{equation}
(\#eq:EstShannonML)
\hat{H} = -\sum^{s^{n}_{\ne 0}}_{s=1}{\hat{p}_s \ln{\hat{p}_s}}.
\end{equation}
Le calcul de l'indice de Shannon peut se faire avec la fonction `diversity` disponible dans le package *vegan* de R ou avec la fonction `Shannon` de *entropart*:
```{r Shannon}
Ps <- as.ProbaVector(colSums(BCI))
Shannon(Ps)
```
La distribution de l'estimateur est connue [@Hutcheson1970] mais elle est inutile en pratique à cause du biais d'estimation.
@Bulmer1974 établit une relation entre l'indice de Shannon et l'indice $\alpha$ de Fisher, à condition que la distribution de l'abondance des espèces soit log-normale:
\begin{equation}
(\#eq:Bulmer1974)
\hat{H} = \mathrm{\Psi}\left(\hat{\alpha}+1\right) - \mathrm{\Psi}\left(1\right).
\end{equation}
$\mathrm{\Psi}(\cdot)$ est la fonction digamma, et $\hat{\alpha}$ est l'estimateur de l'indice de Fisher \@ref(eq:AlphaFisher):
```{r Bulmer}
digamma(fisher.alpha(colSums(BCI))+1)-digamma(1)
```
La sous-estimation est assez sévère sur cet exemple.
### Estimation {#sec-BiaisShannon}
@Basharin1959 a montré que l'estimateur de l'indice de Shannon était biaisé parce que des espèces ne sont pas échantillonnées.
Si $S$ est le nombre d'espèces réel et $n$ le nombre d'individus échantillonnés, le biais est
\begin{equation}
(\#eq:Basharin1959)
\mathbb{E}\left(\hat{H}\right)-H =-\frac{S-1}{2n} + O\left(n^{-2}\right).
\end{equation}
$O\left(n^{-2}\right)$ est un terme négligeable.
La valeur estimée à partir des données est donc trop faible, d'autant plus que le nombre d'espèces total est grand mais d'autant moins que l'échantillonnage est important.
Comme le nombre d'espèces $S$ n'est pas observable, le biais réel est inconnu.
L'estimateur de Miller-Madow [@Miller1955] utilise l'information disponible, en sous-estimant le nombre d'espèces et donc l'entropie:
\begin{equation}