Aller au contenu principal

Quelques statistiques sur theses.fr

27/10/2014

Résumé :

En m’intéressant à l’évolution de certains sujets dans theses.fr (afin de voir à quels moments la recherche française, à travers ses thésards, s’y intéressaient), j’ai été frappé par l’augmentation forte de n’importe quel sujet cherché, sur les dernières années (2005-2012). Après avoir balayé plusieurs hypothèses, j’en viens à la conclusion que le facteur essentiel est la qualité et la richesse de l’indexation des thèses : le nombre de caractères dans les zones d’indexation a été multiplié par 4 entre 1987 et 2012, et par 2 pour les résumés.
Ces constatations m’amènent à 2 remarques essentielles :

  • elles remettent à l’honneur l’indexation manuelle : en effet, en particulier avec les pratiques amenées à s’étendre de data mining, si un chercheur veut « faire parler » theses.fr pour y étudier les modes de la recherche française, il risque de se fourvoyer complètement si l’ensemble du corpus n’est pas décrit d’une manière un peu homogène.
  • elles invitent à alerter les doctorants quand ils viendront déposer leur thèse : il y a 20 ans, un résumé servait à rendre compte en un texte court du contenu de la thèse, ou tout au moins du sujet de recherche. Aujourd’hui, un résumé doit permettre à la thèse de « ressortir » lors d’une requête. Les mots utilisés doivent donc être bien pesés, voire même, si possible, redondants (afin d’envisager toutes les stratégies de recherche d’un internaute dont les centres d’intérêts rejoindraient ceux de la thèse déposée)

En voulant faire quelques extractions de notices de la base theses.fr, j’ai découvert que, quelque soit le sujet de la recherche, la répartition du nombre de thèses par an donne toujours quelque chose comme ceci, avec une croissance à partir de ~2000 et un pic en 2012 :

Nb de theses par an pour 3 recherches sujets

Je ne m’étonne pas plus que ça de la retombée en 2013 et 2014 : les thèses soutenues ces années-là n’ont pas fini d’être traitées (et pour 2014, toutes n’ont évidemment pas encore été soutenues).

Mais ce qui m’étonne, c’est l’écart systématiquement énorme entre le nombre de thèses obtenu pour 1985 et le nombre de thèses pour 2012 suite à ces requêtes.

Comme mon objectif initial est d’avoir une idée de la « mode » de certains sujets parmi les thésards, il importe de savoir si la base globale au départ risque de renvoyer des résultats « viciés » par certains phénomènes.

Pour expliquer les courbes ci-dessus, j’ai envisagé plusieurs hypothèses. Elles sont peut-être cumulées.

En fait, il peut y avoir des variations sur toutes les étapes de la chaîne.

  1. Augmentation du nombre de thésards
  2. Augmentation du nombre de dépôts
  3. Augmentation du nombre de signalements dans le Sudoc (et donc dans theses.fr)
  4. Augmentation du nombre de réponses pour toute requête dans theses.fr

1. Augmentation du nombre de thésards

Il est vraisemblable a priori que le nombre de thésards (titulaires d’un doctorat) s’est accru en 30 ans, pour les raisons suivantes (et sans doute quelques autres aussi) :

  • 1984 : passage du doctorat d’Etat à la thèse de 3e cycle, plus courte (en nombre d’années au moins)
    Il a fallu quelques années pour que l’esprit de cette nouvelle thèse s’applique réellement (et éviter les demandes systématiques de prolongation de la thèse). Cela a pu entraîner notamment un taux d’abandon moindre.
  • Augmentation de la population française (56 millions en 1984, 65 millions en 2012)
  • Augmentation de la population universitaire
    Les études supérieures se sont très fortement généralisées au sortir du lycée, avec la conjonction de la crise économique (sortie des Trente Glorieuses), l’augmentation du taux de réussite au bac et toujours l’absence de sélection pour l’accès aux études universitaires.

Pour connaître l’évolution du nombre de thésards, je me suis spontanément tourné vers PAPESR (dont j’ai déjà parlé). Mais celui-ci ne fournit de données sur le nombre de diplômes de doctorat délivrés que pour 2005-2011. Source insuffisante.

Avant d’avoir eu besoin d’aller plus loin, je suis tombé sur ce tweet

Evolution du nombre de doctorats entre 2000-2001 et 2011-2012

On passerait de 8000 doctorants en 2001, à 12000 en 2012. Ce qui fait une augmentation de 50%.

C’est loin d’être négligeable, mais ça reste insuffisant pour expliquer l’évolution constatée dans mes courbes ci-dessus.

Je passe donc aux hypothèses suivantes

2. Augmentation du nombre de dépôts

Il est possible que l’écart soit aujourd’hui moins grand entre le nombre de thèses soutenues et le nombre de thèses déposées dans les bibliothèques.

Théoriquement, toute thèse soutenue est déposée à la bibliothèque. Mais l’informatisation nous permet de relever aujourd’hui des écarts de chiffres, qui nous amènent à courir après certains doctorants. Je suppose donc que quand cet écart n’était pas automatiquement produit par les outils de suivi de dépôt, certains dépôts ont été oubliés…

Il me semble difficile d’identifier nationalement ce que représenterait un tel écart, d’autant plus que ce paramètre peut se conjuguer avec le suivant, et que les données sont par nature inquantifiables aisément (on ne pourra les quantifier que quand on les aura intégralement résorbées…).

3. Evolution du nombre de signalements dans le Sudoc

L’hypothèse est la suivante : des thèses sont bel et bien déposées dans les bibliothèques, mais non encore décrites dans le Sudoc (et donc absentes de theses.fr)

Il est évidemment difficile de savoir s’il y a beaucoup de collections de thèses postérieures à 1985 qui dorment, non signalées, dans nos bibliothèques. Ce pourrait être minime. Mais dans ses appels à projets de rétroconversion, l’Abes encourage particulièrement le signalement des thèses. Donc ce n’est pas si négligeable qu’il faille encore une politique incitative nationale là-dessus…

En tout cas, voici le nombre de thèses signalées dans theses.fr, par année de soutenance
(les années antérieures à 1985 sont évidemment des erreurs de saisie)

Année Nombre de thèses signalées dans theses.fr
1970 2
1971 1
1972 1
1973 0
1974 2
1975 1
1976 0
1977 3
1978 0
1979 7
1980 4
1981 1
1982 0
1983 3
1984 4
1985 285
1986 1973
1987 5879
1988 9486
1989 9764
1990 9496
1991 9528
1992 10459
1993 10920
1994 11861
1995 9012
1996 9466
1997 9958
1998 9522
1999 9572
2000 9268
2001 7747
2002 8314
2003 18430
2004 9663
2005 10037
2006 10345
2007 10989
2008 11241
2009 11230
2010 11031
2011 11254
2012 11455
2013 8629
2014 926

Le graphique de répartition du tableau ci-dessus est assez différent de ceux obtenus suite à une recherche sujet (j’évacue les années 1970-1984).

Nombre de thèses soutenues par an (1985-2014) dans theses.fr

Nombre de thèses soutenues par an (1985-2014) dans theses.fr

Ca reste entre 8000 et 12000 thèses par an, avec un pic en 2003 que je n’arrive pas à expliquer. Quand on regarde un peu dans le détail, on constate qu’effectivement, entre 2002 et 2003, il y a pour chaque établissement ou presque à peu près le double de thèses soutenues. Voici les chiffres (2002-2003) pour les 20 établissements comptant le plus de thésards en 2003.

Etablissement 2002 2003
Paris 6 552 1160
Paris 7 271 659
Paris 11 23 606
Toulouse 3 220 494
Grenoble 1 252 488
Lyon 1 208 481
Paris 1 298 467
Paris 4 215 448
Paris 10 186 353
Nice 180 349
Nantes 149 335
Poitiers 143 315
Rennes 1 135 311
Paris, EHESS 94 308
Paris 8 140 304
Paris 3 118 299
École vétérinaire de Maisons-Alfort 194 292
Grenoble, INPG 166 276
Bordeaux 1 151 262
Paris 5 103 261

Si quelqu’un a une explication à proposer ?

Quoi qu’il en soit, le nombre global annuel de thèses dans theses.fr n’augmente pas de manière aussi importante que lorsqu’on limite la liste des résultats aux thèses contenant un ou plusieurs mots-clés recherchés

4. Evolution du nombre de réponses dans theses.fr

Il semble donc que la réponse la plus probable soit à chercher dans la manière dont theses.fr répond aux requêtes. Plus exactement, à la richesse des notices en mots-clés. Il se pourrait en effet que les thèses aujourd’hui déposées ont des résumés et une indexation plus riches. Du coup, les notices de 2012 sortent plus fréquemment que celles de 1985, pour des raisons purement « mathématiques » (elles contiennent plus de mots).

Pour cela, il faut comparer :

  • d’un côté, le nombre total de thèses, par an, déposé dans theses.fr
  • de l’autre, le nombre de thèses, par an, pour un ensemble de requêtes données
    et voir si l’évolution est (proportionnellement) la même pour ces 2 séries (1er cas : toute la base ; 2e cas : des échantillons)

On voit bien que la courbe de l’ensemble des thèses (série 1) ne correspond pas du tout aux requêtes Sujet.

Voyons sur 2 recherches plus larges : « Paris » et « même » (mots dont je suppose qu’ils doivent être particulièrement fréquents) :

 

Paris meme
1985 : 67
1986 : 880
1987 : 2316
1988 : 2188
1989 : 2139
1990 : 2247
1991 : 2405
1992 : 2704
1993 : 2884
1994 : 3345
1995 : 3308
1996 : 3269
1997 : 3437
1998 : 3168
1999 : 3227
2000 : 3217
2001 : 2874
2002 : 3002
2003 : 6590
2004 : 3372
2005 : 3439
2006 : 3512
2007 : 3773
2008 : 4314
2009 : 4701
2010 : 5188
2011 : 6354
2012 : 6676
2013 : 5494
2014 : 719
1985 : 10
1986 : 295
1987 : 491
1988 : 331
1989 : 583
1990 : 747
1991 : 961
1992 : 968
1993 : 1067
1994 : 1362
1995 : 1332
1996 : 1540
1997 : 1781
1998 : 1733
1999 : 1663
2000 : 1590
2001 : 1122
2002 : 1048
2003 : 2222
2004 : 1189
2005 : 1335
2006 : 1465
2007 : 1651
2008 : 1921
2009 : 2170
2010 : 2321
2011 : 2793
2012 : 3026
2013 : 2273
2014 : 259

On constate que si les courbes de ces 2 séries augmentent davantage que celle de la série générale, la différence est moins forte que celle constatée avec des recherches plus ciblées (comme l’étaient « quantique » ou « héraldique »).

J’ai entrepris une recherche plus systématique :

Pour chaque année, j’ai récupéré les 1000 premières thèses renvoyées par theses.fr, et j’ai comptabilisé pour chaque thèse le nombre de caractères

  • dans les titres
  • dans les résumés
  • dans l’indexation

Comme les titres, les résumés et les mots-clés ont des ordres de grandeur (en longueur de texte) très différents, j’ai tout ramené à l’indice 100 pour l’année 1987 (vraie année de « démarrage » des thèses nouveau régime, 3 ans après leur mise en place).

[afficher les données brutes]

thesesfr - nombre de caractères dans les titres résumés indexation

L’indexation matière est multipliée par 4. Depuis 2009, plus de 99,5% des thèses ont une indexation matière.

La taille des résumés est multipliée par 2. Plus exactement, il y a 2 fois plus de thèses pourvues d’un résumé. Il apparaît toutefois que l’indexation a un rôle bien plus fort dans les réponses aux requêtes – du moins celles que j’ai faites, sur des mots simples : il est vraisemblable que certaines questions bien plus pointues ne feraient pas l’objet d’une entrée Rameau, pour lesquels les résumés et mots-clés fournis par le thésard viennent donc suppléer.

Précision : pour les « mots-clés », j’ai récupéré du flux XML de theses.fr le champ <dc:subject/>, qui mêle manifestement l’indexation Rameau et les mots-clés fournis par le déposant.