Quelques statistiques sur theses.fr
Résumé :
En m’intéressant à l’évolution de certains sujets dans theses.fr (afin de voir à quels moments la recherche française, à travers ses thésards, s’y intéressaient), j’ai été frappé par l’augmentation forte de n’importe quel sujet cherché, sur les dernières années (2005-2012). Après avoir balayé plusieurs hypothèses, j’en viens à la conclusion que le facteur essentiel est la qualité et la richesse de l’indexation des thèses : le nombre de caractères dans les zones d’indexation a été multiplié par 4 entre 1987 et 2012, et par 2 pour les résumés.
Ces constatations m’amènent à 2 remarques essentielles :
- elles remettent à l’honneur l’indexation manuelle : en effet, en particulier avec les pratiques amenées à s’étendre de data mining, si un chercheur veut « faire parler » theses.fr pour y étudier les modes de la recherche française, il risque de se fourvoyer complètement si l’ensemble du corpus n’est pas décrit d’une manière un peu homogène.
- elles invitent à alerter les doctorants quand ils viendront déposer leur thèse : il y a 20 ans, un résumé servait à rendre compte en un texte court du contenu de la thèse, ou tout au moins du sujet de recherche. Aujourd’hui, un résumé doit permettre à la thèse de « ressortir » lors d’une requête. Les mots utilisés doivent donc être bien pesés, voire même, si possible, redondants (afin d’envisager toutes les stratégies de recherche d’un internaute dont les centres d’intérêts rejoindraient ceux de la thèse déposée)
En voulant faire quelques extractions de notices de la base theses.fr, j’ai découvert que, quelque soit le sujet de la recherche, la répartition du nombre de thèses par an donne toujours quelque chose comme ceci, avec une croissance à partir de ~2000 et un pic en 2012 :
Je ne m’étonne pas plus que ça de la retombée en 2013 et 2014 : les thèses soutenues ces années-là n’ont pas fini d’être traitées (et pour 2014, toutes n’ont évidemment pas encore été soutenues).
Mais ce qui m’étonne, c’est l’écart systématiquement énorme entre le nombre de thèses obtenu pour 1985 et le nombre de thèses pour 2012 suite à ces requêtes.
Comme mon objectif initial est d’avoir une idée de la « mode » de certains sujets parmi les thésards, il importe de savoir si la base globale au départ risque de renvoyer des résultats « viciés » par certains phénomènes.
Pour expliquer les courbes ci-dessus, j’ai envisagé plusieurs hypothèses. Elles sont peut-être cumulées.
En fait, il peut y avoir des variations sur toutes les étapes de la chaîne.
- Augmentation du nombre de thésards
- Augmentation du nombre de dépôts
- Augmentation du nombre de signalements dans le Sudoc (et donc dans theses.fr)
- Augmentation du nombre de réponses pour toute requête dans theses.fr
1. Augmentation du nombre de thésards
Il est vraisemblable a priori que le nombre de thésards (titulaires d’un doctorat) s’est accru en 30 ans, pour les raisons suivantes (et sans doute quelques autres aussi) :
- 1984 : passage du doctorat d’Etat à la thèse de 3e cycle, plus courte (en nombre d’années au moins)
Il a fallu quelques années pour que l’esprit de cette nouvelle thèse s’applique réellement (et éviter les demandes systématiques de prolongation de la thèse). Cela a pu entraîner notamment un taux d’abandon moindre. - Augmentation de la population française (56 millions en 1984, 65 millions en 2012)
- Augmentation de la population universitaire
Les études supérieures se sont très fortement généralisées au sortir du lycée, avec la conjonction de la crise économique (sortie des Trente Glorieuses), l’augmentation du taux de réussite au bac et toujours l’absence de sélection pour l’accès aux études universitaires.
Pour connaître l’évolution du nombre de thésards, je me suis spontanément tourné vers PAPESR (dont j’ai déjà parlé). Mais celui-ci ne fournit de données sur le nombre de diplômes de doctorat délivrés que pour 2005-2011. Source insuffisante.
Avant d’avoir eu besoin d’aller plus loin, je suis tombé sur ce tweet
On passerait de 8000 doctorants en 2001, à 12000 en 2012. Ce qui fait une augmentation de 50%.
C’est loin d’être négligeable, mais ça reste insuffisant pour expliquer l’évolution constatée dans mes courbes ci-dessus.
Je passe donc aux hypothèses suivantes
2. Augmentation du nombre de dépôts
Il est possible que l’écart soit aujourd’hui moins grand entre le nombre de thèses soutenues et le nombre de thèses déposées dans les bibliothèques.
Théoriquement, toute thèse soutenue est déposée à la bibliothèque. Mais l’informatisation nous permet de relever aujourd’hui des écarts de chiffres, qui nous amènent à courir après certains doctorants. Je suppose donc que quand cet écart n’était pas automatiquement produit par les outils de suivi de dépôt, certains dépôts ont été oubliés…
Il me semble difficile d’identifier nationalement ce que représenterait un tel écart, d’autant plus que ce paramètre peut se conjuguer avec le suivant, et que les données sont par nature inquantifiables aisément (on ne pourra les quantifier que quand on les aura intégralement résorbées…).
3. Evolution du nombre de signalements dans le Sudoc
L’hypothèse est la suivante : des thèses sont bel et bien déposées dans les bibliothèques, mais non encore décrites dans le Sudoc (et donc absentes de theses.fr)
Il est évidemment difficile de savoir s’il y a beaucoup de collections de thèses postérieures à 1985 qui dorment, non signalées, dans nos bibliothèques. Ce pourrait être minime. Mais dans ses appels à projets de rétroconversion, l’Abes encourage particulièrement le signalement des thèses. Donc ce n’est pas si négligeable qu’il faille encore une politique incitative nationale là-dessus…
En tout cas, voici le nombre de thèses signalées dans theses.fr, par année de soutenance
(les années antérieures à 1985 sont évidemment des erreurs de saisie)
Année | Nombre de thèses signalées dans theses.fr |
1970 | 2 |
1971 | 1 |
1972 | 1 |
1973 | 0 |
1974 | 2 |
1975 | 1 |
1976 | 0 |
1977 | 3 |
1978 | 0 |
1979 | 7 |
1980 | 4 |
1981 | 1 |
1982 | 0 |
1983 | 3 |
1984 | 4 |
1985 | 285 |
1986 | 1973 |
1987 | 5879 |
1988 | 9486 |
1989 | 9764 |
1990 | 9496 |
1991 | 9528 |
1992 | 10459 |
1993 | 10920 |
1994 | 11861 |
1995 | 9012 |
1996 | 9466 |
1997 | 9958 |
1998 | 9522 |
1999 | 9572 |
2000 | 9268 |
2001 | 7747 |
2002 | 8314 |
2003 | 18430 |
2004 | 9663 |
2005 | 10037 |
2006 | 10345 |
2007 | 10989 |
2008 | 11241 |
2009 | 11230 |
2010 | 11031 |
2011 | 11254 |
2012 | 11455 |
2013 | 8629 |
2014 | 926 |
Le graphique de répartition du tableau ci-dessus est assez différent de ceux obtenus suite à une recherche sujet (j’évacue les années 1970-1984).
Ca reste entre 8000 et 12000 thèses par an, avec un pic en 2003 que je n’arrive pas à expliquer. Quand on regarde un peu dans le détail, on constate qu’effectivement, entre 2002 et 2003, il y a pour chaque établissement ou presque à peu près le double de thèses soutenues. Voici les chiffres (2002-2003) pour les 20 établissements comptant le plus de thésards en 2003.
Etablissement | 2002 | 2003 |
Paris 6 | 552 | 1160 |
Paris 7 | 271 | 659 |
Paris 11 | 23 | 606 |
Toulouse 3 | 220 | 494 |
Grenoble 1 | 252 | 488 |
Lyon 1 | 208 | 481 |
Paris 1 | 298 | 467 |
Paris 4 | 215 | 448 |
Paris 10 | 186 | 353 |
Nice | 180 | 349 |
Nantes | 149 | 335 |
Poitiers | 143 | 315 |
Rennes 1 | 135 | 311 |
Paris, EHESS | 94 | 308 |
Paris 8 | 140 | 304 |
Paris 3 | 118 | 299 |
École vétérinaire de Maisons-Alfort | 194 | 292 |
Grenoble, INPG | 166 | 276 |
Bordeaux 1 | 151 | 262 |
Paris 5 | 103 | 261 |
Si quelqu’un a une explication à proposer ?
Quoi qu’il en soit, le nombre global annuel de thèses dans theses.fr n’augmente pas de manière aussi importante que lorsqu’on limite la liste des résultats aux thèses contenant un ou plusieurs mots-clés recherchés
4. Evolution du nombre de réponses dans theses.fr
Il semble donc que la réponse la plus probable soit à chercher dans la manière dont theses.fr répond aux requêtes. Plus exactement, à la richesse des notices en mots-clés. Il se pourrait en effet que les thèses aujourd’hui déposées ont des résumés et une indexation plus riches. Du coup, les notices de 2012 sortent plus fréquemment que celles de 1985, pour des raisons purement « mathématiques » (elles contiennent plus de mots).
Pour cela, il faut comparer :
- d’un côté, le nombre total de thèses, par an, déposé dans theses.fr
- de l’autre, le nombre de thèses, par an, pour un ensemble de requêtes données
et voir si l’évolution est (proportionnellement) la même pour ces 2 séries (1er cas : toute la base ; 2e cas : des échantillons)
On voit bien que la courbe de l’ensemble des thèses (série 1) ne correspond pas du tout aux requêtes Sujet.
Voyons sur 2 recherches plus larges : « Paris » et « même » (mots dont je suppose qu’ils doivent être particulièrement fréquents) :
Paris | meme |
1985 : 67 1986 : 880 1987 : 2316 1988 : 2188 1989 : 2139 1990 : 2247 1991 : 2405 1992 : 2704 1993 : 2884 1994 : 3345 1995 : 3308 1996 : 3269 1997 : 3437 1998 : 3168 1999 : 3227 2000 : 3217 2001 : 2874 2002 : 3002 2003 : 6590 2004 : 3372 2005 : 3439 2006 : 3512 2007 : 3773 2008 : 4314 2009 : 4701 2010 : 5188 2011 : 6354 2012 : 6676 2013 : 5494 2014 : 719 |
1985 : 10 1986 : 295 1987 : 491 1988 : 331 1989 : 583 1990 : 747 1991 : 961 1992 : 968 1993 : 1067 1994 : 1362 1995 : 1332 1996 : 1540 1997 : 1781 1998 : 1733 1999 : 1663 2000 : 1590 2001 : 1122 2002 : 1048 2003 : 2222 2004 : 1189 2005 : 1335 2006 : 1465 2007 : 1651 2008 : 1921 2009 : 2170 2010 : 2321 2011 : 2793 2012 : 3026 2013 : 2273 2014 : 259 |
On constate que si les courbes de ces 2 séries augmentent davantage que celle de la série générale, la différence est moins forte que celle constatée avec des recherches plus ciblées (comme l’étaient « quantique » ou « héraldique »).
J’ai entrepris une recherche plus systématique :
Pour chaque année, j’ai récupéré les 1000 premières thèses renvoyées par theses.fr, et j’ai comptabilisé pour chaque thèse le nombre de caractères
- dans les titres
- dans les résumés
- dans l’indexation
Comme les titres, les résumés et les mots-clés ont des ordres de grandeur (en longueur de texte) très différents, j’ai tout ramené à l’indice 100 pour l’année 1987 (vraie année de « démarrage » des thèses nouveau régime, 3 ans après leur mise en place).
L’indexation matière est multipliée par 4. Depuis 2009, plus de 99,5% des thèses ont une indexation matière.
La taille des résumés est multipliée par 2. Plus exactement, il y a 2 fois plus de thèses pourvues d’un résumé. Il apparaît toutefois que l’indexation a un rôle bien plus fort dans les réponses aux requêtes – du moins celles que j’ai faites, sur des mots simples : il est vraisemblable que certaines questions bien plus pointues ne feraient pas l’objet d’une entrée Rameau, pour lesquels les résumés et mots-clés fournis par le thésard viennent donc suppléer.
Précision : pour les « mots-clés », j’ai récupéré du flux XML de theses.fr le champ <dc:subject/>, qui mêle manifestement l’indexation Rameau et les mots-clés fournis par le déposant.
Trackbacks
Commentaires fermés