Blog • L’analyse textuelle et les Balkans : un possible outil de recherche

|

Une esquisse de confrontation effectuée sur la base des techniques de l’analyse textuelle de deux ouvrages de Jean-Arnault Dérens, respectivement en collaboration avec Catherine Samary et Laurent Geslin, pourrait recéler des indications intéressantes.

Les deux livres en question sont Les Balkans en 100 questions. Carrefour sous influences, écrit avec Laurent Geslin et publié en 2023 [1], et Les conflits yougoslaves de A à Z  dont le sous-titre qui apparaît uniquement sur la couverture cachée sous la jaquette est « Les 100 portes des conflits yougoslaves », écrit avec Catherine Samary et publié en l’an 2000 [2].

L’analyse textuelle est un ensemble de techniques en constante évolution qui convertit les mots en chiffres et utilise des statistiques lexicométriques pour extraire des informations cachées dans les textes (connue sous le nom de « fouille de texte et de données » Les mots peuvent être transformés en chiffres, mais aussi à partir des chiffres on peut revenir aux mots, dans un parcours d’analyse qui part dans les deux directions. En parlant de chiffres, déjà à partir de la confrontation des sous-titres, où le chiffre 100 revient, on peut bien en déduire que les nombres sont pour cause des indicateurs de renseignements utiles.

Certes, il y a des auteurs qui se prêtent mieux à ce genre d’analyse. On peut citer à ce sujet Nicolas Ragonneau, auteur d’un livre d’infographique sur Marcel Proust, et qui écrivait : « la monumentalité de Proust se prête à la comptabilité, aux bilans, à la mesure des occurrences, à l’établissement de records, aux représentations graphiques du Temps, de l’Espace et des Nombres » [3], sans aller jusqu’à effectuer une analyse complète, la simple confrontation des intitulés des chapitres des deux livres et quelques simples calculs peuvent nous aider à détecter des approches et à récupérer quelques suggestions sur les contenus des deux ouvrages.

Une possible approche d’analyse textuelle aux contenus

Les deux livres sont proposés comme des œuvres de référence. Les contenus sont rubriqués sous forme alphabétique (124 entrées) dans l’un et numérotée de 1 à 100 dans l’autre. L’approche est avant tout historique et le contenu est l’histoire des pays et des peuples des Balkans et les manifestations de l’histoire en termes de : expérimentations, modèles, guerres, influences de la Communauté internationale, économie, culture, société, moyens de communication. La seule différence dans le contenu des deux ouvrages est l’introduction du thème de l’environnement dans le livre plus récent et sa mise à jour jusqu’à la veille de la guerre en Ukraine.

Les contenus communs se reflètent dans le recours aux mêmes mots, il s’agit là de cooccurrences, le fait que des mots soient présents dans plusieurs textes crée des liaisons entre les textes. Et encore ils peuvent se présenter dans des phares où ils seraient accompagnés par d’autres mots, ou des corrélations, phénomène lui aussi riche de signifiants.

Jean-Arnault Dérens et Laurent Geslin, Éditions Tallandier, Paris, 2023, 352 pages, 19,90 euros

  • Prix : 19,90 
  • En savoir +

Dérens écrivait dans la première œuvre citée de l’an 2000 que l’une des difficultés de toute analyse historique est de déterminer le bon « espace-temps » permettant de mettre en lumière les « données significatives » rendant l’enchaînement des faits intelligible. Sous la loupe de l’analyse textuelle il est désormais possible de trouver la meilleure « fenêtre de contexte » pour extraire les mots ou les données utiles à tout type de recherche.

L’analyse textuelle vise, en transformant les mots en chiffres, de trouver des preuves numériques, ou les données textuelles mesurées de quelque sorte, valables pour soutenir certaines théories et hypothèses de recherche. Certes, pour faire cela, il faut un bon nombre de statistiques aidant à donner une idée plus précise des évolutions dans le temps pour y piocher d’éventuelles courantes. Toujours citant Dérens dans la même œuvre, « […] il faudrait pourtant parvenir à intégrer dans une vision d’ensemble ces réalités partielles, en prenant le recul et en choisissant l’éclairage adéquat ». Cela est maintenant possible en utilisant des grands corpus collectant plusieurs textes qui, travaillés de façon automatisée, peuvent déceler des nombreuses informations, ces renseignements une fois fournis aux chercheurs pourraient être interprétés afin de découvrir des nouveaux aperçus ou suggérer des nouvelles pistes de recherche.

L’analyse textuelle permet également d’extraire des informations des textes en identifiant les mots les plus significatifs pour désigner par exemple des entités nommées telles que des personnes (des noms de famille), des peuples (des noms de nations), des noms géographiques (des lieux), des dates et des événements historiques. Sans aller par quatre chemins en empruntant des outils de reconnaissance automatique des entités nommées, il suffirait dans le cas du premier ouvrage de faire quelque calcul simple sur les intitulés des paragraphes pour nous donner déjà une idée des contenus. 34 noms de sujets ou événements historiques, 22 noms géographiques (pays, villes, nations, régions), 20 noms de personnes (politiciens, écrivains, criminels de guerre), 19 noms liés à la société, la culture et l’économie, 10 noms relevant du droit international, et 6 noms de partis politiques sont répertoriés.

Les techniques utilisées par les linguistes permettent à l’analyse textuelle de fournir des informations en étudiant l’évolution de la langue à partir des catégories grammaticales utilisées dans les textes, en juxtaposant les différentes parties du discours (en anglais « POS, Part of Speech »). Non seulement, l’analyse grammaticale permet de donner des renseignements sur le style des auteurs en arrivant à en reconnaître la paternité dans des écrits anonymes, mais aussi elle peut détecter des particularités dans le style d’écriture C’est intéressant que le deuxième livre soit organisé sous forme de questions auxquelles les auteurs répondent, illustrant l’intention des auteurs de produire un ouvrage de référence qui satisfait et stimule la curiosité des lecteurs.

D’un conflit à l’autre

La confrontation des deux ouvrages révèle clairement la fin du modèle européen et de l’émergence de nouvelles formes de coopération, ce qui n’est perceptible qu’après une lecture classique des deux livres. En l’an 2000, il y avait de l’espoir que ces collaborations pourraient aider à surmonter les limites nationales basées sur des critères ethniques et économiques, mais en 2023, il est évident que la coopération stagne, en particulier avec le lancement manqué en 2018 du projet Open Balkans, le blocage de l’élargissement de l’UE et les incertitudes autour de l’initiative de la Communauté politique européenne.

Cette dernière en particulier, un forum de rencontres entre les pays de l’Union européenne et d’autres pays européens, y compris le Royaume-Uni et la Suisse, pourrait créer un « espace européen » de seconde zone sur le flanc balkanique de l’Union.

Voilà que l’expression « espace européen de seconde zone » prend la place de « l’espace yougoslave » de l’an 2000, un espace qui se voulait au milieu de rencontre entre Orient, Occident, Méditerranée. Finies les coopérations et la confrontation régionales, il paraît qu’en 2023 en Europe il n’y a de la place que pour l’opposition et que plutôt que la rencontre c’est ce le modèle des guerres yougoslave qui se rependent en Europe. D’ailleurs, Dérens et Geslin concluent leur livre de 2023 en affirmant que « les Balkans sont depuis déjà deux siècles au moins, un révélateur de l’Europe ».

Notes

[1Dérens Jean-Arnault, Geslin Laurent, Les Balkans en 100 questions. Carrefour sous influences, Paris, Éditions Tallandier, 2023, 349 pages.

[2Dérens Jean-Arnault, Samary Catherine, Les conflits yougoslaves de A à Z, Paris, Les Éditions de l’Atelier/Éditions Ouvrières, 2000, 427 pages.

[3L’auteur, en se servant des analyses effectuées par des chercheurs d’analyse textuelle (Dominique et Cyril Labbé, du CNRS et Laboratoires PACTE, de l’Université de Grenoble), utilise le texte de « A la recherche du temps perdu », dans l’édition de la Pléiade pour en présenter le contenu sous forme d’infographiques (les mots transformés en chiffres et après les chiffres présentés par des graphiques) dérivés par l’application de différentes techniques d’analyse textuelle. Cfr. Ragonneau Nicolas « Le Proustographe » : Paris : Denoël, 2021, 189 pages, citation page 12.