Melissa

Boîte à outils

Note sur la méthode Alceste

Mondes sociaux et mondes lexicaux

jeudi 28 novembre 2002, par Gilles Bastin

Cette note a été rédigée pour servir de support à ma présentation d’Alceste le 21 novembre 2002. Merci de l’utiliser avec prudence : elle n’a reçu l’aval d’aucune Église et échouerait sans doute lamentablement à convaincre un utilisateur averti du logiciel de sa vertu. Je la laisse ici à disposition de ceux que mon exposé n’a pas entièrement convertis aux mystères du Khi2.

Le but de cette note est de présenter les grandes lignes de la méthodologie ALCESTE afin de montrer comment le type de statistique construites par ce logiciel peut être particulièrement approprié à une analyse en termes de mondes sociaux. Comme on va le voir, le logiciel ALCESTE conduit en effet à la mise en évidence de " mondes lexicaux " dont le principe d’organisation suppose de considérer le discours comme acte plus que comme production de contenus.

1. Les mondes lexicaux et la logique de l’icône et de l’indice sous ALCESTE

a. Principe général : les analyses de statistique textuelle

La méthode ALCESTE a été développée par Max Reinert dans la lignée des travaux de Benzecri. En 1974 il met en place une méthode de Classification Descendante Hiérarchique (CDH) dont les principes sont proches de l’Analyse Factorielle des Correspondances (AFC) que Benzecri lui-même avait développée pour l’analyse de textes. Cf. le texte d’A. Prost sur les proclamations électorales (Prost, 1974)).

Reinert rapproche sa méthode de celle de la statistique textuelle (Lebart & Salem, 1994) et de l’analyse de dicours (Achard, 1993) mais il se démarque fortement de l’analyse de contenu et d’une approche linguistique des textes, ainsi que de la lexicométrie (Reinert, 1990 ; 1993 ; 1998 ; 2001).

L’analyse de contenu (AC) " se définit comme une technique permettant l’examen méthodique, systématique, objectif et, à l’occasion, quantitatif, du contenu de certains textes en vue d’en classer et d’en interprêter les éléments constitutifs, qui ne sont pas totalement accessibles à la lecture naïve. " (Robert & Bouillaguet, 1997). Le premier grand nom de l’analyse de contenu, c’est Harold D. Lasswell avec ses analyses de propagande politique (Propaganda techniques in the world war, NY, Knopf, 1927 ; (avec N. Leites et al.), Language of politics, Cambridge (Mass.), MIT Press, 1949 ; " L’analyse du contenu et le langage de la politique ", RFSP, 1952). Son " schéma " (qui parle ? qu’est-ce qui est dit ? à qui ? par quel canal ? avec quel effet ?) anticipe cependant sur la pragmatique. Berelson définit l’AC en mettant l’accent sur l’idée de recherche du " contenu manifeste " des textes : " Content analysis is a research technique for the objective, systematic and quantitative description of the manifest content of communication " (Berelson, 1952).

On peut donc faire les critiques suivantes à l’AC : (a) elle est relativement tautologique dans la mesure où elle suppose l’élaboration d’’une grille d’analyse a priori alors que cette grille devrait être le résultat de l’’analyse ; (b) elle repose sur l’idée que le texte analysé a un " contenu manifeste " et que l’on peut accéder à sa signification ; (c) cette vision des choses est solidaire d’’une conception linguistique du signe très saussurienne (le signifié dépend de la grille d’analyse qui produit les catégories d’’analyse) ; (d) elle décontextualise les fragments de textes utilisés pour illustrer les catégories de la grille et elle perd la dimension de l’acte de parole, la référence à la situation d’’énonciation…

Les points (a) et (b) sont très généralement critiqués et toute la statistique textuelle et l’analyse de discours (AD) trouvent des voies plus intéressantes d’entrée dans le texte. Pour ce qui est de la grille, c’est l’utilisation des méthodes statistiques qui permet d’échapper au risque tautologique en laissant à l’ordinateur le soin de procéder au redécoupage du texte et à la découverte des structures sous-jacentes (on maîtrise les techniques qui permettent de faire ça par classification automatique). Pour ce qui est du " contenu manifeste ", l’analyse de discours a rompu - depuis Foucault grosso modo - avec l’idée qu’il s’agirait de comprendre ce qu’un auteur veut dire au profit de l’analyse de " formations discursives " et elle puise davantage aux écoles pragmatiques (l’acte de parole).

"Décrire une formulation en tant qu’énoncé ne consiste pas à analyser les rapports entre l’auteur et ce qu’il a dit (ou voulu dire, ou dit sans le vouloir) ; mais à déterminer quelle est la position que peut et doit occuper tout individu pour en être le sujet." (Foucault, 1969, 126) ou aussi : "Ce dont il s’agit ici, ce n’est pas de neutraliser le discours, d’en faire le signe d’autre chose et d’en traverser l’épaisseur pour rejoindre ce qui demeure silencieusement en deçà de lui, c’est au contraire de le maintenir dans sa consistance, de le faire surgir dans la complexité qui lui est propre." (65)

Remarque sur la lexicométrie : la première étape en AD a consisté à déconstruire de façon très analytique le texte pour trouver à l’œuvre un " autre " discours sous-jacent à la continuité du corpus. Elle s’appuie sur la méthode des " termes-pivots ", dite (improprement selon Maingueneau) méthode harrissienne. Ensuite se sont développées des méthodes plus intégratives cherchant à appréhender le texte comme totalité complexe et à réarticuler les éléments qui le composent, le contexte… Sur cette différence, et plus généralement sur l’histoire de l’AD, voir Maingueneau (Maingueneau, 1991 ; 2000).

Alceste hérite de cette critique de l’AC et la prolonge en rejettant la linguistique au profit de la sémiotique (c) et en allant vers la pragmatique des " mondes lexicaux " (d). Faisant référence à l’idée foucaltienne selon laquelle le " thème " d’un discours " circule d’énoncé en énoncé " pour donner un sens au discours, Reinert dit :

"Ce qui reste de cette circulation du sens dans un discours, c’est le texte. Mais le sens [note : En cela le sens se différencie nettement de la signification] n’est pas dans le texte, le sens était dans le temps de cette circulation, dans le dynamisme d’une parole réelle. Il reste cependant dans le texte, une trace formelle du passage de l’objet, non seulement à travers les significations construites, représentées, mais aussi à travers ce qui se montre seulement comme des traces de pas. Si le sens particulier à l’origine du texte semble à jamais perdu, un ordre temporel, linéaire, s’y est déposé, dont la lisibilité dépendra de l’expérience réelle d’un lecteur, avec sa propre scansion, susceptible de mettre en résonnance sa propre histoire. (…) notre propos avec Alceste n’est pas d’analyser la signification représentée dans un texte dans sa complexification progressive. Le texte est déjà là dans toute sa complexité et suffit à la montrer. Notre propos est plutôt d’aller à contre-sens, vers cette origine objective et dynamique, présente dans les traces les plus immédiates, les moins pensées. Et pour cela il faut déconstruire le texte ; à chaque pas, cerner une marque de ce qui s’’offre spontanément. Pour cela, le discours doit s’entendre dans le rythme de ses moments toujours renouvelés. Ce n’’est pas tant qui parle, ou ce qui se dit, qui nous intéresse mais d’où ça parle, à chaque instant ! (…) Aller vers l’origine topique du sens plutôt qu’à sa poursuite, telle fut notre premier désir avec Alceste." (Reinert, 2001)

Commentaire :

- Reinert invite à la prudence quant au statut des résultats de l’AD (on peut élaborer des hypothèse mais pas les vérifier : ne pas oublier l’expérience et le désir du lecteur !)

- Il ne s’agit pas d’analyse de contenu. La logique d’Alceste est purement formelle et ne prend à aucun moment en compte des critères de contenu (bémol pour les mots-outils mais ils ne rentrent pas en comptent dans l’analyse). Ça signifie qu’il ne faut pas s’arrêter sur les classes mais essayer de comprendre les relations entre ces classes.

- Il s’agit aussi d’une justification du découpage automatique du texte (la recherche des traces peut se faire selon des principes statistiques plutôt qu’en faisant confiance au producteur du texte ou à son lecteur).

b. Fondements sémiotiques de la méthode Alceste

Lors de l’Université d’été, Reinert présente sa méthode à partir de la notion de " répétition ". On peut compléter en parlant aussi des " mondes lexicaux ". Titre de son exposé introductif (pas encore publié visiblement) : " Le rôle de la répétition dans la représentation du sens et son approche statistique par la méthode Alceste ".

Pour Max reinert, si quelque chose " vit " dans un discours, c’est que quelque chose s’y répête (une chose dont le rapport au sens restera toujours énigmatique). On ne peut pas modéliser la signification d’un texte mais en revanche on peut essayer de modéliser sa trace comme trace d’une activité discursive (donc de production et de répétition de signes). Il rattache donc le signe à l’acte et pas du tout à la signification ou à la répétition en utilisant la linguistique de Peirce (la question du signe est celle des effets de ce signe - il conduit à la production d’autres signes - et pas celle de sa signification comme chez Saussure). Il veut donc considérer le texte d’abord comme un usage puis voir comment cet usage se stabilise selon des lois de répétition (qui permettent au texte d’accéder à la représentation).

Chez Peirce il y a trois types de répétition :

- L’icône (fondement topique de l’énoncé) : c’est un pur contenu, indépendant de toute forme, qui fait écho, résonne dans le texte.

- L’indice : c’est une inquiétude produite par le texte, celle de quelque chose de non reconnu (Peirce : l’indice de la porte c’est qu’on se cogne dedans). Marqué notamment par la ponctuation. Traduit la dimension dynamique du texte. Cette dynamique se traduit dans la production d’icônes.

- Le symbole : Plus lié au sens (à force de répétition des " ratés " de l’indice, des interruptions entre icônes… le texte semble tomber juste.

Mis en pratique :

- La dimension icônique du texte est traduite dans la répétition de " mots-pleins " (des mots qui ont un contenu immédiat mais flou). Leur forme et leur position dans la syntaxe n’importe pas, d’où le principe de la lemmatisation possible. La répétition n’est pas non plus importante quantitativement. Ce qui compte c’est la présence ou l’absence des mots. La coprésence des mots-pleins traduit le " fond associatif " (ou fond topique) opérant dans le texte : la proximité (temporelle dans l’énonciation ou spatiale dans le texte) des mots-pleins signale le travail d’une même origine topique " archaïque ".

- La dimension indicielle se traduit par des coupures dans le texte que le logiciel reproduit par le découpage en UC qui tient compte des indices réels du texte (la ponctuation) mais introduit aussi du hasard (comme le texte). Elle se traduit aussi dans la présence de " mots-outils " qui signalent la dynamique du texte (les mots outils sont des opérateurs logiques ou grammaticaux, cf. les catégories dans le rapport d’analyse). C’est par les mots-outils que la pragmatique est importée dans Alceste (le mot-outil est un " embrayeur " ou " déictique " dans la tradition de Benveniste et Jakobson, il articule le texte à une situation d’énonciation) Attention : les mots-outils ont un statut un peu inférieur dans la logique d’Alceste et ne servent pas à la production des classes ou " mondes lexicaux " qui ne sont produites qu’à partir des icônes (mots-pleins).

Rq : les mots-outils posent des problèmes assez importants parce qu’ils sont solidaires eux du texte comme structure linguistique. Pour ce qui est de la détermination des " plans d’énonciation " par exemple (récit ou discours ?, type de modalisation…) il est difficile de se fonder sur la segmentation du texte ou sur la simple occurrence de telle ou telle forme (une même forme peut avoir un pouvoir déictique différent selon le contexte). Cf. critiques de Maingueneau sur ce point (Maingueneau, 2000).

Donc la méthode va consister essentiellement à faire un tableau contenant en lignes les UC du texte et en colonnes les mots-pleins. Ce tableau sera plein de zéros et de uns. Ce tableau permet de mesurer l’activité icônique du locuteur à différents moments de l’énonciation.

Mot1 Mot2 Mot3
UC1 0 1 0
UC2 1 0 0
UC3 1 1 0

- la " répétition icônique " lie les colonnes entre elles.

- la " répétition indexicale " lie les lignes entre elles.

- la " répétition symbolique " : c’est ce qu’il faut arriver à représenter à l’issue du traitement du tableau. C’est une synthèse des deux répétitions précédentes (" résonnance icônique ", ie répétition de mot-pleins dans un moment de l’énonciation). La CDH produit des classes cohérentes présentant un même type de " répétition symbolique ". Chaque classe est appelée un " monde lexical " par Reinert. Ce que traduit l’existence de mondes lexicaux stables (pas donnée d’avance) c’est une caractéristique de l’acte de langage du locuteur : son choix de mots et de leur répétition dans une dynamique indexicale cohérente.

On voit bien le lien là avec l’AFC (analyse de grands tableaux croisés). Il s’agit grosso modo de réorganiser les lignes du tableau pour regrouper dans des classes cohérentes les bouts de texte qui mobilisent le même type de répétition icônique (même profil de colonnes).

2. La production des classes stables du corpus à partir de sa segmentation

(Principe très général de la CDH et explication intuitive)

La méthode procède par étapes en réorganisant le tableau pour produire d’abord deux classes de vocabulaire très contrastées (a) ; puis en découpant la plus grosse des deux en deux, etc. (b). D’où le nom de CDH. Enfin il arrête la classification lorsque le nombre de classes atteint est stable (c).

a. Production de classes contrastées

Supposons que le corpus contienne deux classes très cohérentes de vocabulaire (c’est-à-dire deux classes de mots-pleins employées à des moments distincts).

Le tableau dessinée plus haut devient :

Vocabulaire 1 (mots-pleins) Vocabulaire 2 (mots-pleins)
Classe 1 (ensemble d’UC)
Tableau 1 (bcp de 1) Bcp de 0
Classe 2 (ensemble d’UC)
Bcp de 0 Tableau 2 (bcp de 1)

Ce tableau représente une bonne réorganisation du tableau initial. On cherche en fait à trouver la meilleure réorganisation, ie celle qui produit les deux classes les plus contrastées du point de vue de leur vocabulaire. On passe pour ça au tableau des marges

Mot m Mot n
Marge du Tableau 1 60 5
Marge du Tableau 2 9 80

Le Khi2 de ce tableau est élevé. Le tableau " réorganisé " le meilleur est celui dont le Khi2 du tableau des marges est le plus élevé.

(Attention : en fait les deux sous-tableaux ne sont pas construits exactement comme ça parce que il y a des mots qui sont dans toutes les classes (mots les plus fréquents). Ces mots sont conservés dans les deux classes).

Rq finale : on voit bien que la ressemblance entre les termes formant le vocabulaire n’entre jamais en ligne de compte dans la méthode ; la seule chose qui compte c’est la rupture entre les classes, pas ce qu’il y a dans les classes.

b. Suite du processus

Ce que l’on vient de faire, c’est de découper le corpus initial en deux classes fortement opposées (on a donc deux " mondes lexicaux "). Pour en obtenir trois, on prend la classe la plus grande (nbre de mots-pleins) et on recommence le processus de découpage avec elle.

L’analyse standard conduit ce processus jusqu’à obtention de 10 classes. On compare les classes 2, 3 et 4 et on prend la plus grande… Mais en fait le nombre de classes dépend du corpus et ne peut être déterminé a priori. À partir de ces dix classes (dix étant considéré comme un " grand " nombre de classes) on essaie donc de trouver le nombre de classes stables.

c. Test de stabilité

L’idée c’est que si on a trop de classes, certaines sont construites sur des bases fragiles, ie dépendent du découpage initial du texte en unités de contexte. Donc pour tester la stabilité des classes on mène deux CDH parallèles faites avec deux découpages différents (longueur des UC). Si les classes sont " robustes ", elles ne doivent pas trop dépendre du découpage, et donc on doit les retrouver dans les deux CDH.

Le text consiste à croiser, pour chaque configuration de nombre de classes (10, 9, 8…), les deux classifications et à mesurer le Khi2 d’association entre les classes prises deux à deux (ou Khi2 signé). On s’arrête lorsque ce Khi2 est maximum.

On a donc deux dendrogrammes (synthèse du processus de CDH) avec un nombre de classes stables identiques. À partir de ce point, on restreindra les classes aux UC qui sont en commun dans les deux CDH.

3. Représentation graphique (AFC)

Alceste ne réalise pas une AFC sur le vocabulaire du texte (comme Prost par exemple). L’AFC est utilisée plutôt comme un traitement d’appoint permettant de représenter graphiquement les relations entre les classes. Le tableau analysé croise donc les formes réduites analysées avec les classes définies par la CDH. La métrique utilisée est celle du Khi2.

Rq : du coup on fait de l’AFC sur un tableau contenant des variables quantitatives continues (cas type de l’ACP !).

4. Un traitement Alceste pas à pas

Il faut suivre ce que fait le logiciel pas à pas. Notamment parce que l’interface fonctionne par étapes qui correspondent aux étapes logiques du traitement. Pour comprendre le rapport d’analyse, il faut donc bien connaître la méthode. D’autre part, l’analyse se fait selon un paramétrage par défaut qui est modifiable. Il faut donc bien connaître les paramètres utilisés (par exemple pour la longueur des UC qui a un rôle dans le résultat final).

a. Ce qu’il faut faire avant de lancer l’analyse : produire un corpus

Le corpus doit se présenter sous la forme d’un fichier texte (.txt) avec sauts de ligne. Il est donc débarrassé de toute mise en forme. Il est possible de lancer une analyse sur un corpus " brut " (à condition que sa taille :…) mais on peut aussi souhaiter opérer soi-même un découpage dans le corpus selon des critères dont on pense qu’ils peuvent être structurants (date des différents articles ; auteur si le corpus est fait de textes d’auteurs différents ; source…). Pour cela on peut découper le corpus en UCI (Unités de Contexte Initiales) au moyen des " lignes étoilées ". Ces UCI pourront être mobilisées ensuite dans l’analyse mais elles n’interviennent pas dans la procédure de CDH ou d’AFC (ce sont des variables " supplémentaires "). On pourra par exemple connaître le vocabulaire spécifique à tel auteur du corpus…, même si les classes construites ne respectent pas vraiment les différences entre auteurs.

Syntaxe d’une ligne étoilée : **** *var1_modalx *var2_modaly…

Attention : choisir des noms de variables et de modalités courts pour ne pas encombrer le graphe final.

b. Les étapes de l’analyse standard

Étape Description Commentaire
A1 Construction des STC (Segments de Texte Calibrés). Un STC est de longueur inférieure à 240 caractère et se termine si possible par une ponctuation. Décompte des lignes étoilées. Il est possible de forcer le découpage en STC par le signe $ dans le texte
A2 Calculs des dictionnaires : nombre de formes distinctes (séquences de lettres séparées par une marque) ; nombre d’occurrences, de hapax… Lemmatisation et classification des formes distinctes. Les dictionnaires généraux d’Alceste sont dans ALC_ (ex : ALC_MO : dict des mots-outils) Le dictionnaire du corpus après la lemmatisation est dans A2_dico. On peut modifier ce fichier pour désambiguïser et relancer l’analyse à partir de A3.
A3 Classification des formes :
- Mots analysés (=mots-pleins et formes non reconnues)
- Mots supplémentaires de type " r " (mots-outils)
- Mots supplémentaires de type " s " (mots étoilés)
B1 Concaténation des STC en UCE (Unité de Contexte Élémentaire). Une UCE doit contenir au minimum 15 occurrences, ie mots.
B2 Concaténation des UCE en UC. Une UC doit contenir au moins 12 mots différents analysés par le logiciel. Le logiciel calcule deux découpages (DONN.1 et DONN.2) Le paramètre 12 est modifiable en B2. Attention : les UC sont utilisées pour les étapes B2 et B3 (calcul des classes) mais ensuite tous les résultats sont donnés en UCE.
B3 CDH de DONN.1 et DONN.2
C1 Calcul de l’intersection des classes Le paramètre C11=nbre d’UCE nécessaire pour retenir une classe permet d’éliminer les petites classes.
C2 Profil des classes (ou " contextes ") Noter le tableau donnant le croisement des classes et des clés (types de mots).
C3 AFC
D1 Vocabulaires spécifiques des classes
D2 Segments répétés
D3 CAH des mots par classe

c. Quelques trucs :

- Sur la préparation du corpus : il vaut mieux ne rien faire a priori et lancer une première analyse (not pb des mots composés : voir les segments répétés). Sur des corpus de grande taille ne joue pas de rôle (comme la lemmatisation).

- Identification de l’analyse : les deux premiers chiffres sont décisifs (12o : analyse double dans laquelle il croise donn.1 et donn.2 ; 11o : analyse simple).

- Les tris-croisés : on peut obtenir par ce biais des statistiques simples, notamment en rapport avec les variables mises en lignes étoilées (demander le croisement d’une variable avec le corpus). Le croisement d’une forme avec le corpus donne un découpage en deux classes : les UCE qui contiennent le terme et les autres.

- Symboles dans le résultat de la lemmatisation : < troncature (la racine est reconnue mais pas la désinence) + racine et désinence sont reconnues (le chiffre qui suit : le nombre d’éléments agrégés) o racine modifiée (ex : verbes irréguliers, irai => allero

d. Interpréter les résultats

Le mieux est de partir du rapport d’analyse avant d’utiliser l’interface graphique. On y retrouve dans le détail les opérations faites par Alceste. Que faire ?

- Estimation de la qualité de l’analyse à partir des indicateurs donnés pour les premières étapes

- Tentative de qualification des classes distinguées par le logiciel (leur trouver un nom) en partant de la liste des formes caractéristiques classées par c2 d’association décroissant (mots-pleins et mots-outils). On peut aussi utiliser la CAH. Il est utile de revenir au contexte en allant voir les UC. Rq : le c2 est ici utilisé comme indicateur et pas comme test statistique mais on peut noter que les tableaux d’association forme/classes étant à un ddl, un c2=3,84 signifie que l’on a une chance sur mille que l’association entre le mot et la classe soit le fait du hasard. Un c2 de 50 ou 100, c’est donc énorme.

- Rapporter ces classes aux variables exogènes introduites par l’analyste (modalités caractéristiques) et entre-elles (quel système forment-elles). Le dendrogramme est utile ici, de même que le graphique d’AFC.

- On peut aussi avoir besoin de statistiques sur les formes caractéristiques d’une modalité de variable (un auteur par exemple, une période…). Il faut alors faire un tri-croisé.

Bibliographie

Achard, P. (1993). - La sociologie du langage, Paris, Presses Universitaires de France.

Berelson, Bernard (1952). - Content Analysis as a Tool of Communications Research, Glencoe (Ill.), Free Press.

Foucault, Michel (1969). - L’archéologie du savoir, Paris, Gallimard.

Lebart, L et A. Salem (1994). - Statistique textuelle, Paris, Dunod.

Maingueneau, Dominique (1991). - L’analyse du discours, Paris, Hachette, 268 pages.

Maingueneau, Dominique (2000). - Analyser les textes de communication, Paris, Nathan.

Prost, Antoine (1974). - Vocabulaire des proclamations électorales de 1881, 1885, 1889, Paris, Presses Universitaires de France / Publications de la Sorbonne.

Reinert, Max (1990). - " Une méthode d’analyse des données textuelles et une application : Aurelia de G. de Nerval ", Bulletin de Méthodologie Sociologique (26), pp. 24-54.

Reinert, Max (1993). - " Les ’mondes lexicaux’ et leur ’logique’ à travers l’analyse statistique d’un corpus de récits de cauchemars ", Langage et société (64), pp. 5-39.

Reinert, Max (1998). - " Mondes lexicaux et Topoï dans l’approche Alceste ", Mots chiffrés et déchiffrés. Mélanges offerts à E. Brunet, Honoré Champion, pp. 289-303

Reinert, Max (2001). - " Alceste, une méthode statistique et sémiotique d’analyse de discours ; Application aux Rêveries du promeneur solitaire’ ", La Revue française de Psychiatrie et de Psychologie Médicale, V (49), pp. 32-36.

Robert, André D. et Annick Bouillaguet (1997). - L’analyse de contenu, Paris, Presses Universitaires de France (collection "Que sais-je ?").

SPIP | squelette | | Plan du site | Suivre la vie du site RSS 2.0