COREEN – Avant la phase d’analyse : Phase de segmentation

Avant de commencer l’analyse du texte coréen, il faut savoir que la langue coréenne est une langue qui fonctionne avec des particules en postposition.

En essayant de réaliser l’analyse sur iTrameur avec le corpus nettoyé coréen, on remarque que les résultats obtenus ne sont pas très représentatifs du corpus car nous avons moults formes du même mot.

Comme le pôle source traite les tokens par leur forme entière et non via une expression régulière, la forme « 트랜스젠더 » ne représenterai pas toutes les occurrences du motif « 트랜스젠더 » car il manque toutes les formes suffixés.

Nous avons donc pris la décision de passer par une phase de segmentation en morphèmes avant de réaliser l’analyse.

Il ne nous paraissait pas adéquat de réaliser cette segmentation dans le script (celui matérialisant le tableau final) car nous aurions eu des index hiérarchiques et des calculs de bigrammes à l’échelle des morphèmes pour le corpus Coréen. On trouve que l’approche des résultats n’aurait pas été équivalente par rapport aux autres corpus, qui réalisent, eux, ces calculs à l’échelle du mot.


Pour segmenter le corpus en morphèmes (et ainsi décoller les particules des mots en eux-mêmes), nous avons utilisé un analyseur morpho-syntaxique, nommé mecab, sous sa version en Python.

Nous avons généré un petit programme nous permettant de segmenter le corpus en morphèmes, tout en gardant les retours à la ligne pour éviter que tout soit regroupé sur une seule ligne et pour ainsi nous assurer une certaine lisibilité.

#!/usr/bin/env python3
# -*- coding : utf-8 -*-

import mecab

if __name__ == "__main__":

	mecab = mecab.MeCab()
	path = '/media/sf_Dossiers_Ubuntu/projet_ELODIE_LEA/'

	corpus_morpheme = open(path + 'CORPUS_KR_segmentation_morphemes.txt', 'w')

	with open(path + 'CORPUS_KR_corrige.txt', 'r') as text :
    		for line in text :
        		liste_morphemes = mecab.morphs(line)
        		for morph in liste_morphemes :
            			corpus_morpheme.write(f'{morph} ')
        		corpus_morpheme.write('\n')

	corpus_morpheme.close()

Suite à ce programme, nous avons également nettoyé les balises du corpus, qui ont été également soumises à la segmentation en morphèmes, grâce à la fonction « Rechercher et remplacer » de notre logiciel de traitement de textes.

pour les balises ouvrantes
(Nous avons dû le réaliser en deux étapes car l’expression régulière en sortie ne prenait en compte que des chiffres, pas des nombres)

pour les balises fermantes


Après avoir jeté un rapide coup d’œil à ce fichier, nous avons noté quelques incohérences. Certains mots ont été séparés en plusieurs morphèmes, tandis que nous considérons qu’il vaudrait mieux les laisser en un seul token. C’est notamment le cas pour les mots étant des emprunts à la langue anglaise. 

  • 트랜스젠더 리 즘 (littéralement « transgender i sm »)
  • 포비 아 (littéralement « phobi a »)
  • 트랜스 젠더 (littéralement « trans gender »)
  • 트 렌스 젠더 (littéralement « t rans gender »)
  • 트랜스 잰 더 : En plus de la segmentation erronée, on note une faute d’orthographe (잰 au lieu de 젠)
  • 성전환 자 (“changement de sexe” + particule de personne) au lieu de 성전환자 (transgenre/transsexuel) 

Il y avait parfois toute une séquence de mots qui était mal découpée.

  • “성 별정 정허 가” au lieu de “성별 정정 허가”

Nous supposons que, si une longue séquence comme celle-ci a pu passer entre les mailles du filet, d’autres séquences sont sûrement mal découpées.


Cette méthode de segmentation en morphèmes n’est donc pas complètement parfaite et elle présente également un autre petit point négatif. Les mots complexes (par exemple, 성차별 discrimination sexuelle/sexisme, ou bien 반차별 anti-discrimination) sont séparés en plusieurs tokens car le corpus est désormais considéré à l’échelle des morphèmes et non à l’échelle des mots.

Néanmoins, en vue de réaliser une analyse textométrique, cette étape de segmentation en morphèmes apporte dans l’ensemble beaucoup plus d’avantages que d’inconvénients.

Une réflexion sur “COREEN – Avant la phase d’analyse : Phase de segmentation

Laisser un commentaire