Traitement du japonais

Le japonais est une langue un peu plus compliquée à traiter que les autres langues étudiées dans notre projet, car celle-ci ne possède pas d’espace.

Il faut donc faire un traitement supplémentaire pour que le reste du script se passe sans soucis et que les mots japonais soient reconnus. Nous devons donc procéder à une tokenisation (une séparation en token), grâce à l’outil janome, en suivant la méthode utilisée par d’autres projets les années précédentes.

Tout d’abord, nous devons installer le tokeniser:

Ensuite, il nous faut un document sur lequel tester notre futur script, pour s’assurer que tout aille bien. Nous nous retrouvons avec un test.txt contenant la phrase suivante:

Comme vous pouvez le constater, il n’y a bien aucun espace entre les mots. Passons maintenant au programme python pour tokeniser:

Maintenant, il nous faut exécuter ça dans le terminal, tout simplement avec la commande

python script_jp.py

L’exécution se passe bien, et nous avons un fichier test-new.txt de créé, et dedans, notre phrase est correctement tokenisée !

Maintenant, il nous faut adapter ce script pour le projet, et en faire l’appel sur le programme principal.

Laisser un commentaire