Skip to content

jingshu-liu/M2LI-AnaSynt

 
 

Repository files navigation

M2 LI Syntactic Analysis Project

OUTPUT GROUPE 1

{ORIG_ORTH;}_CORR_ORTH

Notes :

  • Il y a une phrase par ligne. Les phrases sont découpées selon les ponctuations fortes.
  • Dans CORR_ORTH on retrouve aussi bien les mots corrigés que les étiquettes.
  • S'il n'y a pas de point final, il y aura une espace après le dernier mot de la dernière ligne.

Exemples :

{c;}c'est {ke;}que {c;}c'est rigolo a {fair;}faire {jv;}j'y {jv;}vais .
Pi égale {3,14;}_NOMBRE
=> Le groupe 5 a une requête... Vous identifiez les étiquettes avec des regex, non ? Si oui, est-ce que vous pourriez fournir un .txt avec colonne1_regex "\t" colonne2_étiquette (pour faire les substitutions dans le trainset) ? Ca serait génial ! Merci...

Est-ce que le fichier 01_etiq_token_debruit/regex_etiquettes.txt convient ? OUI :) (439 remplacements sur mon TRAINCORP)

Le groupe 3 (enfin, un des binomes) a une petite remarque de formatage : c'est pas plus cohérent de suivre l'input/output du prof sur toute la chaîne ? En l'occurrence une phrase par ligne et chaque token formaté en {annotations}forme. En l'occurrence ça pourrait ressembler à quelque chose comme {SMS='koi'}quoi ou {NE_NAME='[email protected]'}_EMAIL. Tu en penses quoi ?

C'est fait.

OUTPUT GROUPE 2

Les mots étiquetés prendrons typiquement cette forme : {TMP_TAG='TAG1,TAG2';}word Si un mot étiqueté était déjà précédé par des accolades, TMP_TAG='TAG1,TAG2'; sera concaténé au contenu de ces accolades, sans espace. On part du principe que ce contenu se finit déjà par un point-virgule.

OUTPUT GROUPE 3

Note : s'il y a plusieurs attributs, ils seront separes par un point-virgule (;).

{ORIG_ORTH=token_with_error}corrected_token

EX: {ORIG_ORTH='chein'}chien

{ORIG_SEG=[token,token];ORIG_ATTR_N='...';...}compound_word

EX: {TAG='N'}pomme {TAG='P'}de {TAG='N'}terre
-> {ORIG_SEG=['pomme','de','terre'];TAG_1='N';TAG_2='P';TAG_3='N'}pomme_de_terre__N

{AML='original_token'}split_token {AML='original_token'}split_token

Ex: {AML='du'}de {AML='du'}le

Exemple complet:

echo "{TAG='A'}bien {TAG='A'}sûr duquel {TMP_TAG='a'}entropie visuellemnt {TMP_TAG='xsa'}carbonne {TMP_TAG='N'}quztre cinq" | ./group3.py
{TAG_0='A';TAG_1='A';ORIG_SEG=["bien","sûr"]}bien_sûr {AML="duquel"}de {AML="duquel"}lequel {ORIG_ORTH="entropie";TMP_TAG='a'}entrions visuellemnt {ORIG_ORTH="carbonne";TMP_TAG='xsa'}carbone {ORIG_ORTH="quztre";TMP_TAG='N'}quatre cinq

OUTPUT GROUPE 4

OUTPUT GROUPE 5

Alors, si j'ai bien tout compris (oui, je sais, avec des si pareils, on mettrait Paris en bouteille...). Je dois envoyer au parser un truc de ce format là : Le _unknown_N part de le principe que PERS est à le PLACE . Tout en gardant en mémoire : Le shtroumpf paart du principe que Chomsky esst au Paradis.

About

Syntactic analysis project of the 2016 M2 LI

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages

  • OpenEdge ABL 96.3%
  • Python 3.7%