M2 LI Syntactic Analysis Project

OUTPUT GROUPE 1

{ORIG_ORTH;}_CORR_ORTH

Notes :

Il y a une phrase par ligne. Les phrases sont découpées selon les ponctuations fortes.
Dans CORR_ORTH on retrouve aussi bien les mots corrigés que les étiquettes.
S'il n'y a pas de point final, il y aura une espace après le dernier mot de la dernière ligne.

Exemples :

{c;}c'est {ke;}que {c;}c'est rigolo a {fair;}faire {jv;}j'y {jv;}vais .
Pi égale {3,14;}_NOMBRE

=> Le groupe 5 a une requête... Vous identifiez les étiquettes avec des regex, non ? Si oui, est-ce que vous pourriez fournir un .txt avec colonne1_regex "\t" colonne2_étiquette (pour faire les substitutions dans le trainset) ? Ca serait génial ! Merci...

Est-ce que le fichier 01_etiq_token_debruit/regex_etiquettes.txt convient ? OUI :) (439 remplacements sur mon TRAINCORP)

Le groupe 3 (enfin, un des binomes) a une petite remarque de formatage : c'est pas plus cohérent de suivre l'input/output du prof sur toute la chaîne ? En l'occurrence une phrase par ligne et chaque token formaté en {annotations}forme. En l'occurrence ça pourrait ressembler à quelque chose comme {SMS='koi'}quoi ou {NE_NAME='[email protected]'}_EMAIL. Tu en penses quoi ?

C'est fait.

OUTPUT GROUPE 2

Les mots étiquetés prendrons typiquement cette forme : {TMP_TAG='TAG1,TAG2';}word Si un mot étiqueté était déjà précédé par des accolades, TMP_TAG='TAG1,TAG2'; sera concaténé au contenu de ces accolades, sans espace. On part du principe que ce contenu se finit déjà par un point-virgule.

OUTPUT GROUPE 3

Note : s'il y a plusieurs attributs, ils seront separes par un point-virgule (;).

{ORIG_ORTH=token_with_error}corrected_token

EX: {ORIG_ORTH='chein'}chien

{ORIG_SEG=[token,token];ORIG_ATTR_N='...';...}compound_word

EX: {TAG='N'}pomme {TAG='P'}de {TAG='N'}terre
-> {ORIG_SEG=['pomme','de','terre'];TAG_1='N';TAG_2='P';TAG_3='N'}pomme_de_terre__N

{AML='original_token'}split_token {AML='original_token'}split_token

Ex: {AML='du'}de {AML='du'}le

Exemple complet:

echo "{TAG='A'}bien {TAG='A'}sûr duquel {TMP_TAG='a'}entropie visuellemnt {TMP_TAG='xsa'}carbonne {TMP_TAG='N'}quztre cinq" | ./group3.py
{TAG_0='A';TAG_1='A';ORIG_SEG=["bien","sûr"]}bien_sûr {AML="duquel"}de {AML="duquel"}lequel {ORIG_ORTH="entropie";TMP_TAG='a'}entrions visuellemnt {ORIG_ORTH="carbonne";TMP_TAG='xsa'}carbone {ORIG_ORTH="quztre";TMP_TAG='N'}quatre cinq

OUTPUT GROUPE 4

OUTPUT GROUPE 5

Alors, si j'ai bien tout compris (oui, je sais, avec des si pareils, on mettrait Paris en bouteille...). Je dois envoyer au parser un truc de ce format là : Le _unknown_N part de le principe que PERS est à le PLACE . Tout en gardant en mémoire : Le shtroumpf paart du principe que Chomsky esst au Paradis.

Name		Name	Last commit message	Last commit date
Latest commit History 81 Commits
01_etiq_token_debruit		01_etiq_token_debruit
02_morpho		02_morpho
03_spellcheck_compounds		03_spellcheck_compounds
04_namedEntity		04_namedEntity
05_pcfg		05_pcfg
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

M2 LI Syntactic Analysis Project

OUTPUT GROUPE 1

OUTPUT GROUPE 2

OUTPUT GROUPE 3

OUTPUT GROUPE 4

OUTPUT GROUPE 5

About

Releases

Packages

Languages

jingshu-liu/M2LI-AnaSynt

Folders and files

Latest commit

History

Repository files navigation

M2 LI Syntactic Analysis Project

OUTPUT GROUPE 1

OUTPUT GROUPE 2

OUTPUT GROUPE 3

OUTPUT GROUPE 4

OUTPUT GROUPE 5

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages