L'Atelier

Créations linguistiques
et mondes imaginaires
 
AccueilAccueil  PortailPortail  CalendrierCalendrier  GalerieGalerie  FAQFAQ  RechercherRechercher  MembresMembres  GroupesGroupes  S'enregistrerS'enregistrer  Connexion  

Partagez | 
 

 [Question] Logiciels, méthodes et ressources pour étude de textes

Voir le sujet précédent Voir le sujet suivant Aller en bas 
AuteurMessage
cebelab



Messages : 190
Date d'inscription : 08/04/2009
Localisation : NANCY

MessageSujet: [Question] Logiciels, méthodes et ressources pour étude de textes   Lun 13 Avr 2009 - 4:18

Pour un de mes projet, ou plutôt pour une sous-partie de mon projet, je souhaite réaliser une étude sur des textes dans différentes langues (anglais et français pour commencer).

Je souhaite, grosso modo, déterminer, dans plusieurs registres, les mots les plus utilisés (je choisi arbitrairement les 1500 premiers, ainsi que c'est généralement le cas dans les controlled languages comme le simple english, ou controlled english etc.).

Je souhaite, à quelques petites choses près, reproduire les processus utilisés pour définir les listes de mots du simple english, justement, pour d'une part retrouver plus ou moins empiriquement la méthode par laquelle ces listes ont été établies (en comparant les résultats et corrigeant le tir), mais aussi aller plus loin dans la mesure ou ça engloberait plusieurs niveaux de plusieurs langues.

Ceci devrait, par la suite, m'aider à déterminer les concepts les plus importants dans le langage courant pour commencer à élaborer ma conlang.

Voici les registres (ou niveaux de langues?) que je souhaite étudier, dans chaque langues (liste ni exhaustive, ni définitive):
  • enfantin/familier
  • courant
  • informatif
  • soutenu/écrit/littéraire
  • technique
    • médecine
    • sciences dures
    • technologie (électronique/informatique)

  • buisness

J'ai défini la méthode qui suit pour ce faire:
  • Réunir des "corpus" d'étude dans chacun des registres souhaités, par ex.:
    • enfantin/familier: réunir quelque articles et commentaires de blogs ou sites adressés aux enfants et adolescents (pas trop mal écrits quand même)
    • informatif: réunir quelques articles divers dans des journaux divers
    • littéraire: extraits de divers textes de littérature classique
    • technique: articles encyclopédique (pas que wikipédia de préférence) pour les domaines concernés
    • buisness: je ne sais pas encore ou trouver des sources?! Peut être des contrats divers, textes encyclopédiques, etc.

  • Passer dans diverses moulinettes:
    • Correction orthographique (et grammaticale dans la mesure du possible)
    • Compteur de mots (fréquence des mots)
    • Analyseur syntaxique/sémantique
    • Catégoriseurs de mots (déterminer le type de chaque mots, et les racines, radicaux et infinitifs dont ils sont issus)
    • Autre?

  • Trier manuellement et recouper les résultats des diverses moulinettes
  • Analyser les similitudes entre les résultats des différentes langues
  • Compilation de rapports et listes "définitives"

Voilà. Mes questions:
  1. Les registres et méthodes vous semblent-ils pertinents?
  2. Quelle quantité de textes pour chaque registre?
  3. Connaissez vous des bons logiciels gratuits d'analyse et de traitement linguistique de texte? Les compteurs de fréquence ne devraient pas poser de problème, mais les catégoriseurs et analyseurs, avez vous des bonnes expériences sur certains logiciels?
  4. En cas de réponse positive à la question précédente, connaissez vous des ressources libres pour les logiciels en questions (listes de mots, typologie, règles de grammaire etc.) pour plusieurs langues?

Jusqu'à présent, j'ai trouvé ceci (mais pas encore essayé), qui semble intéressant:
  • Notule (à voir ici sur un texte de diderot), gratuit et open source, liste de mots et ressources comprises (pour le français uniquement), il a vraiment l'air efficace, et surtout flexible... A voir je pense.
  • Une liste de logiciels que je n'ai pas encore trop fouillé, mais qui semble intéressante, surtout en ce qui concerne l'anglais, à priori
  • Des ressources sur le site de l'ATILF (dpt. Analyse et Traitement Informatique de la Langue Française du CNRS) semblent très intéressantes à ce sujet. Mais malheureusement, seul WinBrill est téléchargeable (catégoriseur de mots utilisant l'algorithme de Brill), ce qui serait vraiment déjà pas mal, si les listes de mots et règles associées étaient disponibles. Or, ils proposent sur le site une convention, à imprimer et à remplir, pour s'engager à ne pas utiliser leur listes dans un cadre commercial. Je l'ai fait et ai envoyé au CNRS, dans l'espoir de recevoir les listes de mots, comme dit sur le site, mais ça fait plus d'un mois, et je n'ai toujours rien reçu... Je vais essayer de les relancer.

Dans le cas d'un résultat convenable (mon critère est => les listes obtenues permettent d'exprimer à peu près ce que l'on veut dans les langues traitées, avec un lexique restreint à environ 1500 mots) ça pourrait être intéressant d'appliquer ceci à diverses conlangs!? Il faudrait alors créer des listes de mots et les ressources grammaticales pour les outils logiciels, mais ça pourrait être sympa.

Vos avis, remarques et propositions sont les bienvenues!


Dernière édition par cebelab° le Mar 5 Mai 2009 - 18:31, édité 1 fois
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Olivier Simon



Messages : 3846
Date d'inscription : 20/02/2009
Localisation : Lorraine

MessageSujet: Re: [Question] Logiciels, méthodes et ressources pour étude de textes   Lun 13 Avr 2009 - 14:12

Sellamat!

En général, les listes de mots basiques sont très utiles aux auxlangers; aux concepteurs pour démarrer le lexique de leur création, et à ceux qui apprennent pour se concentrer sur un nombre minimal de mots.
Cependant, à mon avis, ces listes doivent rester un outil et non une fin en soi. Certains auxlangers caressent le rêve d'une auxlang au lexique définitivement limité. C'est une erreur; à supposer que l'auxlang en question obtienne un certain succès, elle finira forcément par accueillir de nouveaux mots. De plus, elle nuit à l'expressivité de la langue, voire même la rend carrément inutilisable!
Ainsi, hier, j'ai abandonné un projet de traduction sur trois auxlangs successives, certaines ne pouvant pas fournir le mot "gris".
Certains diront que "blanc-noir" ferait l'affaire; désolé, pour moi, un zèbre n'est pas gris....
Il existe de nombreuses listes de mots basiques sur internet (en tout cas en anglais). J'aime bien la liste faite par J. Landais, le créateur de l'Uropi (qui lui permet d'établir des statistiques sur la proximité entre l'uropi est d'autres langues).

Pour le sambahsa-mundialect, ma méthode a été très différente puisque que je me suis surtout basé sur les racines communes à plusieurs langues.

Olivier
http://sambahsa.pbwiki.com/
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://sambahsa.pbwiki.com/
cebelab



Messages : 190
Date d'inscription : 08/04/2009
Localisation : NANCY

MessageSujet: Re: [Question] Logiciels, méthodes et ressources pour étude de textes   Lun 13 Avr 2009 - 17:00

Salut, et merci de ta participation

En fait ici, le but n'est pas de définir une liste de mots que je compte figer pour réaliser ma conlang, mais plutôt établir des listes de mots les plus utilisés, dans plusieurs registres, et plusieurs langues (pour l'instant européennes, mais quand la méthode sera rodée, les outils adéquates trouvés -> notamment des outils aptes à manipuler l'unicode et des listes de mots et règles de grammaires dans d'autres langues non-européennes), puis de recouper parmi ces langues les concepts indispensables à chaque registre, pour déterminer les racines conceptuelles (qui n'auront probablement rien à voir avec les mots qui m'ont servi pour déterminer le besoin) dont j'aurais besoin pour ma propre conlang.

Ma langue ~devrait~ être agglutinante, et fonctionnera à base de ces racines conceptuelles que je veux définir. Une fois un certain nombre de ces racines existantes, je pourrais commencer à créer un lexique à partir de ces racines. Mais ce lexique sera évidemment évolutif.

L'objectif n'est donc pas de définir des listes de mots pour définir des listes de mots! Par contre, ceci dit, je pense que dans la majorité des cas, les gens s'expriment avec un lexique relativement limité, et qu'étudier ces lexiques dans plusieurs langues, issues de plusieurs cultures, peut m'aider à déterminer les concepts vraiment indispensables. Ce sera donc effectivement un outil pour moi, mais un outil qu'il faut fabriquer Smile

Quand au gris, tu fais bien de souligner ceci. Mais les conlangs auxquelles tu as renoncé à cause de la lacune de cette nuance ne peuvent elles plus évoluer? Certes si c'est des langues figées c'est gênant, mais n'y a t il pas moyen de nuancer, ou de dire "entre le blanc et le noir", ou quelque chose comme ça, pour dire gris? Personnellement, je prévois d'introduire un système de nuances assez poussé (enfin j'éspère) pour pouvoir faire ce genre de distinctions.
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Olivier Simon



Messages : 3846
Date d'inscription : 20/02/2009
Localisation : Lorraine

MessageSujet: Re: [Question] Logiciels, méthodes et ressources pour étude de textes   Mar 14 Avr 2009 - 10:00

Sell aghyern Cebelab!

Je parlais de ça car c'est un sujet que l'on a souvent abordé sur le groupe yahoo anglophone Auxlang.
Comme les auteurs de ces auxlangs connaissent bien mes opinions, il n'appartient qu'à eux de faire bouger les choses (je ne citerai pas de noms...).
Je voulais traduire l'histoire d'un personnage s'appelant "Etoile Grise"; tu comprends bien qu'il est difficile de porter un nom comme "Etoile-entre-le-blanc-et-le-noir"; à ce compte-là, autant donner le numéro de raie spectrale! Laughing
Il est cependant exact que certaines langues vivantes ne contiennent que peu de mots pour les couleurs; de même certaines langues comptent en binaire.... D'un point de vue purement créatif, ça peut être passionnant, mais, quand il s'agit d'utiliser pour traduire ne serait-ce qu'un texte de difficulté moyenne, je passe autant de temps que s'il s'agissait de grec ancien! Bravo la simplification!

Olivier
http://sambahsa.pbwiki.com/
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://sambahsa.pbwiki.com/
cebelab



Messages : 190
Date d'inscription : 08/04/2009
Localisation : NANCY

MessageSujet: Re: [Question] Logiciels, méthodes et ressources pour étude de textes   Mar 14 Avr 2009 - 14:16

Citation :
à ce compte-là, autant donner le numéro de raie spectrale!
Ou les valeurs CMJN ou RVB, ça ferait probablement plaisir aux imprimeurs ou infographistes!
lol!
Citation :
Il est cependant exact que certaines langues vivantes ne contiennent que peu de mots pour les couleurs
Eh oui, j'allais le dire. Même si le français est assez fourni, c'est tout de même assez relatif, de toute façon.

Mais c'est vrai que tu fais bien de souligner ce problème, car c'est tout bête mais si on ne pense pas dès le début à ce genre de soucis (et qu'on veut avoir un système un tant soit peu cohérent et logique) on a l'air malin...

Et c'est là que, tout content d'avoir créer des loi de création lexicale "parfaitement structurées" on se retrouve obligé de commencer le charcutage à grands coups d'exceptions (qui confirment la règle, nousle savons bien...)
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Contenu sponsorisé




MessageSujet: Re: [Question] Logiciels, méthodes et ressources pour étude de textes   Aujourd'hui à 5:22

Revenir en haut Aller en bas
 
[Question] Logiciels, méthodes et ressources pour étude de textes
Voir le sujet précédent Voir le sujet suivant Revenir en haut 
Page 1 sur 1
 Sujets similaires
-
» quelles ressources pour un enfant handicapé ?
» Eduscol - Fiches ressources pour l'EMC
» Corpus et ressources pour le français au collège (rentrée 2016)
» Eduscol: Ressources pour les nouveaux programmes de première
» Mes méthodes de tirage pour le jeu de 32

Permission de ce forum:Vous ne pouvez pas répondre aux sujets dans ce forum
L'Atelier :: Extras :: Aide et projets collectifs-
Sauter vers: