L'Atelier

Créations linguistiques
et mondes imaginaires
 
AccueilAccueil  PortailPortail  CalendrierCalendrier  GalerieGalerie  FAQFAQ  RechercherRechercher  MembresMembres  GroupesGroupes  S'enregistrerS'enregistrer  Connexion  

Partagez | 
 

 Zipf et Yule-Simon

Voir le sujet précédent Voir le sujet suivant Aller en bas 
AuteurMessage
Leo



Messages : 1964
Date d'inscription : 26/03/2009
Localisation : Myrianésie

MessageSujet: Zipf et Yule-Simon   Mar 13 Nov 2012 - 0:55

Voici un outil pour tester si une conlang a des caractéristiques naturalistes ou non.

La distribution des fréquences d'usage des mots d'une langue naturelle obéit à la loi de Zipf, et la distribution des fréquences d'usage des phonèmes à la loi de Yule-Simon.

La loi de Yule-Simon décrit également la fréquence d'apparition des codons de l'ADN. D'une façon générale ces deux lois se retrouvent dans tout un tas de phénomènes mettant en jeu le codage de l'information.

Donc voilà, si vous avez un corpus suffisant, vous pouvez tester si votre langue a subi l'entropie de l'information.

https://pulib.sk/skase/Volumes/JTL09/pdf_doc/1.pdf
http://fr.wikipedia.org/wiki/Loi_de_Yule-Simon
http://fr.wikipedia.org/wiki/Loi_de_Zipf

A noter que les statistiques de fréquence des phonèmes ne doivent jamais se faire sur des dictionnaires, mais sur des corpus.
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Anoev
Modérateur


Messages : 16319
Date d'inscription : 17/10/2008
Localisation : Île-de-France

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 1:46

J'ai nila méthode, ni la patience.

Embarassed pale
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Sab



Messages : 1218
Date d'inscription : 10/03/2008
Localisation : Polynésie / France

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 1:47

Merci Leo pour ces liens et éléments d'analyse. Je ne comprends strictement rien concernant la loi de Yule-Simon. En revanche, pour celle de Zipf, cela semble davantage exploitable.

En utilisant un outil sur la fréquence des mots, trouvé dans les liens de l'article Zipf que tu donnes, appliqué à un texte en Kotava, la traduction des 5 premiers chapitres du roman "Le Don paisible" du russe Mikhail Cholokhov, on obtient :

Semantic Depth Analyzer a écrit:
Vocabulary analysis
Unique words in your vocabulary 2693 for a total of 6976 words in the text, a richness of 38 % :

541 va
264 –
142 ke
102 in
95 grigori
78 aze
71 is
63 ise
59 ve
59 al
56 koe
54 me
39 aksinya
36 ton
34 dum
31 nume
31 lava
31 kan
30 zo
30 moe
30 ko
30 dem
29 fu
28 rin
28 gu
27 tir
27 mo
26 okol
26 jin
26 int
26 da
[.../...]
Il convient d'éliminer les 264 occurrences "-", qui correspondent à des tirets de dialogue. Les 95 "Grigori" et 39 "Aksinya" sont ceux des prénoms des héros.

Sinon, ce qui apparait sans photo (chose que tout kotavophone dirait instinctivement), c'est que le mot le plus fréquent, et de loin, est "va", qui est celui de la préposition d'objet (l'accusatif en d'autres termes).

Ensuite, le "ke" est celui de la préposition "de" de possession.
Le "in" est le pronom de troisième personne.
Le cas de "aze", "is" et "ise" sont intéressants. Le premier est un "et puis" entre propositions. Le second un "et (additif)" simple, et le troisième le "et (additif)" entre propositions.

Dans ce qui suit, on trouve essentiellement :
- des particules d'aspect : ve, al, fu
- des prépositions : koe, ton, kan, moe, ko, dem, gu, mo
- la négation : me
- des conjonctions : nume (et donc), dum (comme), da (que)
- des pronoms personnels : rin (tu), jin (je), int (soi)

Dans cette liste :
- deux noms communs : lava (eau), okol (cheval)
- une seule forme verbale : tir (est)

En tout cas, ce qui est particulièrement significatif, c'est le fait qu'on a presque exclusivement des mots très courts (d'une syllabe la plupart)
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://www.europalingua.eu
Olivier Simon



Messages : 3851
Date d'inscription : 20/02/2009
Localisation : Lorraine

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 18:01

A présent, pour peaufiner le dictionnaire (automatique) sambahsa, j'utilise un outil statistique pour inclure les mots plus fréquents dans la liste et vérifier certains oublis.

Il y a plus d'un an, Steve Rice avait analysé statistiquement l'ensemble des textes sambahsa disponibles.
Voici les mots les fréquents selon ses recherches :
id = 4259, ed = 2112, un = 2001, ia = 1438, is = 1319, in = 1037, ios = 798, eet = 754, iom = 660, hieb = 570, ep = 537.

Pas vraiment une courbe de Zipf; la plupart des mots sont des pronoms-articles : la similitude de ces deux catégories en Sambahsa accroît leur fréquence. On trouve aussi "eet" = "était" et "hieb" = passé du verbe avoir. Pas étonnant, puisque les textes littéraires sont généralement écrits au passé.

A présent, comme mise à l'épreuve, je vais tester mes dernières traductions, dix pages non-publiées, non prises en compte par Steve.

Résultat :
ed = 266, id = 174, io = 102, un = 72, eet = 69, ye = 66, me = 63, in = 54, mien = 52, ia = 47, ne = 46, to = 43, hieb = 46

Rien à avoir avec Zipf, et pas grand-chose avec la statistique dressée par Steve !

Apparaissent des pronoms de la 1° personne singulier : io, me, mien . Ca s'explique par le fait que le personnage central du texte en question est le narrateur.

Bon, ces lois statistiques me semblent peu applicables à l'étude purement linguistique des langues (bien sûr, elles ont leur utilité pour l'analyse des textes dans le cadre d'une transmission d'information avec codage).

A la rigueur, j'ai pu parler d'entropie au sujet du sambahsa, mais plutôt pour qualifier la conjonction des principes de brièveté et de précision. Par exemple, les pronoms articles monosyllabiques incluent l'information sur le gendre, le cas, le nombre. Ou bien, le sambahsa peut être "pro-drop" si la terminaison laisse deviner la personne.

Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://sambahsa.pbwiki.com/
Silvano



Messages : 11727
Date d'inscription : 03/12/2010
Localisation : 45° 30' N 73° 38' W

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 18:13

Olivier,
il semble bien que ton corpus ne soit pas suffisamment grand.
Une liste de mots pour l'espéranto. Est-ce que ça fonctionne?
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://proposcongrusetincongrus.blogspot.ca
Olivier Simon



Messages : 3851
Date d'inscription : 20/02/2009
Localisation : Lorraine

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 18:28

Oui, le second texte-test est assez petit; cependant, puisqu'il a un style semblable du début à la fin (en son intégrité et non sur 10 pags), je ne pense pas que ça changerait beaucoup de choses pour les mots les plus fréquents qui sont des pronoms, des mots-outils et non des substantifs, adjectifs ou verbes dépendant du contexte).
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://sambahsa.pbwiki.com/
Silvano



Messages : 11727
Date d'inscription : 03/12/2010
Localisation : 45° 30' N 73° 38' W

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 18:31

Justement un corpus devrait contenir plusieurs textes, et des texte variés. Ça doit modifier le résultat.
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://proposcongrusetincongrus.blogspot.ca
Invité
Invité



MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 19:33

silent 


Dernière édition par lsd le Sam 6 Juil 2013 - 15:59, édité 1 fois
Revenir en haut Aller en bas
Leo



Messages : 1964
Date d'inscription : 26/03/2009
Localisation : Myrianésie

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 22:02

Sab, tu as utilisé ce site: http://1.1o1.in/en/webtools/semantic-depth donné dans le wikipedia en anglais? Est-ce qu'il a bien pris en compte les caractères accentués du kotava?

Il nous faudrait un mathématicien ou un logiciel de curve fitting pour voir si les statistiques du kotava, du sambahsa et de l'esperanto dessinent une courbe de Zipf. Quelqu'un peut nous aider? Olivier, comment peux-tu affirmer d'emblée que tes données ne suivent pas une courbe de Zipf?

lsd, c'est la question que je me pose, notamment pour les langues à morphologie lourde. Les statistiques de l'esperanto que donne Silvano sont ramenées aux formes nues (infinitif, nominatif singulier), tandis que d'autres, pour l'anglais ou le français, distinguent toutes les formes possibles de conjugaison. Pour la ptite langue, je serais bien embêté car on peut l'écrire de manière isolante ou bien attacher les séquences de morphèmes les plus fréquentes. Mais si la loi de Zipf, Mandelbrot ou Yule est si omniprésente, j'ai l'impression que quelle que soit la méthode de découpage utilisée, on devrait tomber sur le même type de courbe de distribution.

PS: Je confirme ce que dit Silvano, il faut un corpus de bonne taille pour obtenir des statistiques valables.
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Olivier Simon



Messages : 3851
Date d'inscription : 20/02/2009
Localisation : Lorraine

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 22:30

Leo a écrit:

Il nous faudrait un mathématicien ou un logiciel de curve fitting pour voir si les statistiques du kotava, du sambahsa et de l'esperanto dessinent une courbe de Zipf. Quelqu'un peut nous aider? Olivier, comment peux-tu affirmer d'emblée que tes données ne suivent pas une courbe de Zipf?

.
Je me suis fié à la remarque humoristique sur Wikipédia... (8000 fois le premier, 800 le suivant...).
Voici les statistiques de Steve pour les premiers mots :


Word Frequency %


id 4259 4.66
ed 2112 2.31
un 2001 2.19
ia 1438 1.57
is 1319 1.44
in 1037 1.13
ios 798 0.87
eet 754 0.83
- 684 0.75
! 676 0.74
iom 660 0.72
hieb 570 0.62
: 542 0.59
ep 537 0.59
sien 527 0.58
de 518 0.57
est 485 0.53
os 481 0.53
kay 476 0.52
i 476 0.52
ne 448 0.49
quod 415 0.45
bet 388 0.42
tod 373 0.41
? 360 0.39
od 332 0.36
med 322 0.35
ex 316 0.35
se 288 0.32
yu 287 0.31
do 275 0.30
eys 263 0.29
ad 246 0.27
ye 235 0.26
ab 234 0.26
mien 227 0.25
hat 223 0.24
eent 215 0.24
ei 214 0.23
quem 208 0.23
unte 207 0.23
pro 204 0.22
io 204 0.22
uno 201 0.22
me 199 0.22
ir 198 0.22
iam 197 0.22
vos 191 0.21
buit 182 0.20
Golf 177 0.19
con 177 0.19
ho 167 0.18
kam 157 0.17
ud 154 0.17
Waktprincesse 151 0.17
oin 150 0.16
dind 150 0.16
kun 148 0.16
to 144 0.16
ses 144 0.16
pos 143 0.16
dwer 140 0.15
; 138 0.15
dwo 131 0.14
el 129 0.14
ghohd 127 0.14
qui 126 0.14
quo 125 0.14
tun 124 0.14
uns 123 0.13
quer 120 0.13
hol 120 0.13
tem 119 0.13
pre 119 0.13
Philippe 118 0.13
im 115 0.13
John 114 0.12
ter 113 0.12
Bob 113 0.12
ies 112 0.12
wir 110 0.12
ardh 108 0.12
kyid 107 0.12
om 105 0.11
iey 105 0.11
Zabdiel 104 0.11
sei 103 0.11
Braham 103 0.11
tik 101 0.11
Ithacus 101 0.11
qua 100 0.11
ob 100 0.11
quant 99 0.11
neid 99 0.11
lyt 96 0.11
kwohk 96 0.11
menxu 95 0.10
per 94 0.10
journaliste 94 0.10
ghi 93 0.10
Elohîms 93 0.10
vis 92 0.10
sub 92 0.10
Valiocka 90 0.10
ghom 90 0.10
ays 90 0.10
oik 86 0.09
meis 86 0.09
Medduzz 85 0.09
aun 85 0.09
wogh 82 0.09
tien 82 0.09
ta 82 0.09
sont 81 0.09
apter 81 0.09
inter 80 0.09
strad 79 0.09
ay 79 0.09
quos 78 0.09
iens 76 0.08
au 76 0.08
ant 73 0.08
ub 72 0.08
sayct 72 0.08
dien 72 0.08
vies 71 0.08
smulk 71 0.08
mi 70 0.08
fauran 70 0.08
Peter 69 0.08
dar 69 0.08
ya 67 0.07
tsay 66 0.07
stayg 66 0.07
vide 64 0.07
nos 64 0.07
IHVH-Adonay 63 0.07
aventurers 63 0.07
wohs 62 0.07
te 62 0.07
sem 62 0.07
meg 62 0.07
bad 62 0.07
tu 61 0.07
oku 61 0.07
kye 61 0.07
sprohg 60 0.07
so 60 0.07
lakin 60 0.07
ka 60 0.07
tiel 59 0.06
just 59 0.06
dom 59 0.06
uper 58 0.06
Pardoe 58 0.06
her 58 0.06
bo 58 0.06
quel 57 0.06
nam 57 0.06
habiet 57 0.06
nies 56 0.06
kwehre 56 0.06
baygh 55 0.06
wakt 54 0.06
mier 54 0.06
katha 54 0.06
hant 54 0.06
taiper 53 0.06
alyo 53 0.06
villa 52 0.06
tid 52 0.06
habte 52 0.06
pior 51 0.06
mox 51 0.06
Lucas 51 0.06
kyal 51 0.06
gwahsit 51 0.06
wed 50 0.05
serter 49 0.05
samt 49 0.05
diens 49 0.05
tri 48 0.05
San 47 0.05
okwi 47 0.05
duxit 47 0.05
wirs 46 0.05
sieyg 46 0.05
maung 46 0.05
kafi 46 0.05
ja 46 0.05
gwahe 46 0.05
esen 46 0.05
stet 45 0.05
quayque 45 0.05
prosch 45 0.05
land 45 0.05
itner 45 0.05
ids 45 0.05
hatta 45 0.05
antwohrd 45 0.05
quan 44 0.05
kamer 44 0.05
gwohm 44 0.05
dalger 44 0.05
quando 43 0.05
mur 43 0.05
mater 43 0.05
long 43 0.05
diek 43 0.05
desert 43 0.05
voc 42 0.05
semper 42 0.05
plur 42 0.05
gohd 42 0.05
Francisco 42 0.05
cap 42 0.05
urb 41 0.04
sessiet 41 0.04
nieb 41 0.04
neti 41 0.04
buir 41 0.04
quants 40 0.04
Laura 40 0.04
gwiv 40 0.04
glebeus 40 0.04
circa 40 0.04


Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://sambahsa.pbwiki.com/
Nemszev
Admin


Messages : 5382
Date d'inscription : 06/03/2008
Localisation : Bruxelles, Belgique

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 22:50

J'ai des cours de méthodes pour traiter des corpus avec des programmes informatiques. Si vous avez des corpus de texte en langue construite, on peut essayer... Razz
En général, ça permet de trouver des expressions figées ou des mots souvent associés entre eux.

_________________
Sce tu cores tras davors, no chataràs mai onors...
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Leo



Messages : 1964
Date d'inscription : 26/03/2009
Localisation : Myrianésie

MessageSujet: Re: Zipf et Yule-Simon   Mar 13 Nov 2012 - 23:01

Olivier, les chiffres dépendent de la taille du corpus utilisé!!!!!!!!
C'est uniquement la forme de la courbe qui compte, son paramètre d'ajustement.

Nemszev, ça serait cool ^^

Sinon j'ai trouvé des outils pour Zipf et autres traitements statistiques:

http://cran.r-project.org/web/packages/zipfR/index.html
http://cran.r-project.org/web/views/NaturalLanguageProcessing.html
http://cran.r-project.org/

Si quelqu'un a le temps de se pencher dessus et de nous faire profiter de ses lumières...
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Sab



Messages : 1218
Date d'inscription : 10/03/2008
Localisation : Polynésie / France

MessageSujet: Re: Zipf et Yule-Simon   Mer 14 Nov 2012 - 0:36

Leo a écrit:
Sab, tu as utilisé ce site: http://1.1o1.in/en/webtools/semantic-depth donné dans le wikipedia en anglais? Est-ce qu'il a bien pris en compte les caractères accentués du kotava?
Oui, c'est effectivement cet outil. Et il distingue bien les caractères accentués.

L'analyse a isolé toutes les formes fléchies, tous les paradigmes. Compte tenu de l'importance d'usage en Kotava des suffixes totaux (augmentatifs, diminutifs, etc.), des marques de conjugaison (désinences personnelles, temps) et de tous les affixes couramment utilisés (modalités par exemple), ainsi que la règle de l'euphonie vocalique (qui double peut-être le nombre de variations des adjectifs), il est évident que cela doit augmenter assez notablement la dispersion des occurrences.

A tout coup, une langue fortement isolante devrait avoir une dispersion moins grande et, j'imagine, une concentration de mots fréquents plus développée (mais polysémiques et polyfonctionnels).
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://www.europalingua.eu
Leo



Messages : 1964
Date d'inscription : 26/03/2009
Localisation : Myrianésie

MessageSujet: Re: Zipf et Yule-Simon   Mer 14 Nov 2012 - 0:48

Sab a écrit:
A tout coup, une langue fortement isolante devrait avoir une dispersion moins grande et, j'imagine, une concentration de mots fréquents plus développée (mais polysémiques et polyfonctionnels).
A ce sujet, je viens de voir que les caractères du chinois ne suivent pas Zipf, mais les mots du chinois le suivent:
http://jis.sagepub.com/content/20/2/142.abstract
La plupart des mots du chinois sont composés de plusieurs caractères, même si les textes collent tous les caractères.
On en revient quand même au problème dont parlait lsd: la délicate définition de ce qu'est exactement un mot.

Au passage, la page d'accueil du R Project avec screenshots et manuel d'utilisation est ici: http://www.r-project.org/

EDIT: Wow, une approche originale qui se passe presque de la notion de mot et considère les groupements:
http://aclweb.org/anthology-new/O/O03/O03-4004.pdf
C'est ce qu'il me faut pour la ptite langue, et probablement aussi pour la lsd de lsd.

EDIT2: Bon sang, on retrouve Zipf même dans le jeu de go:
http://iopscience.iop.org/0295-5075/97/6/68002/article
Ca en devient effrayant...
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Contenu sponsorisé




MessageSujet: Re: Zipf et Yule-Simon   Aujourd'hui à 14:47

Revenir en haut Aller en bas
 
Zipf et Yule-Simon
Voir le sujet précédent Voir le sujet suivant Revenir en haut 
Page 1 sur 1
 Sujets similaires
-
» Zipf et Yule-Simon
» PREVOST DE VERNOIS Simon Pierre Nicolas Colonel
» Saint Simon et Saint Jude Apôtres et commentaire du jour "L'unité des Douze, l'unité de l'Eglise"
» DU CHAYLA Armand-Simon-Marie.VICE-AMIRAL
» Simon et sa FLP

Permission de ce forum:Vous ne pouvez pas répondre aux sujets dans ce forum
L'Atelier :: Le vif du sujet :: Idéogénéral-
Sauter vers: