英語と5つの人工言語で基礎語彙の編集距離を求めます。
目次
概要
Interlingua を作る際に、人工言語の分類が行われました。
Model P highly naturalistic, with word forms unchanged from the prototypes Model M moderately naturalistic, similar to Occidental Model C slightly schematic, along the lines of Novial Model K moderately schematic, similar to Ido (less schematic than Esperanto)
Model P がもっとも自然言語に近く、M → C → K と人工的になっていきます。Esperanto は Model K よりも更に人工的だと位置付けられています。検討の結果、Interlingua は Model P として設計されました。
ここで名前が挙がった人工言語を人工的な順に並べます。
- Esperanto
- Ido
- Novial
- Interlingue(旧称 Occidental)
- Interlingua
※ Novial と Interlingue を入れ替えれば発表された順番になります。
これらに英語を加えて、基礎単語の類似度を調べます。
スワデシュ・リスト
基礎単語の調査によく使われるのがスワデシュ・リストです。
スワデシュ・リスト (英語:Swadesh list)とは、「基礎語彙」を集めた様々なリストのうちの一種であり、モリス・スワデシュが1940年代から1950年代にかけて発展させたものである。語彙統計学(言語間の近縁度の量的な見積もり)や、言語年代学(言語の分岐年代の決定)に用いられる。
Wiktionary には様々な言語のスワデシュ・リストがまとめられています。
※ Novial は私が編集しました。
対象の言語を引用します。なお、複数の語が掲載されている場合、他の言語と語形が似ている単語だけを残しました。
English | Esperanto | Ido | Novial | Interlingue | Interlingua |
---|---|---|---|---|---|
I | mi | me | me | yo | io |
thou | vi | tu | vu | tu | tu |
he | li | ilu | lo | il | ille |
we | ni | ni | nus | noi | nos |
you | vi | vi | vus | vu | vos |
they | ili | ili | los | ili | illes |
this | ĉi tio | ica | disi | to-ci | iste |
that | tio | ita | ti | to-ta | celle |
here | ĉi tie | hike | hir | ci | hic |
there | tie | ibe | dar | ta | illac |
who | kiu | qua | que | qui | qui |
what | kio | quo | quum | quo | que |
where | kie | ube | vor | u | ubi |
when | kiam | kande | quand | quande | quando |
how | kiel | quale | quam | qualmen | como |
not | ne | ne | non | ne | non |
all | ĉiuj | omna | omni | omni | omne |
many | multaj | multa | multi | mult | multe |
some | kelkaj | kelka | kelki | quelc | alcun |
few | malmultaj | poka | poki | poc | poc |
other | alia | altra | altri | altri | altere |
one | unu | un | un | un | un |
two | du | du | du | du | duo |
three | tri | tri | tri | tri | tres |
four | kvar | quar | quar | quar | quatro |
five | kvin | kin | sink | quin | cinque |
big | granda | granda | grandi | grand | grande |
long | longa | longa | longi | long | longe |
wide | larĝa | larja | larji | larg | large |
thick | dika | dika | gros | spess | spisse |
heavy | peza | grava | grav | pesant | pesante |
small | malgranda | mikra | mikri | micri | parve |
short | mallonga | kurta | kurti | curt | curte |
narrow | mallarĝa | streta | angusti | strett | stricte |
thin | maldika | dina | tenu | tenui | tenue |
woman | virino | muliero | fema | fémina | femina |
man | viro | viro | viro | mann | viro |
man | homo | homo | home | hom | homine |
child | infano | infanto | infante | infante | infante |
wife | edzino | spozino | marita | marita | marita |
husband | edzo | spozulo | marito | marito | marito |
mother | patrino | matro | matra | matre | matre |
father | patro | patro | patre | patre | patre |
animal | besto | animalo | animale | animale | animal |
fish | fiŝo | fisho | fishe | pise | pisce |
bird | birdo | ucelo | fogle | avie | ave |
dog | hundo | hundo | hunde | cane | can |
louse | pediko | lauso | lause | pedicul | pediculo |
snake | serpento | serpento | serpente | serpente | serpente |
worm | vermo | vermo | verme | verme | verme |
tree | arbo | arboro | arbre | árbor | arbore |
forest | arbaro | foresto | foreste | forest | foreste |
stick | bastono | bastono | bastone | baston | baston |
fruit | frukto | frukto | frukte | fructe | fructo |
seed | semo | semino | seme | seme | semine |
leaf | folio | folio | folie | folie | folio |
root | radiko | radiko | radike | radica | radice |
bark | arboŝelo | kortico | kortise | cortice | cortice |
flower | floro | floro | flore | flor | flor |
grass | herbo | herbo | gasone | herbe | herba |
rope | ŝnuro | kordo | korde | corde | corda |
skin | haŭto | pelo | pele | pelle | pelle |
meat | viando | karno | karne | carne | carne |
blood | sango | sango | sange | sangue | sanguine |
bone | osto | osto | ose | osse | osso |
fat | graso | graso | grasi | grasse | grassia |
egg | ovo | ovo | ove | ove | ovo |
horn | korno | korno | korne | corn | corno |
tail | vosto | kaudo | kaude | caude | cauda |
feather | plumo | plumo | plume | plum | pluma |
hair | haro | haro | hare | capille | capillos |
head | kapo | kapo | kape | cap | capite |
ear | orelo | orelo | orele | orel | aure |
eye | okulo | okulo | okule | ocul | oculo |
nose | nazo | nazo | nase | nase | naso |
mouth | buŝo | boko | boke | bocca | bucca |
tooth | dento | dento | dente | dente | dente |
tongue | lango | lango | lange | lingue | lingua |
nail | ungo | unglo | ungle | ungul | ungula |
foot | piedo | pedo | pede | pede | pede |
leg | kruro | gambo | gambe | gambe | gamba |
knee | genuo | genuo | genu | genú | genu |
hand | mano | manuo | manu | manu | mano |
wing | flugilo | alo | ale | ale | ala |
belly | ventro | ventro | ventre | ventre | ventre |
guts | intestaro | intestini | intestines | intrallia | tripas |
neck | kolo | kolo | kole | col | collo |
back | dorso | dorso | dorse | dorse | dorso |
breast | brusto | pektoro | pektore | péctor | pectore |
heart | koro | kordio | kordie | cordie | corde |
liver | hepato | hepato | hepate | hépate | hepato |
drink | trinki | drinkar | drinka | trincar | biber |
eat | manĝi | manjar | manja | manjar | mangiar |
bite | mordi | mordar | morda | morder | morder |
suck | suĉi | sugar | suka | sucar | suger |
spit | kraĉi | sputar | sputa | sputar | sputar |
vomit | vomi | vomar | vomi | vomir | vomitar |
blow | blovi | suflar | sufla | sufflar | sufflar |
breathe | spiri | respirar | spira | respirar | respirar |
laugh | ridi | ridar | rida | rider | rider |
see | vidi | vidar | vida | vider | vider |
hear | aŭdi | audar | audi | audir | audir |
know | scii | savar | sava | saver | saper |
think | pensi | pensar | pensa | pensar | pensar |
smell | flari | flarar | flara | flarar | olfacer |
fear | timi | timar | tima | timer | timer |
sleep | dormi | dormar | dormi | dormir | dormir |
live | vivi | vivar | viva | viver | viver |
die | morti | mortar | mori | morir | morir |
kill | mortigi | ocidar | tua | mortar | occider |
fight | batali | kombatar | kombata | combatter | luctar |
hunt | ĉasi | chasar | chasa | chassar | chassar |
hit | bati | frapar | frapa | frappar | colpar |
cut | tondi | tranchar | seka | ciser | secar |
split | fendi | fendar | fenda | fender | finder |
stab | mortpiki | poniardagar | pika | picar | dagar |
scratch | grati | gratar | grata | grattar | grattar |
dig | fosi | fodar | fosa | fossar | foder |
swim | naĝi | natar | svima | svimmar | natar |
fly | flugi | flugar | vola | volar | volar |
walk | marŝi | marchar | marcha | ear | ambular |
come | veni | venar | veni | venir | venir |
lie | kuŝi | jacar | lia | jacer | jacer |
sit | sidi | sidar | sida | seder | seder |
stand | stari | stacar | stea | star | star |
turn | turniĝi | turnar | rota | tornar | rotar |
fall | fali | falar | fala | cader | cader |
give | doni | donar | dona | dar | dar |
hold | teni | tenar | tena | tener | tener |
squeeze | premi | klemar | klema | compresser | premer |
rub | froti | frotar | frota | fricter | fricar |
wash | lavi | lavar | lava | lavar | lavar |
wipe | viŝi | vishar | visha | essuyar | essugar |
pull | tiri | tirar | tira | tirar | tirar |
push | puŝi | pulsar | shova | pussar | pulsar |
throw | ĵeti | jetar | jeta | jettar | jectar |
tie | ligi | ligar | liga | nodar | ligar |
sew | kudri | sutar | suta | suer | suer |
count | kalkuli | kontar | konta | contar | contar |
say | diri | dicar | dikte | dir | dicer |
sing | kanti | kantar | kanta | cantar | cantar |
play | ludi | ludar | plea | luder | jocar |
float | flosi | flotacar | flota | flottar | flottar |
flow | flui | fluar | flua | fluer | fluer |
freeze | frostigi | frostar | frosta | gelar | gelar |
swell | ŝveli | inflar | infla | inflar | tumer |
sun | suno | suno | sune | sole | sol |
moon | luno | luno | lune | lune | luna |
star | stelo | stelo | stele | stelle | stella |
water | akvo | aquo | aque | aqua | aqua |
rain | pluvo | pluvo | pluve | pluviar | pluvia |
river | rivero | fluvio | fluvie | fluvie | fluvio |
lake | lago | lago | lage | lago | laco |
sea | maro | maro | mare | mare | mar |
salt | salo | salo | sale | sale | sal |
stone | ŝtono | petro | petre | petre | petra |
sand | sablo | sablo | sande | sable | sablo |
dust | polvo | polvo | polve | polve | pulvere |
earth | tero | tero | tere | terre | terra |
cloud | nubo | nubo | nube | nube | nube |
fog | nebulo | nebulo | neble | nebul | nebula |
sky | ĉielo | cielo | siele | ciel | celo |
wind | vento | vento | vente | vente | vento |
snow | neĝo | nivo | nive | nive | nive |
ice | glacio | glacio | glasie | glacie | glacie |
smoke | fumo | fumuro | fume | fum | fumo |
fire | fajro | fairo | faire | foy | foco |
ash | cindro | cindro | sindre | cindre | cinere |
burn | bruli | brular | brula | arder | arder |
road | strato | strado | strade | strada | strata |
mountain | monto | monto | monte | monte | montania |
red | ruĝa | reda | red | rubi | rubie |
green | verda | verda | verdi | verdi | verde |
yellow | flava | flava | gelbi | yelb | jalne |
white | blanka | blanka | blanki | blanc | blanc |
black | nigra | nigra | nigri | nigri | nigre |
night | nokto | nokto | nokte | nocte | nocte |
day | tago | jorno | jorne | jorne | die |
year | jaro | yaro | yare | annu | anno |
warm | varma | varma | varm | calid | calide |
cold | malvarma | kolda | koldi | frigid | frigide |
full | plena | plena | plen | plen | plen |
new | nova | nova | nov | nov | nove |
old | malnova | anciena | old | old | vetere |
good | bona | bona | bon | bon | bon |
bad | malbona | mala | mal | mal | mal |
rotten | putra | putrinta | putrit | putrid | putride |
dirty | malpura | sordida | sordid | sordid | immunde |
straight | rekta | rekta | rekt | rect | recte |
round | ronda | ronda | rond | rond | ronde |
sharp | akra | akuta | akut | acut | acute |
dull | malakra | obtuza | obtus | ínacut | obtuse |
smooth | glata | glata | glati | glatt | lisie |
wet | malseka | humida | dessik | humid | humide |
dry | seka | sika | sik | sicc | sic |
correct | ĝusta | korekta | justi | just | correcte |
near | proksima | proxim | proxim | proxim | proxime |
far | malproksima | for | ferni | lontan | distante |
right | dekstra | dextra | dextri | dextri | dextre |
left | maldekstra | sinistra | lefti | levul | sinistre |
at | ĉe | che | che | che | apud |
in | en | en | in | in | in |
with | kun | kun | kun | con | con |
and | kaj | e | e | e | e |
if | se | se | si | si | si |
because | ĉar | pro ke | pro ke | pro que | proque |
name | nomo | nomo | nome | nómine | nomine |
英語はかなり違います。人工言語同士は似ていますが、Esperanto は少し毛色が異なる印象です。
正規化レーベンシュタイン距離
どのくらい似ているのかを、正規化したレーベンシュタイン距離で比較します。
類似度を 0~1 の数値で表します。値が大きいほど類似していると判断されています。
English | Esperanto | Ido | Novial | Interlingue | Interlingua | |
---|---|---|---|---|---|---|
English | 0.184 | 0.199 | 0.236 | 0.202 | 0.177 | |
Esperanto | 0.184 | 0.623 | 0.498 | 0.438 | 0.360 | |
Ido | 0.199 | 0.623 | 0.674 | 0.630 | 0.506 | |
Novial | 0.236 | 0.498 | 0.674 | 0.651 | 0.472 | |
Interlingue | 0.202 | 0.438 | 0.630 | 0.651 | 0.601 | |
Interlingua | 0.177 | 0.360 | 0.506 | 0.472 | 0.601 |
類似度の順位です。
- Ido - Novial: 0.674
- Novial - Interlingue: 0.651
- Ido - Interlingue: 0.630
- Esperanto - Ido: 0.623
- Interlingue - Interlingua: 0.601
- Ido - Interlingua: 0.506
- Esperanto - Novial: 0.498
- Novial - Interlingua: 0.472
- Esperanto - Interlingue: 0.438
- Esperanto - Interlingua: 0.360
- English - Novial: 0.236
- English - Interlingue: 0.202
- English - Ido: 0.199
- English - Esperanto: 0.184
- English - Interlingua: 0.177
モデルとして分類した際に隣接した言語が似ていると判断されています。
- Esperanto-(4)-Ido-(1)-Novial-(2)-Interlingue-(5)-Interlingua
英語はかなり離れていますが、Novial とはやや近いです。
ジャロ・ウィンクラー距離
参考までに、別のアルゴリズムによる類似度を示します。
English | Esperanto | Ido | Novial | Interlingue | Interlingua | |
---|---|---|---|---|---|---|
English | 0.439 | 0.460 | 0.494 | 0.452 | 0.447 | |
Esperanto | 0.439 | 0.794 | 0.701 | 0.679 | 0.627 | |
Ido | 0.460 | 0.794 | 0.846 | 0.804 | 0.754 | |
Novial | 0.494 | 0.701 | 0.846 | 0.824 | 0.738 | |
Interlingue | 0.452 | 0.679 | 0.804 | 0.824 | 0.827 | |
Interlingua | 0.447 | 0.627 | 0.754 | 0.738 | 0.827 |
類似度の順位です。
- Ido - Novial: 0.846
- Interlingue - Interlingua: 0.827
- Novial - Interlingue: 0.824
- Ido - Interlingue: 0.804
- Esperanto - Ido: 0.794
- Ido - Interlingua: 0.754
- Novial - Interlingua: 0.738
- Esperanto - Novial: 0.701
- Esperanto - Interlingue: 0.679
- Esperanto - Interlingua: 0.627
- English - Novial: 0.494
- English - Ido: 0.460
- English - Interlingue: 0.452
- English - Interlingua: 0.447
- English - Esperanto: 0.439
正規化レーベンシュタイン距離とは順位が異なります。
やはりモデルとして分類した際に隣接した言語が似ていると判断されています。
- Esperanto-(5)-Ido-(1)-Novial-(3)-Interlingue-(2)-Interlingua
スクリプト
計算に使用したスクリプトです。
参考
正規化する前のレーベンシュタイン距離の計算方法は以下を参照してください。
正規化(標準化)やジャロ・ウィンクラー距離については以下を参照してください。