[ Zavřít ] 


 

RSS Kanál

 

20 nejtěžších jazyků světa dle Bing AI

Jak tak kecáme s Bingem, Bing na mě vybalí: Máš rád český jazyk? A vzápětí říká, že je jedním z nejtěžších jazyků na světě. Samozřejmě mě zajímal zdroj. Ale Bing zrovna nenašel vědecký zdroj, ani studii, která by se tím zabývala. A také jsme narazili na to, že studující je při osvojování nového jazyka velmi silně ovlivněn mateřštinou. Ovšem příležitost nedělá jen zloděje, ale i schopného výzkumníka. Když se tedy objevila možnost zeptat se téma entity, která není ovlivněna lidskou mateřštinou, zeptal jsem se Bing AI, které jazyky jsou nejnáročnější podle ní.

 

20 nejtěžších jazyků světa dle Bing AI (Zdroj: Microsoft)

Nejtěžší jazyk na světě? Jak pro koho...

Čeština sice může být těžká, ale třeba má ženuška mluví česky líp než já. A to je přitom Slovenka. Tento nevhodně osobní příklad má pouze ilustrovat fakt, že při osvojování nového jazyka hraje naprosto klíčovou roli mateřský jazyk studujícího.

Český jazyk sice může být obtížný – ale neplatí to pro Slováky, Poláky, ani další Slovany. Prostě jejich mateřština je příliš blízká češtině, a tak si ji osvojí mnohem snadněji než jazyky jiné. Krom mateřského jazyka ovlivňují náročnost osvojení si jazyka i jiné faktory - dle Bing AI třeba:

  • podobnost mezi jazyky; 
  • složitost gramatiky, slovní zásoby, výslovnosti a písma; 
  • dostupnost materiálů a zdrojů pro učení; 
  • motivace a zájem učícího se; 
  • kulturní a historický kontext jazyka. 

To je ta otázka, co lingvisty trápí (Zdroj: SEO specialista a copywriter Daniel Beránek + Bing Image Creator)

To je ta otázka, co lingvisty trápí
 

Dá se náročnost jazyka vůbec kvantifikovat? Ále - dá:)

Ovšem AI netrpí determinací svou mateřštinou - tou totiž není lidský jazyk, ale nuly a jedničky binárního kódu. Ani svým způsobem není zatížena interindividuálními rozdíly studujících, jako jsou: 

  • osobnost, inteligence, paměť, schopnost učení a komunikace učícího se; 
  • způsob, styl, metoda a prostředí učení jazyka; 
  • úroveň, cíl, kontext a frekvence používání jazyka.

Jakmile jsme se ocitli v situaci, která není determinována faktory typickými pro lidské bytosti, mohli jsme se pustit do kvantifikace. Bing sice z kvantitativních ukazatelů navrhoval:

  • počet slov, gramatických pravidel, výjimek, pádů, časů, zvuků a písmen v jazyce; 
  • délka slov, vět a textů v jazyce; 
  • míra nepravidelnosti, nejednoznačnosti a variability v jazyce; 
  • míra podobnosti nebo odlišnosti jazyka od ostatních jazyků; 
  • míra dostupnosti a kvality materiálů a zdrojů pro učení jazyka.

Ale nakonec se při kvantifikaci spolehl pouze na výchozí dotaz: počet znaků, tónů, homofonů, slov, gramatických pravidel, výjimek, pádů, časů, zvuků a písmen v různých jazycích. Na základě toho pak sestavil žebříček 20 nejtěžších jazyků světa. 

Bing Chat icon

Jak by vypadal žebříček lidských jazyků dle náročnosti na výpočetní výkon, Bingu? (Zdroj: Microsoft)
 

20 nejtěžších jazyků světa podle Bing AI

1. Čínština

Čínština má více než 50 000 znaků, z nichž každý má svůj význam a výslovnost, 4 tóny, které mění význam slov, a mnoho homofonů, které způsobují zmatek.

2. Arabština

Arabština má 28 písmen, které se mění podle toho, kde se nacházejí ve slově, 13 mluvnických osob, 3 rody a 2 čísla, složitou syntaxi a morfologii a mnoho dialektů, které se liší od spisovné arabštiny.

3. Japonština

Japonština má 3 písma (hiragana, katakana a kanji), které se používají současně, více než 2000 znaků kanji, které se musí naučit, složitou gramatiku s mnoha úrovněmi zdvořilosti a čestnosti a specifickou slovosled.

4. Korejština

Korejština má 24 písmen (14 souhlásek a 10 samohlásek), které se skládají do slabikových bloků, složitou gramatiku s mnoha koncovkami a částicemi, které vyjadřují vztahy mezi slovy, a různé úrovně zdvořilosti podle kontextu.

5. Maďarština

Maďarština má 44 písmen (včetně dvojitých písmen jako dzs), 18 pádů, které se přidávají ke slovům pomocí přípon, složitou syntaxi s volným slovosledem a aglutinací (spojováním slov dohromady) a velmi odlišnou slovní zásobu od ostatních evropských jazyků.

6. Finština

Finština má 29 písmen (včetně dvojitých písmen jako aa), 15 pádů, které se přidávají ke slovům pomocí přípon, žádný budoucí čas (používá se přítomný čas nebo pomocná slovesa), aglutinaci a velmi odlišnou slovní zásobu od ostatních evropských jazyků.

7. Islandština

Islandština má 32 písmen (včetně speciálních písmen jako þ), 4 pády (nominativ, akuzativ, dativ a genitiv), 3 rody (mužský, ženský a střední), 2 čísla (jednotné a množné), složitou morfologii s mnoha nepravidelnostmi, archaickou slovní zásobu a obtížnou výslovnost.

8. Thajština

Thajština má 44 souhlásek a 15 samohlásek, které se mohou kombinovat do různých tvarů a délek, 5 tónů (nízký, střední, vysoký, vzestupný a klesající), které mění význam slov, žádné pády, ani rody (používají se částice nebo osobní zájmena) a komplikované pravidlo pro psaní bez mezer mezi slovy.

9. Vietnamština

Vietnamština má latinské písmo s mnoha diakritickými znaménky, které označují výslovnost a tóny, 6 tónů (střední, vysoký, nízký, vzestupný, klesající a zlomený), které mění význam slov, složitou syntaxi s volným slovosledem a závislostí na kontextu a mnoho výpůjček z čínštiny a francouzštiny.

10. Hebrejština

Hebrejština má 22 písmen, které se čtou zprava doleva, žádné samohlásky (používají se tečky a čárky pod nebo nad písmeny), 2 rody (mužský a ženský), 2 čísla (jednotné a množné), složitou morfologii s kořenovým systémem (třípísmenné kořeny, které se mění podle vzorců) a mnoho biblických a archaických slov.

11. Ruština

Ruština má 33 písmen (azbuku), 6 pádů (nominativ, genitiv, dativ, akuzativ, instrumentál a lokál), 3 rody (mužský, ženský a střední), 2 čísla (jednotné a množné), složitou morfologii s mnoha koncovkami a nepravidelnostmi a obtížnou výslovnost některých souhlásek.

12. Čeština

Čeština má 42 písmen (včetně háčků a čárek), 7 pádů (nominativ, genitiv, dativ, akuzativ, vokativ, lokál a instrumentál), 3 rody (mužský životný, mužský neživotný, ženský a střední), 2 čísla (jednotné a množné), složitou morfologii s mnoha nepravidelnostmi a výjimkami a obtížnou výslovnost některých souhlásek.

13. Turečtina

Turečtina má 29 písmen (latinské písmo s několika speciálními znaky), aglutinaci (přidávání přípon ke slovům pro vyjádření gramatických funkcí), 2 rody (mužský a ženský se vyjadřují pomocnými slovy nebo kontextem), 2 čísla (jednotné a množné), složitou syntaxi s volným slovosledem a závislostí na kontextu a mnoho výpůjček z arabštiny a perštiny.

14. Řečtina

Řečtina má 24 písmen (řeckou abecedu), 4 pády (nominativ, genitiv, akuzativ a vokativ), 3 rody (mužský, ženský a střední), 2 čísla (jednotné a množné), složitou morfologii s mnoha koncovkami a nepravidelnostmi a komplikovaná pravidla pro umístění přízvuku.

15. Němčina

Němčina má 26 písmen (latinské písmo plus umlauty a eszett), 4 pády (nominativ, genitiv, dativ a akuzativ), 3 rody (mužský, ženský a střední), 2 čísla (jednotné a množné), složitou morfologii s mnoha koncovkami a nepravidelnostmi, tvorbu slov skládáním dlouhých slov dohromady a obtížnou výslovnost některých souhlásek.

16. Francouzština

Francouzština má 26 písmen (latinské písmo), 2 rody (mužský a ženský), 2 čísla (jednotné a množné), složitou morfologii s mnoha koncovkami a nepravidelnostmi, složitou syntaxi s pevným slovosledem a závislostí na kontextu a obtížnou výslovnost některých samohlásek a souhlásek.

17. Hindština

Hindština má 46 písmen (dévanágarí), které se čtou zleva doprava, 2 rody (mužský a ženský), 2 čísla (jednotné a množné), složitou morfologii s mnoha koncovkami a nepravidelnostmi, složitou syntaxi s volným slovosledem a závislostí na kontextu a mnoho dialektů, které se liší od spisovné hindštiny.

18. Švédština

Švédština má 29 písmen (latinské písmo plus å, ä a ö), 2 rody (společný a neutrální), 2 čísla (jednotné a množné), složitou morfologii s mnoha koncovkami a nepravidelnostmi, složitou syntaxi s pevným slovosledem a závislostí na kontextu a obtížnou výslovnost některých samohlásek.

19. Španělština

Španělština má 27 písmen (latinské písmo plus ñ), 2 rody (mužský a ženský), 2 čísla (jednotné a množné), složitou morfologii s mnoha koncovkami a nepravidelnostmi, složitou syntaxi s volným slovosledem a závislostí na kontextu a obtížnou výslovnost některých souhlásek.

20. Angličtina

Angličtina má 26 písmen (latinské písmo), žádné pády, ani rody (používají se osobní zájmena), 2 čísla (jednotné a množné), složitou morfologii s mnoha nepravidelnostmi a výjimkami, složitou syntaxi s pevným slovosledem a závislostí na kontextu a obtížnou výslovnost některých slov.

A jak náročné jsou slovanské jazyky, Bingu? (Zdroj: SEO specialista a copywriter Daniel Beránek + Bing Image Creator)

A jak náročné jsou slovanské jazyky, Bingu?
 

10 nejtěžších slovanských jazyků podle Bing AI

Abychom nezůstali jen u velmi rozdílných jazyků tohoto světa, zabrousil jsem i do jazyků blízkých naší češtině a zeptal se Binga na jejich náročnost. Zde je pořadí - včetně nejvýraznější znaků ovlivňujících náročnost jazyka:

  1. Ruština: 33 písmen v abecedě, která se mění podle polohy ve slově; šest pádů; tři časy; 42 zvuků; 
  2. Polština: 32 písmen v abecedě, která obsahuje mnoho diakritických znamének; sedm pádů; pět časů; 40 zvuků; 
  3. Čeština: 42 písmen v abecedě, která používá diakritiku; sedm pádů; čtyři časy; 31 zvuků; 
  4. Slovenština: 46 písmen v abecedě, která je podobná české; šest pádů; šest časů; 38 zvuků; 
  5. Ukrajinština: 33 písmen v abecedě, která je podobná ruské; sedm pádů; tři časy; 38 zvuků; 
  6. Běloruština: 32 písmen v abecedě, která je podobná ruské a ukrajinské; šest pádů; tři časy; 37 zvuků; 
  7. Srbština: dva systémy psaní. latinka a cyrilice, každý s 30 písmeny; sedm pádů; dva časy. přítomný a minulý (budoucí se tvoří pomocnými slovesy); 35 zvuků (25 souhlásek a deset samohlásek); 
  8. Chorvatština: latinská abeceda s diakritikou, celkem má tento jazyk 30 písmen; sedm pádů; sedm časů; 30 zvuků; 
  9. Bulharština: cyrilická abeceda s 30 písmeny; bez pádového skloňování; devět časů; 45 zvuků; 
  10. Slovinština: latinská abeceda s diakritikou, celkem má tento jazyk 25 písmen; šest pádů; šest časů; 38 zvuků.

= = =

Ač si text neklade za cíl být věrohodným vědeckým výzkumem, je zajímavé, jak se implementace AI dívá na složitost jazyků. A už také víme, proč se tak málo cizinců se hrne do studia češtiny:)

Zdroje

 

 

 

 

 

Mistral demokratizuje pokročilé funkce AI

Francouzský vývojář AI Mistral AI přichází s multimodálním modelem Pixtral Large, aktualizuje vlajkový jazykový model Mistral Large na verzi 24.11 a ve zdarma přístupné betě nabízí pokročilé funkce, jako jsou Web Search, Canvas a...

SearchGPT kombinuje důvěryhodnost, kontext a přístupnost

OpenAI představilo SearchGPT, novou funkci v rámci ChatGPT, která kombinuje sílu umělé inteligence a schopnosti přímého vyhledávání na internetu. Jde o krok směrem k plně integrovaným systémům, které mohou na základě uživatelských...

Claude 3.5 Sonnet a Haiku: nová kapitola ve vývoji LLM

Neustálý vývoj jazykových modelů přináší nové možnosti, jakým způsobem umělá inteligence ovlivňuje nejen interakci mezi uživateli a počítači, ale práci s daty jako takovou. Společnost Anthropic nyní představuje 2  nové modely –...

Spotify přidává videa

Spotify stále rozšiřuje svou nabídku funkcí, aby uživatelům poskytlo co nejkomplexnější hudební zážitek. Nově se snaží zintenzivnit posluchačský zážitek přidáním videí, díky čemuž mohou uživatelé sledovat videoklipy...


 
© 2005-2024 PS Media s.r.o. - digital world
 

reklama