Kiek žodžių
iš tikrųjų reikia,
kad suprastumėte kalbą?

Duomenimis paremtas kalbos supratimo pagal idiomų dažnumą tyrimas

Autorius: Pavel Ahafonau, R&D vadovas

Ką praktiškai duoda TOP 100, 500 ir 1000 idiomų žinojimas?

Daugelis besimokančiųjų progresą seka skaičiuodami išmoktus žodžius, tačiau šis skaičius retai atspindi, kiek realios kalbos jie iš tikrųjų supranta. Kai supratimas matuojamas tiesiogiai ir siejamas su idiomų žinojimu, mokymosi progresas tampa daug aiškesnis ir konkretesnis. Žemiau pateikta diagrama rodo, kaip kalbos supratimas kinta pereinant nuo nedidelio didžiausią poveikį turinčių idiomų branduolio prie platesnio aprėpties lygio.

1 grafikas. Kalbos supratimo progresas pagal išmoktų idiomų skaičių

Linijinė diagrama, rodanti kalbos supratimo progresą pagal išmoktų idiomų skaičių: greitas augimas pradžioje ir vėliau palaipsnis išsilyginimas.

Kalbos supratimas neauga pastoviu tempu. Kaip matyti diagramoje, supratimas sparčiai didėja, kai besimokantieji įsisavina dažniausiai vartojamas idiomas, o vėliau palaipsniui lėtėja, nes mokymasis pereina nuo bazinės prasmės „atrakinimo“ prie niuansų tobulinimo. Tai kelia praktinį klausimą: kiek idiomų pakanka, kad pasiektumėte prasmingą realaus pasaulio supratimą — ir kur papildomos pastangos pradeda duoti vis mažesnę grąžą?

Šį ryšį galima matuoti ir individualiu lygmeniu. Sekdamas idiomų įsisavinimą ir susiedamas jį su realaus vartojimo dažnumu, WRD nuolat įvertina besimokančiojo dabartinį kalbos supratimo lygį ir atnaujina jį su kiekviena naujai išmokta idioma.

Pasinerkite į duomenis, metodologiją ir rezultatus:

Santrauka
1. Įvadas
2. Duomenų šaltiniai ir mastas
3. Į idiomas orientuota metodologija
4. Kalbos supratimo matavimas
5. Rezultatai
6. Kodėl idiomos greičiau „atrakina“ supratimą
7. Ką tai reiškia kalbų mokymuisi
Išvados
Apie autorių

Santrauka

Dažnas įsitikinimas kalbų mokymesi — kad norint suprasti kalbą reikia iškalti dešimtis tūkstančių žodžių. Šis tyrimas kvestionuoja tokią prielaidą, analizuodamas, kaip kalbos supratimas didėja augant išmoktų dažniausiai vartojamų idiomų skaičiui, o ne vien „žaliam“ žodyno dydžiui. Remdamiesi didelio masto lingvistiniais duomenimis iš realaus kalbos vartojimo, kiekybiškai įvertiname, ką besimokantieji iš tikrųjų gauna įsisavinę TOP 100, 500 ir 1000 idiomų, ir parodome, kodėl būtent idiomos, o ne pavieniai žodžiai, yra pagrindinis realaus supratimo variklis.

1. Įvadas

Kalba nevartojama kaip izoliuotų žodžių rinkinys. Kasdieniuose pokalbiuose, knygose, filmuose, straipsniuose ir enciklopediniuose tekstuose prasmė perduodama per stabilius posakius, gramatines konstrukcijas ir idiomatinius šablonus. Tradiciniai žodynu paremti mokymosi metodai dažnai neperauga į realų supratimą, nes ignoruoja tai, kaip kalba iš tikrųjų vartojama.

Šis tyrimas atsako į fundamentalų klausimą:

Kokią kalbos dalį besimokantysis realistiškai gali suprasti įsisavinęs svarbiausias jos idiomas?

2. Duomenų šaltiniai ir mastas

Tyrimas paremtas išsamiu didelio masto realaus kalbos vartojimo analizės darbu, apimančiu šnekamąją kalbą, filmus ir subtitrus, knygas, straipsnius, enciklopedinius ir edukacinius tekstus, taip pat agreguotus atvirus duomenų rinkinius iš viešai prieinamų korpusų išteklių ir žodynų, siejančių idiomas ir žodžius tarp kalbų. Iš viso analizė apėmė didelio masto daugiakalbius korpusus, sudarytus iš milijardų žodžių, surinktus iš interneto ir publikuotos medžiagos, atspindinčius reikšmingą kalbos dalį, su kuria žmonės susiduria ir kurią naudoja kasdienėje komunikacijoje.

3. Į idiomas orientuota metodologija

3.1 Nuo žodžių prie idiomų

Užuot skaičiavęs paviršines žodžių formas, šis tyrimas idiomas laiko pagrindiniu prasmės vienetu. Idioma čia apima ne tik pastovius posakius, bet ir bazines gramatines formas, kurios atstovauja daugeliui žodžių variantų.

Naudodami pažangių kalbos modelių rinkinį, mes:

Tokia normalizacija leido:

Rezultatas — tikslus ryšys tarp realaus vartojimo dažnumo ir pagrindinių semantinių vienetų.

4. Kalbos supratimo matavimas

Kalbos supratimas buvo apibrėžtas kaip procentinė realaus turinio dalis, kurią besimokantysis gali suprasti be išorinės pagalbos. Tai apima gebėjimą:

Supratimo lygiai buvo matuojami įsisavinus:

Remdamasis šiuo tyrimu, WRD taiko tuos pačius matavimo principus individualaus besimokančiojo lygmeniu. Naudotojams mokantis naujų idiomų, kalbos supratimas perskaičiuojamas inkrementiškai, todėl supratimą galima sekti labai tiksliai, o ne netiesiogiai spręsti iš žodyno dydžio. Šis požiūris atspindi realaus vartojimo dėsningumus, pastebėtus duomenyse, ir leidžia nuolat, smulkiai matuoti progresą.

5. Rezultatai

5.1. Kalbos supratimas pagal idiomų „žodyno“ dydį

Apibendrinti tyrimo rezultatai per 17 kalbų pateikiami lentelėje žemiau, kurioje rodoma įvertinta realaus pasaulio kalbos supratimo dalis didėjant idiomų žinojimui.

1 lentelė. Kalbos supratimo (%) santrauka pagal išmoktų TOP idiomų skaičių

KalbaSupratimas (%) pagal idiomų skaičiaus slenksčius
TOP 100TOP 500TOP 1000TOP 3000TOP 5000
Anglų48.864.971.881.985.6
Ispanų49.666.373.584.187.5
Portugalų58.878.285.094.397.2
Prancūzų52.768.175.286.089.6
Vokiečių47.863.370.180.584.0
Kinų40.356.763.774.077.8
Rusų38.756.565.079.185.0
Turkų42.968.679.192.997.1
Italų47.664.371.281.584.7
Japonų56.569.776.386.089.5
Korėjiečių31.953.063.278.083.1
Lenkų43.162.871.184.188.4
Olandų57.374.780.788.691.0
Ukrainiečių36.954.463.277.483.0
Švedų52.971.478.186.588.9
Norvegų52.870.777.486.288.6
Lietuvių38.260.570.383.586.6

Nors tikslūs procentai skiriasi priklausomai nuo kalbos, bendras dėsningumas išlieka: palyginti nedidelis dažniausiai vartojamų idiomų rinkinys sudaro didelę realaus pasaulio supratimo dalį. Kad šie rezultatai būtų praktiškai pritaikomi, tolesniuose skyriuose pateikiami konkrečių kalbų dažniausių žodžių ir idiomų sąrašai, pradedant TOP 100 kiekvienai šiame tyrime analizuotai kalbai.

TOP idiomų sąrašai mokymuisi pagal kalbą

Anglų Ispanų Portugalų Prancūzų Vokiečių Kinų Rusų Turkų Italų Japonų Korėjiečių Lenkų Olandų Ukrainiečių Švedų Norvegų Lietuvių

5.2. Rezultatų interpretacija

Išryškėja keli nuoseklūs dėsningumai:

5.3. Nuoseklumas tarp kalbų

Nepaisant gramatikos, rašto sistemų ir kultūrinės struktūros skirtumų, supratimo kreivės forma išlieka stebėtinai panaši visose 17 kalbų. Tai rodo universalią kalbos vartojimo savybę: prasmė koncentruojasi palyginti nedideliame dažniausiai vartojamų idiomatinių šablonų rinkinyje.

6. Kodėl idiomos greičiau „atrakina“ supratimą

Idiomos veikia kaip semantinio suspaudimo vienetai. Kiekviena idioma apima:

Atpažinus idiomą, smegenys gali akimirksniu apdoroti prasmę, o ne „surinkinėti“ ją žodis po žodžio, taip sumažindamos kognityvinę apkrovą ir pagreitindamos supratimą tiek skaitant, tiek klausantis.

7. Ką tai reiškia kalbų mokymuisi

Rezultatai turi tiesioginių pasekmių besimokantiesiems, mokytojams ir kalbų mokymosi produktų dizainui:

Idiomos nėra pažengusiųjų medžiaga — jos yra realaus supratimo pamatas.

Išvados

Norint suprasti kalbą, nereikia žinoti dešimčių tūkstančių žodžių. Reikia žinoti kaip kalba iš tikrųjų vartojama.

Sutelkdami dėmesį į svarbiausias idiomas, besimokantieji anksti „atrakina“ neproporcingai didelę prasmės dalį, greičiau pasiekia supratimą, įgyja daugiau pasitikėjimo ir anksčiau gauna prieigą prie autentiško turinio. Kalbos supratimas auga ne per kaupimą, o per prioritetų nustatymą.

Apie autorių

Pavel Ahafonau yra WRD R&D vadovas. Jo darbas sutelktas į DI pagrįstą mokymosi optimizavimą, didelio masto lingvistinį modeliavimą ir personalizuotas sistemas, skirtas maksimaliai padidinti žmogaus mokymosi efektyvumą.