Kiek žodžių
iš tikrųjų reikia,
kad suprastumėte kalbą?
Duomenimis paremtas kalbos supratimo pagal idiomų dažnumą tyrimas
Autorius: Pavel Ahafonau, R&D vadovas
Ką praktiškai duoda TOP 100, 500 ir 1000 idiomų žinojimas?
Daugelis besimokančiųjų progresą seka skaičiuodami išmoktus žodžius, tačiau šis skaičius retai atspindi, kiek realios kalbos jie iš tikrųjų supranta. Kai supratimas matuojamas tiesiogiai ir siejamas su idiomų žinojimu, mokymosi progresas tampa daug aiškesnis ir konkretesnis. Žemiau pateikta diagrama rodo, kaip kalbos supratimas kinta pereinant nuo nedidelio didžiausią poveikį turinčių idiomų branduolio prie platesnio aprėpties lygio.
1 grafikas. Kalbos supratimo progresas pagal išmoktų idiomų skaičių
Kalbos supratimas neauga pastoviu tempu. Kaip matyti diagramoje, supratimas sparčiai didėja, kai besimokantieji įsisavina dažniausiai vartojamas idiomas, o vėliau palaipsniui lėtėja, nes mokymasis pereina nuo bazinės prasmės „atrakinimo“ prie niuansų tobulinimo. Tai kelia praktinį klausimą: kiek idiomų pakanka, kad pasiektumėte prasmingą realaus pasaulio supratimą — ir kur papildomos pastangos pradeda duoti vis mažesnę grąžą?
Šį ryšį galima matuoti ir individualiu lygmeniu. Sekdamas idiomų įsisavinimą ir susiedamas jį su realaus vartojimo dažnumu, WRD nuolat įvertina besimokančiojo dabartinį kalbos supratimo lygį ir atnaujina jį su kiekviena naujai išmokta idioma.
Pasinerkite į duomenis, metodologiją ir rezultatus:
→ Santrauka
→ 1. Įvadas
→ 2. Duomenų šaltiniai ir mastas
→ 3. Į idiomas orientuota metodologija
→ 4. Kalbos supratimo matavimas
→ 5. Rezultatai
→ 6. Kodėl idiomos greičiau „atrakina“ supratimą
→ 7. Ką tai reiškia kalbų mokymuisi
→ Išvados
→ Apie autorių
Santrauka
Dažnas įsitikinimas kalbų mokymesi — kad norint suprasti kalbą reikia iškalti dešimtis tūkstančių žodžių. Šis tyrimas kvestionuoja tokią prielaidą, analizuodamas, kaip kalbos supratimas didėja augant išmoktų dažniausiai vartojamų idiomų skaičiui, o ne vien „žaliam“ žodyno dydžiui. Remdamiesi didelio masto lingvistiniais duomenimis iš realaus kalbos vartojimo, kiekybiškai įvertiname, ką besimokantieji iš tikrųjų gauna įsisavinę TOP 100, 500 ir 1000 idiomų, ir parodome, kodėl būtent idiomos, o ne pavieniai žodžiai, yra pagrindinis realaus supratimo variklis.
1. Įvadas
Kalba nevartojama kaip izoliuotų žodžių rinkinys. Kasdieniuose pokalbiuose, knygose, filmuose, straipsniuose ir enciklopediniuose tekstuose prasmė perduodama per stabilius posakius, gramatines konstrukcijas ir idiomatinius šablonus. Tradiciniai žodynu paremti mokymosi metodai dažnai neperauga į realų supratimą, nes ignoruoja tai, kaip kalba iš tikrųjų vartojama.
Šis tyrimas atsako į fundamentalų klausimą:
Kokią kalbos dalį besimokantysis realistiškai gali suprasti įsisavinęs svarbiausias jos idiomas?
2. Duomenų šaltiniai ir mastas
Tyrimas paremtas išsamiu didelio masto realaus kalbos vartojimo analizės darbu, apimančiu šnekamąją kalbą, filmus ir subtitrus, knygas, straipsnius, enciklopedinius ir edukacinius tekstus, taip pat agreguotus atvirus duomenų rinkinius iš viešai prieinamų korpusų išteklių ir žodynų, siejančių idiomas ir žodžius tarp kalbų. Iš viso analizė apėmė didelio masto daugiakalbius korpusus, sudarytus iš milijardų žodžių, surinktus iš interneto ir publikuotos medžiagos, atspindinčius reikšmingą kalbos dalį, su kuria žmonės susiduria ir kurią naudoja kasdienėje komunikacijoje.
3. Į idiomas orientuota metodologija
3.1 Nuo žodžių prie idiomų
Užuot skaičiavęs paviršines žodžių formas, šis tyrimas idiomas laiko pagrindiniu prasmės vienetu. Idioma čia apima ne tik pastovius posakius, bet ir bazines gramatines formas, kurios atstovauja daugeliui žodžių variantų.
Naudodami pažangių kalbos modelių rinkinį, mes:
- Sujungėme visas gramatines žodžių formas į jų bazinę idiomą (pvz., „am“, „is“, „are“, „was“ → „be“)
- Žodžių formas laikėme atskiromis idiomomis tik tada, kai jos turėjo skirtingas idiomatines reikšmes konkrečioje kalboje
Tokia normalizacija leido:
- Tiksliai matuoti dažnumą
- Lyginti rezultatus tarp kalbų
- Pašalinti dirbtinį žodyno „išpūtimą“
Rezultatas — tikslus ryšys tarp realaus vartojimo dažnumo ir pagrindinių semantinių vienetų.
4. Kalbos supratimo matavimas
Kalbos supratimas buvo apibrėžtas kaip procentinė realaus turinio dalis, kurią besimokantysis gali suprasti be išorinės pagalbos. Tai apima gebėjimą:
- Sekti sakytinius pokalbius
- Suprasti rašytinius tekstus
- Vartoti mediją be nuolatinio tikrinimo
- Perprasti numanomą prasmę, struktūrą ir kontekstą
Supratimo lygiai buvo matuojami įsisavinus:
- TOP 100 idiomų
- TOP 500 idiomų
- TOP 1000 idiomų
- Išplėstinius 3000–5000 idiomų intervalus pažangesnei analizei
Remdamasis šiuo tyrimu, WRD taiko tuos pačius matavimo principus individualaus besimokančiojo lygmeniu. Naudotojams mokantis naujų idiomų, kalbos supratimas perskaičiuojamas inkrementiškai, todėl supratimą galima sekti labai tiksliai, o ne netiesiogiai spręsti iš žodyno dydžio. Šis požiūris atspindi realaus vartojimo dėsningumus, pastebėtus duomenyse, ir leidžia nuolat, smulkiai matuoti progresą.
5. Rezultatai
5.1. Kalbos supratimas pagal idiomų „žodyno“ dydį
Apibendrinti tyrimo rezultatai per 17 kalbų pateikiami lentelėje žemiau, kurioje rodoma įvertinta realaus pasaulio kalbos supratimo dalis didėjant idiomų žinojimui.
1 lentelė. Kalbos supratimo (%) santrauka pagal išmoktų TOP idiomų skaičių
| Kalba | Supratimas (%) pagal idiomų skaičiaus slenksčius | ||||
|---|---|---|---|---|---|
| TOP 100 | TOP 500 | TOP 1000 | TOP 3000 | TOP 5000 | |
| Anglų | 48.8 | 64.9 | 71.8 | 81.9 | 85.6 |
| Ispanų | 49.6 | 66.3 | 73.5 | 84.1 | 87.5 |
| Portugalų | 58.8 | 78.2 | 85.0 | 94.3 | 97.2 |
| Prancūzų | 52.7 | 68.1 | 75.2 | 86.0 | 89.6 |
| Vokiečių | 47.8 | 63.3 | 70.1 | 80.5 | 84.0 |
| Kinų | 40.3 | 56.7 | 63.7 | 74.0 | 77.8 |
| Rusų | 38.7 | 56.5 | 65.0 | 79.1 | 85.0 |
| Turkų | 42.9 | 68.6 | 79.1 | 92.9 | 97.1 |
| Italų | 47.6 | 64.3 | 71.2 | 81.5 | 84.7 |
| Japonų | 56.5 | 69.7 | 76.3 | 86.0 | 89.5 |
| Korėjiečių | 31.9 | 53.0 | 63.2 | 78.0 | 83.1 |
| Lenkų | 43.1 | 62.8 | 71.1 | 84.1 | 88.4 |
| Olandų | 57.3 | 74.7 | 80.7 | 88.6 | 91.0 |
| Ukrainiečių | 36.9 | 54.4 | 63.2 | 77.4 | 83.0 |
| Švedų | 52.9 | 71.4 | 78.1 | 86.5 | 88.9 |
| Norvegų | 52.8 | 70.7 | 77.4 | 86.2 | 88.6 |
| Lietuvių | 38.2 | 60.5 | 70.3 | 83.5 | 86.6 |
Nors tikslūs procentai skiriasi priklausomai nuo kalbos, bendras dėsningumas išlieka: palyginti nedidelis dažniausiai vartojamų idiomų rinkinys sudaro didelę realaus pasaulio supratimo dalį. Kad šie rezultatai būtų praktiškai pritaikomi, tolesniuose skyriuose pateikiami konkrečių kalbų dažniausių žodžių ir idiomų sąrašai, pradedant TOP 100 kiekvienai šiame tyrime analizuotai kalbai.
TOP idiomų sąrašai mokymuisi pagal kalbą
→ Anglų → Ispanų → Portugalų → Prancūzų → Vokiečių → Kinų → Rusų → Turkų → Italų → Japonų → Korėjiečių → Lenkų → Olandų → Ukrainiečių → Švedų → Norvegų → Lietuvių
5.2. Rezultatų interpretacija
Išryškėja keli nuoseklūs dėsningumai:
- Stiprus augimas pradžioje: pirmosios 500 idiomų „atrakina“ didelę kasdienės kalbos dalį, dažnai pasiekiant 55–75% supratimą.
- Funkcinis supratimas ties 1000 idiomų: maždaug ties 1000 idiomų besimokantieji gali patogiai sekti pokalbius, skaityti supaprastintus gimtakalbių tekstus ir vartoti mediją su minimalia pagalba.
- Pažangus supratimas ties 3000 idiomų: 3000 idiomų intervalas atitinka aukštą funkcinį sklandumą, dažnai viršijant 80–90% supratimą.
- Mažėjanti grąža virš 5000 idiomų: papildomos idiomos daugiausia prideda stilistinių niuansų, o ne atveria naują turinį.
5.3. Nuoseklumas tarp kalbų
Nepaisant gramatikos, rašto sistemų ir kultūrinės struktūros skirtumų, supratimo kreivės forma išlieka stebėtinai panaši visose 17 kalbų. Tai rodo universalią kalbos vartojimo savybę: prasmė koncentruojasi palyginti nedideliame dažniausiai vartojamų idiomatinių šablonų rinkinyje.
6. Kodėl idiomos greičiau „atrakina“ supratimą
Idiomos veikia kaip semantinio suspaudimo vienetai. Kiekviena idioma apima:
- Kelis žodžius
- Gramatinę struktūrą
- Kultūrinę ir kontekstinę prasmę
Atpažinus idiomą, smegenys gali akimirksniu apdoroti prasmę, o ne „surinkinėti“ ją žodis po žodžio, taip sumažindamos kognityvinę apkrovą ir pagreitindamos supratimą tiek skaitant, tiek klausantis.
7. Ką tai reiškia kalbų mokymuisi
Rezultatai turi tiesioginių pasekmių besimokantiesiems, mokytojams ir kalbų mokymosi produktų dizainui:
- Anksti teikite pirmenybę dažniausiai vartojamoms idiomoms
- Progresą matuokite pagal supratimo %, o ne žodyno dydį
- Optimizuokite mokymąsi pagal realų vartojimą, o ne teorinį „pilnumą“
Idiomos nėra pažengusiųjų medžiaga — jos yra realaus supratimo pamatas.
Išvados
Norint suprasti kalbą, nereikia žinoti dešimčių tūkstančių žodžių. Reikia žinoti kaip kalba iš tikrųjų vartojama.
Sutelkdami dėmesį į svarbiausias idiomas, besimokantieji anksti „atrakina“ neproporcingai didelę prasmės dalį, greičiau pasiekia supratimą, įgyja daugiau pasitikėjimo ir anksčiau gauna prieigą prie autentiško turinio. Kalbos supratimas auga ne per kaupimą, o per prioritetų nustatymą.
Apie autorių
Pavel Ahafonau yra WRD R&D vadovas. Jo darbas sutelktas į DI pagrįstą mokymosi optimizavimą, didelio masto lingvistinį modeliavimą ir personalizuotas sistemas, skirtas maksimaliai padidinti žmogaus mokymosi efektyvumą.