Частотные списки

0 голосов
спросил от (11.1тыс. баллов)
редактировать от

Взял я список 3000 слов от EF  и cтало мне интересно как эти 3k соотносятся с  BNC/COCA headwords 10k от Paul Nation (http://www.victoria.ac.nz/lals/about/staff/paul-nation#vocab-lists)      До этого я про частотные списки слов как-то не сильно задумывался.       и вот что получилось: из тех 3000 слов 710 отсутствует в первых 10к. это более 23% на секундочку!!!      какие есть соображения на эту тему ?      вот список из того что нет в тех 10к (для тех кто не собирается самостоятельно манипулировать файлами)       чего я не понимаю в списках от Paul Nation ?      были бы там только слова типа african-american и было бы их не так много я бы вопроса не задавал.      но в эти 710 попали с виду ходовые слова

18 Ответы

0 голосов
ответил от (192тыс. баллов)
редактировать от
Ну, я даже не знаю, как это может нравится или не нравится... Вы слова hope и hopeless отдельно друг от друга воспринимаете, как совершенно разные слова? Гнездо - это объективное понятие, вне симпатий/антипатий. А конкретно помогать, думаю, может только знание суффиксов и префиксов.
Гнездо - не очень объективное понятие.
Во-первых в кучу свалены все производные вне зависимости от их индивидуальной частотности или полезности.
Во-вторых в кучу свалены омонимы несмотря на то что они имеют совершенно различный смысл и этимологию.

И если последнее достаточно легко рассмотреть когда headword представляет несколько омонимов как например слово funk то обнаружить такое очень сложно его производное одного слова совпадает с основным другого. Для примера попробуйте найти здесь "хитрые" слова: DIVE 0
DIVEABLE 0
DIVED 0
DIVER 0
DIVERS 0
DIVES 0
DIVING 0 А ведь это 2я тысяча и все должно быть предельно понятно!

Кстати здесь отсутствует DOVE что тоже достаточно криво. Я надеюсь Вы догадались почему.
0 голосов
ответил от (192тыс. баллов)
Ну, я даже не знаю, как это может нравится или не нравится... Вы слова hope и hopeless отдельно друг от друга воспринимаете, как совершенно разные слова? Гнездо - это объективное понятие, вне симпатий/антипатий. А конкретно помогать, думаю, может только знание суффиксов и префиксов.
я не отрицаю понятие как таковое : ) и даже понимаю о чем вы говорите. но мне кажется. что это хорошо работает только при чтении и пассивном словарном запасе. при воcприятии/продуцированнии речи мне, наоборот, мешают мысли о том, что hopeless это состояние при котором нет этой hope. отвлекают, если хотите.
0 голосов
ответил от (192тыс. баллов)
я для себя понял, что гнезда мне не нравятся и не очень помогают.
Ну, я даже не знаю, как это может нравится или не нравится... Вы слова hope и hopeless отдельно друг от друга воспринимаете, как совершенно разные слова? Гнездо - это объективное понятие, вне симпатий/антипатий. А конкретно помогать, думаю, может только знание суффиксов и префиксов.
0 голосов
ответил от (192тыс. баллов)
редактировать от
На самом деле у Пола тоже многие слова из одного гнезда идут в списке на разных местах. Я ради интереса сгруппировал первые 4 тысячи: http://paul-nation.livejournal.com
я для себя понял, что гнезда мне не нравятся и не очень помогают.
0 голосов
ответил от (192тыс. баллов)
кстати, не попадался ли кому The Oxford 3000 в текстовом виде ?
0 голосов
ответил от (192тыс. баллов)
Они списки создают по разным алгоритмам. Слова для обозначения объектов и субъектов в AE и BE тоже запросто отличаются. Хотя тенденция в UK принимать американскую лексику, там уже полно америакнизмов, таков тренд, существуют исследования на эту тему.
0 голосов
ответил от (192тыс. баллов)
Соображения очень простые, вы сравниваете списки происхождения ЕС и происхождения США. Между прочим, там даже языковые уровни владения языком определяются несколько иначе.
.....
actually
advanced
agreement
apparently
.....

какое из этих слов не в ходу в UK, не подскажите ?
0 голосов
ответил от (192тыс. баллов)
просвятите серую душу, что за "СОСОА". я даже нагуглить это не в состоянии.
0 голосов
ответил от (192тыс. баллов)
Первая ссылка нерабочая.
увы поправить пост уже не могу, там зачем-то скобка к ссылке приклеилась
0 голосов
ответил от (192тыс. баллов)
какие есть соображения на эту тему ?
Соображения очень простые, вы сравниваете списки происхождения ЕС и происхождения США. Между прочим, там даже языковые уровни владения языком определяются несколько иначе.
0 голосов
ответил от (192тыс. баллов)
редактировать от
Нэйшэн брал в основном из учебных курсов плюс СОСОА.
Вы смотрели сайт Нэйшена? В переписке со мной он иначе как BNC lists свои списки не называет:

http://www.natcorp.ox.ac.uk/
The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of British English, both spoken and written, from the late twentieth century.
Для учебных текстов Нэйшэн.
Для любых Оксфорд.

А вообще то лучше просто выучить до 6000..
Хотя бы.
The Oxford 3000 тут не поможет - в нем всего 3000 слов.

А вот что делать после 10 000?
Вот тут и пригодятся списки Нэйшена. 25000 headwords и это примерно 35000 словарных статей или 75000 слов.

Можно взять вот этот Оксфордский словарь:

https://www.amazon.co.uk/Oxford-English-Mini-Dictionary-Dictionaries/dp/0199640963

По моим оценкам в нем примерно 20000 словарных статей. Но проблема в том что я его не видел в электронном виде.
0 голосов
ответил от (192тыс. баллов)
,,...........
0 голосов
ответил от (192тыс. баллов)
,,...........
0 голосов
ответил от (192тыс. баллов)
Нэйшэн брал в основном из учебных курсов плюс СОСОА.

По моим оценкам Оксфорд сильнее СОСОА.

Нэйшэн или Оксфорд?

Для учебных текстов Нэйшэн.
Для любых Оксфорд.

Имхр

А вообще то лучше просто выучить до 6000..
Хотя бы.

А вот что делать после 10 000?
0 голосов
ответил от (192тыс. баллов)
С вашего позволения, послушаю
0 голосов
ответил от (192тыс. баллов)
и вот что получилось: из тех 3000 слов 710 отсутствует в первых 10к. это более 23% на секундочку!!!
У Пола Нэйшена списки word families. Также он дает списки headwords - корневых слов. Если просматривать эти последние то многих слов не встретишь:

basewrd3.txt:
ABANDON 0
ABANDONED 0
ABANDONING 0
ABANDONMENT 0
ABANDONS 0
ABORT 0
ABORTED 0
ABORTING 0
ABORTION 0
ABORTIONS 0
ABORTIVE 0
ABORTIVELY 0
ABORTS 0
ABROAD 0
ABSENCE 0
ABSENCES 0
ABSORB 0
ABSORBANCE 0
ABSORBED 0
ABSORBENCY 0
ABSORBENT 0
ABSORBER 0
ABSORBERS 0
ABSORBING 0
ABSORBS 0
ABSORPTION 0
ABSORPTIONS 0
ABSORPTIVE 0
В списке headwords перечислены только выделенные слова.

К тому же многие составные слова выделены в отдельный список:

basewrd33.txt
ABSENTMINDED 0
ABSENTMINDEDLY 0
ABSENTMINDEDNESS 0
ADMAN 0
ADMEN 0
AFORETHOUGHT 0
AFTERBIRTH 0
AFTERBURNER 0
AFTERBURNERS 0
absentminded достаточно частотное слово но его нет в 25 тысячах. Оно только в этом - 33 - списке.

Также в 25 тысячах не встретить названий стран, городов и национальностей. Они в отдельном списке:

basewrd31.txt
AFRICA 0
AFRICAN 0
AFRICANIST 0
AFRICANISTS 0
AFRICANS 0
AFRIQUE 0
AFRICANA 0
AFRIKANER 0
AFRIKAAN 0
AFRIKAANER 0
AFRIKAANERS 0
AFRIKAANS 0
AFRIKANERDOM 0
AFRIKANERS 0
И надо учесть что список EF не частотный так же как и The Oxford 3000. Они составляются не по частотности а по полезности.
0 голосов
ответил от (192тыс. баллов)
редактировать от
По моему в файле все слова производные.
К примеру, там есть слова типа "ability", "abortion", "absolutely".
У Пола вместо них будут "able", "abort", "absolute".
На самом деле у Пола тоже многие слова из одного гнезда идут в списке на разных местах. Я ради интереса сгруппировал первые 4 тысячи: http://paul-nation.livejournal.com
0 голосов
ответил от (192тыс. баллов)
По моему в файле все слова производные.
К примеру, там есть слова типа "ability", "abortion", "absolutely".
У Пола вместо них будут "able", "abort", "absolute".
...