Skip to content

Latest commit

 

History

History
28 lines (19 loc) · 3.08 KB

Day07-AntConc.md

File metadata and controls

28 lines (19 loc) · 3.08 KB

AntConc -- корпусный менеджер

Материал для работы на семинаре

Анна Каренина: text, xml

Война и Мир: text

Тихий Дон: text

Задание

  • Загрузите файл, проверьте, что он отображается нормально (вкладка FileView).
  • Постройте частотный список слов романа (вкладка Word List, нажмите кнопку Start). Кликнув на слово, вы сможете попасть в конкорданс, построенный для этого слова.
  • В Word List отсортируйте частотный список по алфавиту (Sort by Word внизу страницы).
  • Постройте частотный список двух-, трех- и т.д. -словных словосочетаний (вкладка Cluster/N-Grams, поставьте галочку на N-Grams, укажите, сколько слов в ngram-е вы хотите видеть, например, Min:3, Max:3, установите порог вхождений в корпусе, например, 10). Кликнув на n-грам, вы также можете попасть в его конкорданс.
  • Постройте списки коллокатов выбранного вами слова (вкладка Collocates), указав границы окна справа / слева.

Задание для тех, кто все очень быстро успел (дополнительное)

  • Построить тот же список, игнорируя теги xml (см. xml-файл)
  • Построить список двубуквенных сочетаний (используя файл, сначала изучив, как он устроен)
  • Разметьте файл Анны Карениной с помощью Mystem и постройте частотный список а) частей речи б) лемм.