Skip to content

Files

Latest commit

 

History

History
123 lines (102 loc) · 12.2 KB

Day03-hw-Transcript.md

File metadata and controls

123 lines (102 loc) · 12.2 KB

Метаразметка и расшифровка видео (аудио)

Работа состоит из нескольких этапов:

  1. Первичная расшифровка
  2. Заполнение таблицы c метаинформацией (время записи и т.д.) и информацией о говорящих
  3. Разбивка на реплики и повторное прослушивание/редактирование
  4. Аннотация искажений типа скока, щас.

1. Первичная расшифровка

Запишите текст так, как вы его слышите, в стандартной русской орфографии. Сохраните его как текст (в указанной выше кодировке, с имененем вида //anyname.1.txt//).
Редактор VLC, в котором удобно прослушивать видео в замедленном темпе: под Windows , Mac.

2. Заполнение метатаблицы (таблицы c метаинформацией и информацией о говорящих)

Метатаблица лежит в Гугл-доке Она содержит информацию о ролике:

  • Имя файла с записью
  • Название
  • Время звучания
  • Тип (монолог, диалог, полилог)
  • Место записи
  • Время записи
  • Разметчик (студент, который обрабатывает данную запись, то есть вы - укажите Имя Фамилию)
  • Ссылка на запись (видео- или аудиофайл, выложенный в сети)
  • Ссылка на файл-стимул (если вы предъявляли говорящим какие-то рисунки, аудио или видео, чтобы инициировать разговор, выложите их в сети и дайте ссылку)
    и справку о говорящих (социолингвистическую информацию о каждом из говорящих в ролике, включая голоса за кадром):
  • Имя/псевдоним говорящего (ник - как говорящий будет представлен в расшифровке, например, Виктор@ или В@)
  • Пол
  • Возраст (если не знаете, укажите примерно)
  • Образование (неполное среднее, среднее, высшее)
  • Род занятий
  • Регион (где говорящий провел большую часть своей жизни, речь какого региона он представляет)
  • Согласие на размещение данных в корпусе (требуется получить у каждого говорящего)

Каждому говорящему соответствует одна строка. Автор реплики указывается либо с помощью фамилии (если она имеет какую-то общественную значимость и автор высказывания, с точки зрения записывающего, не будет возражать против того, чтобы ему была приписана эта реплика, – это имеет место в основном в случаях публичной, а не частной устной речи), либо именем или анонимно (например, инициалами, цифрами или функционально: «А», «А.В.», «Говорящий1», «Лектор» и т. д.). Если неизвестно или неважно, кто говорит, то можно использовать вводы типа «Вопрос с места», «Вопрос», «Из зала» и под. Если в полилоге участвуют несколько человек с одинаковыми ролями, то их нужно каким-то образом различать между собой, например, «Студент1», «Студент2» и под.

Разбивая текст на реплики, вы должны отделить речь одного говорящего от речи других. В начале каждой реплики должна стоять аннотация говорящего в формате Виктор@ или В@ (после "собачки" следует пробел, потом начинается сама реплика). Если ваша запись - монолог, то одна реплика примерно соответствует абзацу письменного текста (со слишком длинными репликами трудно будет работать дальше). В тексте не должно быть абзацев без авторов реплик.

4. Повторное прослушивание и редактирование файла

Прослушивая текст повторно, вставьте все реплики, поддерживающие разговор (ага, ну), слова-паразиты (гм, ммм, эээ), недоговоренные слова (и тут она по... вышла), запинки (гово... сказала) - т. е. все, что вы можете расслышать. Естественно, необходимо записывать все междометия.

Искажения следует оформлять с помощью тегов следующим образом:

<distinct form="скока">сколько</distinct>
<distinct form="Слющий">Слушай</distinct>, ты, <distinct form="ваще">вообще</distinct>
<distinct form="пшёл">пошёл</distinct> отсюда!
<distinct form="Тость">То есть</distinct>

При расшифровке желательно сохранять все стандартные стяжки типа щас, тыща, чек (человек), так скать (так сказать), грит (говорит); растянутые произношения типа нуу, воот, а также речевые маски -- намеренные искажения, имитирующие речь другого человека, например, кавказскую типа слющий и дэвушка. Однако стандартные варианты произношения, не соответствующие орфографии, типа што (что), штобы (чтобы), канешна (конечно), ниво (него) никак не помечаются.

** NB Особенное внимание следует обратить на слово «вот», которое часто принимает форму «во», «от» и «о», а также «нет», которое часто выглядит как «не» или «не-а». Такие случаи обязательно оформлять следующим образом:

<distinct form="во">вот</distinct>
<distinct form="от">вот</distinct>
<distinct form="о">вот</distinct>
<distinct form="не">нет</distinct>
<distinct form="не-а">нет</distinct>

Если этого не сделать, то формы не удастся отделить от предлогов и частиц.

Аббревиатуры записываются как слышатся и расшифровываются как аббревиатуры

<distinct form="цээска’">ЦСКА</distinct>

В расшифровку записываются только те пояснения, которые важны для понимания коммуникации, в частности,

  • длительные паузы (более 20 сек.)
<span class="note">через 2 мин.</span>
  • речь "в сторону"
<span class="note">в сторону</span>
  • и звукоподражания, выполняющие речевую функцию
<span class="note">цокает</span>

Если текст в том или ином месте не удается разобрать, то используется тег [нрзб] ("неразборчиво"), который записывается так:

<noindex>[нрзб]</noindex>

Остальные ремарки добавляются с помощью кнопки тега типа note ("пояснение"):

<span class="note">В сторону</span>

Когда говорят несколько человек одновременно и разобрать ничего не удается, нужно использовать ремарку "Говорят одновременно"

<span class="note">Говорят одновременно</span>

(Одновременно звучащие реплики, если их удается разобрать, нужно записывать последовательно, друг за другом).

В случаях невербального общения (напр., общий гул без ясно вычлененных реплик) допустимо указать общее настроение этого гула, например,

<span class="note">Все согласны</span>  
<span class="note">Никто не знает</span>

7. Расстановка знаков препинания

Допустимо при расшифровке либо ставить стандартную пунктуацию, прежде всего, знаки вопроса и восклицания (см. файл-образец), либо ставить знаки / и // для обозначения микрочастей "предложения" и границ между "предложениями" устной речи, ср.:

//там спрашивают фамилию-то / я сказала / Поликарпова// ты с какого года? / ну это / родители сказали / с восемнадцатого //нет / ты с семнадцатого// я говорю / откуда / я с восемнадцатого //

Пример полностью расшифрованного и размеченного корпуса: sample_video_transcript.1.txt

Чеклист выполненного задания:

  • в свой гитхаб в папку LiveCorpus нужно положить текстовый файл с именем вида filename.1.txt (первичная расшифровка), файл filename.2.txt (вторичная расшифровка).
  • проверьте, что файлы сохранены как текст (.txt), имеют кодировку UTF-8, формат конца строк - Windows (CR+LF). Если это не так - конвертируйте файл с помощью NotePad++. Имя файла не должно содержать кириллических букв. Старайтесь, чтобы вместо anyname у вас стояло что-то, мнемонически напоминающее тему разговора на видео, и у всех версий транскриптов оно было одинаковым.
  • заполнена метатаблица в гугл-доке, ники говорящих в гугл-доке совпадают с никами в начале реплик.