Метаразметка и расшифровка видео (аудио)

Работа состоит из нескольких этапов:

Первичная расшифровка
Заполнение таблицы c метаинформацией (время записи и т.д.) и информацией о говорящих
Разбивка на реплики и повторное прослушивание/редактирование
Аннотация искажений типа скока, щас.

1. Первичная расшифровка

Запишите текст так, как вы его слышите, в стандартной русской орфографии. Сохраните его как текст (в указанной выше кодировке, с имененем вида //anyname.1.txt//).
Редактор VLC, в котором удобно прослушивать видео в замедленном темпе: под Windows , Mac.

2. Заполнение метатаблицы (таблицы c метаинформацией и информацией о говорящих)

Метатаблица лежит в Гугл-доке Она содержит информацию о ролике:

Имя файла с записью
Название
Время звучания
Тип (монолог, диалог, полилог)
Место записи
Время записи
Разметчик (студент, который обрабатывает данную запись, то есть вы - укажите Имя Фамилию)
Ссылка на запись (видео- или аудиофайл, выложенный в сети)
Ссылка на файл-стимул (если вы предъявляли говорящим какие-то рисунки, аудио или видео, чтобы инициировать разговор, выложите их в сети и дайте ссылку)
и справку о говорящих (социолингвистическую информацию о каждом из говорящих в ролике, включая голоса за кадром):
Имя/псевдоним говорящего (ник - как говорящий будет представлен в расшифровке, например, Виктор@ или В@)
Пол
Возраст (если не знаете, укажите примерно)
Образование (неполное среднее, среднее, высшее)
Род занятий
Регион (где говорящий провел большую часть своей жизни, речь какого региона он представляет)
Согласие на размещение данных в корпусе (требуется получить у каждого говорящего)

Каждому говорящему соответствует одна строка. Автор реплики указывается либо с помощью фамилии (если она имеет какую-то общественную значимость и автор высказывания, с точки зрения записывающего, не будет возражать против того, чтобы ему была приписана эта реплика, – это имеет место в основном в случаях публичной, а не частной устной речи), либо именем или анонимно (например, инициалами, цифрами или функционально: «А», «А.В.», «Говорящий1», «Лектор» и т. д.). Если неизвестно или неважно, кто говорит, то можно использовать вводы типа «Вопрос с места», «Вопрос», «Из зала» и под. Если в полилоге участвуют несколько человек с одинаковыми ролями, то их нужно каким-то образом различать между собой, например, «Студент1», «Студент2» и под.

3. Разбивка на реплики

Разбивая текст на реплики, вы должны отделить речь одного говорящего от речи других. В начале каждой реплики должна стоять аннотация говорящего в формате Виктор@ или В@ (после "собачки" следует пробел, потом начинается сама реплика). Если ваша запись - монолог, то одна реплика примерно соответствует абзацу письменного текста (со слишком длинными репликами трудно будет работать дальше). В тексте не должно быть абзацев без авторов реплик.

4. Повторное прослушивание и редактирование файла

Прослушивая текст повторно, вставьте все реплики, поддерживающие разговор (ага, ну), слова-паразиты (гм, ммм, эээ), недоговоренные слова (и тут она по... вышла), запинки (гово... сказала) - т. е. все, что вы можете расслышать. Естественно, необходимо записывать все междометия.

5. Аннотация искажений типа скока, щас, гово...

Искажения следует оформлять с помощью тегов следующим образом:

<distinct form="скока">сколько</distinct>
<distinct form="Слющий">Слушай</distinct>, ты, <distinct form="ваще">вообще</distinct>
<distinct form="пшёл">пошёл</distinct> отсюда!
<distinct form="Тость">То есть</distinct>

При расшифровке желательно сохранять все стандартные стяжки типа щас, тыща, чек (человек), так скать (так сказать), грит (говорит); растянутые произношения типа нуу, воот, а также речевые маски -- намеренные искажения, имитирующие речь другого человека, например, кавказскую типа слющий и дэвушка. Однако стандартные варианты произношения, не соответствующие орфографии, типа што (что), штобы (чтобы), канешна (конечно), ниво (него) никак не помечаются.

** NB Особенное внимание следует обратить на слово «вот», которое часто принимает форму «во», «от» и «о», а также «нет», которое часто выглядит как «не» или «не-а». Такие случаи обязательно оформлять следующим образом:

<distinct form="во">вот</distinct>
<distinct form="от">вот</distinct>
<distinct form="о">вот</distinct>
<distinct form="не">нет</distinct>
<distinct form="не-а">нет</distinct>

Если этого не сделать, то формы не удастся отделить от предлогов и частиц.

Аббревиатуры записываются как слышатся и расшифровываются как аббревиатуры

<distinct form="цээска’">ЦСКА</distinct>

6. Оформление пояснений

В расшифровку записываются только те пояснения, которые важны для понимания коммуникации, в частности,

длительные паузы (более 20 сек.)

<span class="note">через 2 мин.</span>

речь "в сторону"

<span class="note">в сторону</span>

и звукоподражания, выполняющие речевую функцию

<span class="note">цокает</span>

Если текст в том или ином месте не удается разобрать, то используется тег [нрзб] ("неразборчиво"), который записывается так:

<noindex>[нрзб]</noindex>

Остальные ремарки добавляются с помощью кнопки тега типа note ("пояснение"):

<span class="note">В сторону</span>

Когда говорят несколько человек одновременно и разобрать ничего не удается, нужно использовать ремарку "Говорят одновременно"

<span class="note">Говорят одновременно</span>

(Одновременно звучащие реплики, если их удается разобрать, нужно записывать последовательно, друг за другом).

В случаях невербального общения (напр., общий гул без ясно вычлененных реплик) допустимо указать общее настроение этого гула, например,

<span class="note">Все согласны</span>  
<span class="note">Никто не знает</span>

7. Расстановка знаков препинания

Допустимо при расшифровке либо ставить стандартную пунктуацию, прежде всего, знаки вопроса и восклицания (см. файл-образец), либо ставить знаки / и // для обозначения микрочастей "предложения" и границ между "предложениями" устной речи, ср.:

//там спрашивают фамилию-то / я сказала / Поликарпова// ты с какого года? / ну это / родители сказали / с восемнадцатого //нет / ты с семнадцатого// я говорю / откуда / я с восемнадцатого //

Пример полностью расшифрованного и размеченного корпуса: sample_video_transcript.1.txt

Чеклист выполненного задания:

в свой гитхаб в папку LiveCorpus нужно положить текстовый файл с именем вида filename.1.txt (первичная расшифровка), файл filename.2.txt (вторичная расшифровка).
проверьте, что файлы сохранены как текст (.txt), имеют кодировку UTF-8, формат конца строк - Windows (CR+LF). Если это не так - конвертируйте файл с помощью NotePad++. Имя файла не должно содержать кириллических букв. Старайтесь, чтобы вместо anyname у вас стояло что-то, мнемонически напоминающее тему разговора на видео, и у всех версий транскриптов оно было одинаковым.
заполнена метатаблица в гугл-доке, ники говорящих в гугл-доке совпадают с никами в начале реплик.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Files

Day03-hw-Transcript.md

Day03-hw-Transcript.md

Метаразметка и расшифровка видео (аудио)

1. Первичная расшифровка

2. Заполнение метатаблицы (таблицы c метаинформацией и информацией о говорящих)

3. Разбивка на реплики

4. Повторное прослушивание и редактирование файла

5. Аннотация искажений типа скока, щас, гово...

6. Оформление пояснений

7. Расстановка знаков препинания

Files

Day03-hw-Transcript.md

Latest commit

History

Day03-hw-Transcript.md

File metadata and controls

Метаразметка и расшифровка видео (аудио)

1. Первичная расшифровка

2. Заполнение метатаблицы (таблицы c метаинформацией и информацией о говорящих)

3. Разбивка на реплики

4. Повторное прослушивание и редактирование файла

5. Аннотация искажений типа скока, щас, гово...

6. Оформление пояснений

7. Расстановка знаков препинания