Работа состоит из нескольких этапов:
- Первичная расшифровка
- Заполнение таблицы c метаинформацией (время записи и т.д.) и информацией о говорящих
- Разбивка на реплики и повторное прослушивание/редактирование
- Аннотация искажений типа скока, щас.
Запишите текст так, как вы его слышите, в стандартной русской орфографии. Сохраните его как текст (в указанной выше кодировке, с имененем вида //anyname.1.txt//).
Редактор VLC, в котором удобно прослушивать видео в замедленном темпе: под Windows , Mac.
Метатаблица лежит в Гугл-доке Она содержит информацию о ролике:
- Имя файла с записью
- Название
- Время звучания
- Тип (монолог, диалог, полилог)
- Место записи
- Время записи
- Разметчик (студент, который обрабатывает данную запись, то есть вы - укажите Имя Фамилию)
- Ссылка на запись (видео- или аудиофайл, выложенный в сети)
- Ссылка на файл-стимул (если вы предъявляли говорящим какие-то рисунки, аудио или видео, чтобы инициировать разговор, выложите их в сети и дайте ссылку)
и справку о говорящих (социолингвистическую информацию о каждом из говорящих в ролике, включая голоса за кадром): - Имя/псевдоним говорящего (ник - как говорящий будет представлен в расшифровке, например, Виктор@ или В@)
- Пол
- Возраст (если не знаете, укажите примерно)
- Образование (неполное среднее, среднее, высшее)
- Род занятий
- Регион (где говорящий провел большую часть своей жизни, речь какого региона он представляет)
- Согласие на размещение данных в корпусе (требуется получить у каждого говорящего)
Каждому говорящему соответствует одна строка. Автор реплики указывается либо с помощью фамилии (если она имеет какую-то общественную значимость и автор высказывания, с точки зрения записывающего, не будет возражать против того, чтобы ему была приписана эта реплика, – это имеет место в основном в случаях публичной, а не частной устной речи), либо именем или анонимно (например, инициалами, цифрами или функционально: «А», «А.В.», «Говорящий1», «Лектор» и т. д.). Если неизвестно или неважно, кто говорит, то можно использовать вводы типа «Вопрос с места», «Вопрос», «Из зала» и под. Если в полилоге участвуют несколько человек с одинаковыми ролями, то их нужно каким-то образом различать между собой, например, «Студент1», «Студент2» и под.
Разбивая текст на реплики, вы должны отделить речь одного говорящего от речи других. В начале каждой реплики должна стоять аннотация говорящего в формате Виктор@ или В@ (после "собачки" следует пробел, потом начинается сама реплика). Если ваша запись - монолог, то одна реплика примерно соответствует абзацу письменного текста (со слишком длинными репликами трудно будет работать дальше). В тексте не должно быть абзацев без авторов реплик.
Прослушивая текст повторно, вставьте все реплики, поддерживающие разговор (ага, ну), слова-паразиты (гм, ммм, эээ), недоговоренные слова (и тут она по... вышла), запинки (гово... сказала) - т. е. все, что вы можете расслышать. Естественно, необходимо записывать все междометия.
Искажения следует оформлять с помощью тегов следующим образом:
<distinct form="скока">сколько</distinct>
<distinct form="Слющий">Слушай</distinct>, ты, <distinct form="ваще">вообще</distinct>
<distinct form="пшёл">пошёл</distinct> отсюда!
<distinct form="Тость">То есть</distinct>
При расшифровке желательно сохранять все стандартные стяжки типа щас, тыща, чек (человек), так скать (так сказать), грит (говорит); растянутые произношения типа нуу, воот, а также речевые маски -- намеренные искажения, имитирующие речь другого человека, например, кавказскую типа слющий и дэвушка. Однако стандартные варианты произношения, не соответствующие орфографии, типа што (что), штобы (чтобы), канешна (конечно), ниво (него) никак не помечаются.
** NB Особенное внимание следует обратить на слово «вот», которое часто принимает форму «во», «от» и «о», а также «нет», которое часто выглядит как «не» или «не-а». Такие случаи обязательно оформлять следующим образом:
<distinct form="во">вот</distinct>
<distinct form="от">вот</distinct>
<distinct form="о">вот</distinct>
<distinct form="не">нет</distinct>
<distinct form="не-а">нет</distinct>
Если этого не сделать, то формы не удастся отделить от предлогов и частиц.
Аббревиатуры записываются как слышатся и расшифровываются как аббревиатуры
<distinct form="цээска’">ЦСКА</distinct>
В расшифровку записываются только те пояснения, которые важны для понимания коммуникации, в частности,
- длительные паузы (более 20 сек.)
<span class="note">через 2 мин.</span>
- речь "в сторону"
<span class="note">в сторону</span>
- и звукоподражания, выполняющие речевую функцию
<span class="note">цокает</span>
Если текст в том или ином месте не удается разобрать, то используется тег [нрзб]
("неразборчиво"), который записывается так:
<noindex>[нрзб]</noindex>
Остальные ремарки добавляются с помощью кнопки тега типа note ("пояснение"):
<span class="note">В сторону</span>
Когда говорят несколько человек одновременно и разобрать ничего не удается, нужно использовать ремарку "Говорят одновременно"
<span class="note">Говорят одновременно</span>
(Одновременно звучащие реплики, если их удается разобрать, нужно записывать последовательно, друг за другом).
В случаях невербального общения (напр., общий гул без ясно вычлененных реплик) допустимо указать общее настроение этого гула, например,
<span class="note">Все согласны</span>
<span class="note">Никто не знает</span>
Допустимо при расшифровке либо ставить стандартную пунктуацию, прежде всего, знаки вопроса и восклицания (см. файл-образец), либо ставить знаки / и // для обозначения микрочастей "предложения" и границ между "предложениями" устной речи, ср.:
//там спрашивают фамилию-то / я сказала / Поликарпова// ты с какого года? / ну это / родители сказали / с восемнадцатого //нет / ты с семнадцатого// я говорю / откуда / я с восемнадцатого //
Пример полностью расшифрованного и размеченного корпуса: sample_video_transcript.1.txt
Чеклист выполненного задания:
- в свой гитхаб в папку LiveCorpus нужно положить текстовый файл с именем вида filename.1.txt (первичная расшифровка), файл filename.2.txt (вторичная расшифровка).
- проверьте, что файлы сохранены как текст (.txt), имеют кодировку UTF-8, формат конца строк - Windows (CR+LF). Если это не так - конвертируйте файл с помощью NotePad++. Имя файла не должно содержать кириллических букв. Старайтесь, чтобы вместо anyname у вас стояло что-то, мнемонически напоминающее тему разговора на видео, и у всех версий транскриптов оно было одинаковым.
- заполнена метатаблица в гугл-доке, ники говорящих в гугл-доке совпадают с никами в начале реплик.