- Бибаева Мария — разработка и тестирование
- Картозия Инга — аналитическая часть и general management
- Анастасия Мельник — разработка и тестирование
- Техническое задание
- Корпус текстов, на котором мы обучались и тестировали программу
- Корпус текстов, на котором мы тестировали программу
- Выдача прогона на тестовом корпусе
- Резюме по статье
- Отчет (данный файл)
- Презентация
- Доп. задание по аббревиатурам: def abbr_freq и результат
Результаты тестирования на 500 токенах нашего корпуса:
Точность: 0.99564
Полнота: 0.99132
Для сегментации предложений (на том же материале):
Точность: 0.951
Полнота: 0.866
Результаты тестирования на нашем резюме по статье:
Точность: 0.99071
Полнота: 1
Точность: 0.934
Полнота: 0.866
'С уважением, Команда Google Аккаунтов Не отвечайте на это сообщение.'
С уважением, Учебный офис Здравствуйте, lingua!'
Дорогие студенты, Завтра мы ждем вас ВСЕХ на собрании с руководителем школы лингвистики Е.В.'
В общем-то, мы пробовали добавить в код условие, что письмо обычно начинается с устойчивых сочетаний: Дорогие, Уважаемые, Доброй ночи, Добрый вечер/день, Доброе утро, Привет, Здравствуйте, Любимые. Конец письма также довольно формализован: Ваш, Ваша, С наилучшми пожеланиями, Всего доброго, С Уважением.
Ваш МА — одно предложение
Дорогие студенты — одно предложение
Остальной текст письма делится на предложения по стандартному принципу, т.е. если слева от точки(или другого знака конца предложения) есть незаглавная буква, а справа пробел + слово с заглавной буквы.