Skip to content

Latest commit

 

History

History
15 lines (8 loc) · 1.78 KB

README.md

File metadata and controls

15 lines (8 loc) · 1.78 KB

TikTok-Scraping

To collect main data and create a collection of publications, use the TikTok Scraping.ipynb file. After that you can go to the py-script VoskSpeechRecognition.py, which will save the recognised text into a table with unique video characteristics.

For speech recognition, you need to download the desired language model from here: https://alphacephei.com/vosk/models (I used the first one, "US English Kaldi ASPIRE model", 1.4 GB). Then create a virtual environment for the project and save there both the model and the py-script for recognition.

Analysis of the results can be done using TikTok Analysis.ipynb file. It is preferable to visualise the results in Cytoscape rather than in Gephi.


Для сбора основных данных и коллекции публикаций нужно работать с файлом TikTok Scraping.ipynb. После этого можно перейти к py-скрипту VoskSpeechRecognition.py, который сохранит в таблицу с уникальными характеристиками видео распознанный текст.

Для распознавания речи нужно скачать модель нужного языка отсюда: https://alphacephei.com/vosk/models (я использовала первую, "US English Kaldi ASPIRE model", 1.4 GB). Затем создайте виртуальное окружение для проекта и сохраните туда и модель, и py-скрипт для распознавания.

Анализ полученных результатов можно провести с помощью файла TikTok Analysis.ipynb. Результаты предпочтительно визуализировать в Cytoscape, а не в Gephi.