-
Notifications
You must be signed in to change notification settings - Fork 24
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Améiloration de documentation #27
base: master
Are you sure you want to change the base?
Conversation
Description de ce dépôt et de comment aider
Ajout de détails sur Adresses et Débats assemblée nationale
Merci !
En fait c'est utile pour vérifier la répartition des tailles et des mots par rapport à une référence (wikipedia)
Bonne question, le dépôt date d'avant l'existence de Sentence Collector, et visait justement à centraliser l'origine du texte pour éviter des doublons. Au pire, c'est une bonne contribution à faire à Sentence Collector s'il ne vérifie pas déjà ça
Probablement
Parser un PDF, j'ai déjà fait, c'est tellement pénible qu'à mon avis mieux vaut éviter
Il reste normalement pas grand chose, à part vérifier la qualité du texte de ce qui sort, et produire d'autres textes
C'est déjà fait / en cours sur Common Voice
Peut-être plutôt dans README.md du coup ?
Il y a déjà @nicolaspanel qui fait ça: https://gitlab.com/nicolaspanel/TrainingSpeech |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
C'est pas mal mais du coup deux-trois petits changements. Faudrait éviter aussi le mélange anglais / français. Le code peut servir à d'autres communautés, donc à mon avis c'est pas mal de rester sur de l'anglais pour ça.
Dernier point que tu peux vouloir améliorer @Gaet81, avec le temps je me suis rendu compte que l'extracteur de livres du projet Gutenberg nettoie assez mal les données. Il y aurait beaucoup de travail à faire pour l'améliorer (Projet Gutenberg est très lâche sur les contraintes de formattage, c'est un peu chacun fait comme il veut, du coup c'est assez pénible à parser). |
J'y ai réfléchis avant d'écrire la doc. Mais ce dépot est spécifique à la langue fançaise donc pour moi devrait rester en français. Vos issues sont en français également. |
j'ai vu que Nicolas Panel dans son projet utilisait le format epub plutot que le texte brut. Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte. Même si je reconnais qu'il n'y a pas de standardisation et que ça restera difficile. |
À l'utilisation c'est pénible, le README c'est un fichier à part. On peut utiliser un autre fichier, |
Possible mais quand j'avais regardé les bouquins par rapport à la licence, sur gutenberg en ePub y'avait pas grand chose de mémoire :/ |
@Gaet81 du coup tu bouges la partie code dans un |
Tu veux dire renommer readme du répertoire CommonVoice-Data vers contributing.md? |
Je ne comprends pas ce que tu dis ici...tous les livres me semblent en epub et si le livre est dans le domaine publique il y reste quelque soit le format ou je me trompe? |
Par ex
J'ai appris que pour Gutenberg, chacun fait un peu comme il veut et du coup les bouquins sont pas forcément dans tous les formats. Je suis pas contre l'idée de parser de l'ePub, mais faut juste voir le ratio travail / bénéfice :) |
change la déscription de length
Ok, j'ai renommé le fichier readme |
Heu t'as renommé et tout mis en français ? |
@Gaet81 Faut que tu rebases, désolé :/ |
@Gaet81 Dès que tu peux rebase sur master et corriger la partie qui doit rester en anglais, c'est bon pour moi :) |
Salut, J'ai retiré les phrases en anglais. |
Cette option ne fonctionne pas dans le cas de conflits comme actuellement 😕, je connais pas github desktop |
Mais il faut tout mettre en anglais et pas en français 😕 |
Bonjour,
J'ai amélioré la documentation. Dites-moi ce que vous en pensez et si c'est bien correct.
J'ai également des questions:
Ne faut-il pas ouvrir des issues pour :
Il faudrait également un wiki pour
Sur le projet Gutenberg il y a un lien vers librivox (https://librivox.org/search?primary_key=2&search_category=language&search_page=1&search_form=get_results). Est il possible de parser ces audio books qui sont dans le domaine public pour les incorporés à la validation common voice? Existe t'il déjà un tavail en ce sens pour d'autres langues?