Sur cette page, vous pourrez trouver les corpus de textes consitués par l'Office public de la langue bretonne, ainsi que d'autres corpus disponibles librement sur Internet.
Corpus bilingue français-breton, issu de mémoires de traduction de l'Office public de la langue bretonne.
60 000 phrases
Corpus arboré (TreeBank) du breton, comportant des annotations morpho-grammaticales et syntaxiques.
888 phrases
Corpus monolingues, non annotés, extraits à partir du Wikipédia breton.
10 000, 30 000 et 100 000 phrases
Collection de corpus bilingues alignés issus de mémoires de traduction de l'OPLB, de sous-titres, de traductions de différents logiciels, etc.
900 000 phrases pour la paire français breton
Collection de phrases traduites dans de nombreuses langues.
5 600 phrases pour la paire français-breton
Corpus issu d'indexation massive de sites internet
3 millions de mots pour le corpus breton
Corpus issu d'indexation massive de sites internet
20 millions de mots pour le corpus breton