Er bajenn-mañ e c'hallit kavout ar c’horpusoù testennoù bodet gant Ofis Publik ar Brezhoneg, hag ivez korpusoù all hag a c'haller kaout frank war ar Genrouedad.
Korpus divyezhek galleg-brezhoneg, savet diwar memorioù treiñ eus Ofis Publik ar Brezhoneg.
60 000 frazenn
Korpus gwezheñvel (TreeBank) evit ar brezhoneg a zo ennañ notennadurioù morfosintaksel.
888 frazenn
Korpusoù unyezhek n’int ket notennaouet, tennet eus ar Wikipedia brezhonek.
10 000, 30 000 ha 100 000 frazenn
Dastumad korpusoù divyezhek steudet o tont eus memorioù treiñ an OPAB, istitloù, troidigezhioù meziantoù, ha kement zo.
900 000 frazenn evit an daouad galleg-brezhoneg
Dastumad frazennoù troet e meur a yezh.
5 600 frazenn evit an daouad galleg-brezhoneg
Korpus savet en ur venegeriñ e-leizh a lec’hiennoù internet
3 milion a c’herioù evit ar c’horpus brezhonek
Korpus savet en ur venegeriñ e-leizh a lec’hiennoù internet
20 milion a c’herioù evit ar c’horpus brezhonek