Mae Prifysgol Bangor newydd ddatblygu sgriptiau a modelau hyfforddi newydd sy’n dwyn ynghyd nodweddion amrywiol DeepSpeech, ynghyd â data CommonVoice, ac mae’n darparu ateb cyflawn ar gyfer cynhyrchu modelau a sgorwyr ar gyfer adnabod lleferydd Cymraeg. Gallant fod o ddiddordeb i unrhyw ddefnyddwyr eraill DeepSpeech sy’n gweithio gydag ieithoedd eraill llai eu hadnoddau tebyg i’r Gymraeg.
Mae’r sgriptiau:
- yn seiliedig ar DeepSpeech 0.7.4
- yn defnyddio DeepSpeech’s Dockerfiles (ac felly yn hawdd eu paratoi a’u gosod)
- yn hyfforddi gyda data CommonVoice
- yn defnyddio dysgu trosglwyddol
- gyda rhai setiau prawf a chorpysau ychwanegol, yn cynhyrchu sgorwyr / modelau iaith optimaidd ar gyfer cymwysiadau amrywiol
- yn allforio modelau gyda metadata
Mae’r README 4 cychwynnol yn disgrifio sut i ddechrau.
Hoffem rannu hefyd y modelau sy’n cael eu cynhyrchu o’r sgriptiau hyn sydd i’w gweld yn https://github.com/techiaith/docker-deepspeech-cy/releases/tag/20.06 4
Ar hyn o bryd mae’r modelau hyn yn cael eu defnyddio mewn dau gymhwysiad prototeip y gall y gymuned Gymraeg eu gosod a rhoi cynnig arnyn nhw, sef trawsgrifydd wedi’i seilio ar Windows / C # ac ap cynorthwyydd llais Android / iOS 1 o’r enw Macsen. Gellir gweld cod ffynhonnell y cymwysiadau hyn gan ddefnyddio DeepSpeech hefyd ar GitHub.
Rydym yn ddiolchgar iawn i Mozilla am greu’r projectau Common Voice a DeepSpeech.