ArTST - Arabic Text and Speech Transformer
ArTST is a pre-trained Arabic text and speech transformer for supporting open-source speech technologies for the Arabic language. The model architecture in this first edition follows the unified-modal framework, SpeechT5, that was recently released for English, and is focused on Modern Standard Arabic (MSA), with plans to extend the model for dialectal and code-switched Arabic in future editions. We pre-trained the model from scratch on MSA speech and text data, and fine-tuned it for the following tasks: Automatic Speech Recognition (ASR), Text-To-Speech synthesis (TTS), and spoken dialect identification.
TTS Results
Research demonstration
ClArTTS
In this section, we generate speech from texts in the ClArTTS dataset test set using model trained on ClArTTS dataset.
Text
Ground Truth
SpeechT5
ArTST
ArTST*
فلم ينكر صلى الله عليه وسلم قوله عليه
يفسد ما حوله لكن اتبعت فيهم
حلاوة دنياك مسمومة مسمومة
فمن لهم عدل الإنسان مع من فوقه
وخرج بعض الزهاد في يوم عيد في هيئة رثة فقيل له
ASC
In this section, we generate speech from texts in the ASC dataset test set using model trained on ASC dataset.
Text
Ground Truth
SpeechT5
ArTST
ArTST*
مشيرن إلى خدمة لقرأان لكريم وتعزيز علاقة لمسلمين به
ومن تلك لسلع ألشاي لصيني والورق والبارود والبوصلة
دخلت لتكنولوجيا في كل بيتن وأسرةن وأصبحت تشكل لجزء لكبير من حياتنا
ويأمل لباحثون تطوير حبوبن أو نسخةن من لدواء قابلةن للحقن خلال خمس سنوات
وكلما زادت كمية لسكر لمتناولة مع لتمر تقل فائدته لغذائية
QASR TEXT
In this section, we generate speech from the text in QASRTTS challenge dataset using model trained on CLARTTS dataset.
Text
Ground Truth
SpeechT5
ArTST
ArTST*
والباحث السياسي الأستاذ عبد الناصر المودع
والاستراتيجية مرحبا بكم جميعا وسأطرح السؤال ذاته عليكم
والذي أشار إلى أن ما حدث
في مصر الآن ضد المختلفين معها سياسيا حتى لو أخطأ هؤلاء المخالفين
كالنساء والأطفال على هذا النحو