The Helsinki-NLP Submissions at NADI 2023 Shared Task: Walking the Baseline

Yves Scherrer, Aleksandra Miletić, Olli Kuparinen

Tutkimustuotos: KonferenssiartikkeliTieteellinenvertaisarvioitu

3 Sitaatiot (Scopus)
5 Lataukset (Pure)

Abstrakti

The Helsinki-NLP team participated in the NADI 2023 shared tasks on Arabic dialect translation with seven submissions. We used statistical (SMT) and neural machine translation (NMT) methods and explored character- and subword-based data preprocessing. Our submissions placed second in both tracks. In the open track, our winning submission is a character-level SMT system with additional Modern Standard Arabic language models. In the closed track, our best BLEU scores were obtained with the leave-as-is baseline, a simple copy of the input, and narrowly followed by SMT systems. In both tracks, fine-tuning existing multilingual models such as AraT5 or ByT5 did not yield superior performance compared to SMT.
AlkuperäiskieliEnglanti
OtsikkoProceedings of ArabicNLP 2023
ToimittajatHassan Sawaf, Samhaa El-Beltagy, Wajdi Zaghouani, Walid Magdy, Ahmed Abdelali, Nadi Tomeh, Ibrahim Abu Farha, Nizar Habash, Salam Khalifa, Amr Keleg, Hatem Haddad, Imed Zitouni, Khalil Mrini, Rawan Almatham
JulkaisupaikkaSingapore (Hybrid)
KustantajaASSOCIATION FOR COMPUTATIONAL LINGUISTICS
Sivut670-677
Sivumäärä8
ISBN (elektroninen)978-1-959429-27-2
TilaJulkaistu - 1 jouluk. 2023
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisussa
TapahtumaArabic Natural Language Conference - Hybrid, Singapore
Kesto: 30 marrask. 2023 → …

Conference

ConferenceArabic Natural Language Conference
LyhennettäArabicNLP 2023
Maa/AlueSingapore
Ajanjakso30/11/23 → …

Rahoitus

RahoittajatRahoittajan numero
Suomen Akatemia / Academy of Finland342859

    Julkaisufoorumi-taso

    • Jufo-taso 1

    Sormenjälki

    Sukella tutkimusaiheisiin 'The Helsinki-NLP Submissions at NADI 2023 Shared Task: Walking the Baseline'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

    Siteeraa tätä