Synchformer: Efficient Synchronization From Sparse Cues

Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman

Tutkimustuotos: KonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

Our objective is audio-visual synchronization with a focus on ‘in-the-wild’ videos, such as those on YouTube, where synchronization cues can be sparse. Our contributions include a novel audio-visual synchronization model, and training that decouples feature extraction from synchronization modelling through multi-modal segment-level contrastive pre-training. This approach achieves state-of-the-art performance in both dense and sparse settings. We also extend synchronization model training to AudioSet a million-scale ‘in-the-wild’ dataset, investigate evidence attribution techniques for interpretability, and explore a new capability for synchronization models: audio-visual synchronizability. robots.ox.ac.uk/~vgg/research/synchformer
AlkuperäiskieliEnglanti
OtsikkoICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
KustantajaIEEE
Sivut5325-5329
ISBN (elektroninen)979-8-3503-4485-1
DOI - pysyväislinkit
TilaJulkaistu - 2024
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisussa
TapahtumaIEEE International Conference on Acoustics, Speech and Signal Processing - Seoul, Etelä-Korea
Kesto: 14 huhtik. 202419 huhtik. 2024

Julkaisusarja

Nimi
ISSN (elektroninen)2379-190X

Conference

ConferenceIEEE International Conference on Acoustics, Speech and Signal Processing
Maa/AlueEtelä-Korea
KaupunkiSeoul
Ajanjakso14/04/2419/04/24

Julkaisufoorumi-taso

  • Jufo-taso 2

Sormenjälki

Sukella tutkimusaiheisiin 'Synchformer: Efficient Synchronization From Sparse Cues'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä