Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere — a review (Polish)
A Polish translation of an article, that we wrote with Mike Erlihson, PhD as a part of #DeepNightLearners series.
--
Scroll down for English and Hebrew versions.
Other language versions:
Współautorem tego artykułu jest Mike Erlihson. W tłumaczeniu pomógł Mateusz Modrzejewski ❤️
W zasadzie dowolne dane mogę być reprezentowane jako wektor w ciągłej przestrzeni reprezentacji. Często jednak wektory dla różnych punktów danych koncentrują się w wąskim wycinku tej przestrzeni. Czy możemy tego uniknąć?
Wstęp
Uczenie się reprezentacji to szeroki termin, obejmujący grupę metod, pozwalających nam na budowanie reprezentacji danych o właściwościach korzystnych z punktu widzenia docelowych zadań (np. klasyfikacji lub generacji tekstu). Doskonałym przykładem uczenia się reprezentacji jest wykorzystujący kontrastywną funkcję straty samo-nadzorowany algorytm word2vec zaproponowany w 2013 roku przez Tomáša Mikolova i kolegów. Algorytm ten pozwala na budowanie zanurzeń (embeddings) o wielu pożądanych właściwościach. Jedną z nich jest to, że słowa o podobnym znaczeniu mapowane są do punktów, które znajdują się blisko siebie w przestrzeni zanurzeń (embedding space). Ta właściwość znana jest także w literaturze anglojęzycznej pod nazwą zrównanie (alignment). Modele klasy transformer rozszerzają możliwości word2vec, pozwalając na tworzenie zanurzeń (embeddings) wrażliwych na kontekst. To duży krok naprzód. Okazuje się jednak, że zanurzenia produkowane przez modele oparte o architekturę transformer cierpią na przypadłość określaną mianem niskiej jednorodności (low uniformity) — wektory zanurzeń mają tendencję do koncentrowania się w wąskim stożku przestrzeni zanurzeń (Mimno & Thompson, 2017; Ethayarajh, 2019). Prowadzi to do szeregu niepożądanych konsekwencji (np. nieadekwatnie małych dystansów pomiędzy niektórymi punktami reprezentującymi niezwiązane ze sobą znaczeniowo słowa). Czy istnieje sposób na to, żeby uniknąć tych konsekwencji?