Commit 1648eaa7 authored by Aileen Reichelt's avatar Aileen Reichelt
Browse files

Restore word pair similarity files

parent cd6b0fa5
Loading
Loading
Loading
Loading

WordSim353/compare.py

0 → 100644
+83 −0
Original line number Diff line number Diff line
"""Compare similarity scores which one set of GloVe embeddings generates
versus another set of GloVe embeddings to determine whether the two sets
of embeddings are more or less the same."""

import pandas as pd
from gensim.models import KeyedVectors
from scipy.stats import spearmanr
from scipy.spatial.distance import cosine

stanford_path = "/workspace/students/reichelt/ba_data/embeddings/glove/glove.6B.300d_w2vformat.txt"
dd_glove_path = "/workspace/students/reichelt/ba_data/embeddings/glove/dd-glove/english_vectors_no_debiasing.txt"

stanford_model = KeyedVectors.load_word2vec_format(stanford_path, binary=False)
stanford_model.init_sims(replace=True)
dd_glove_model = KeyedVectors.load_word2vec_format(dd_glove_path, binary=False)
stanford_model.init_sims(replace=True)

ws353_data = pd.read_csv("/home/students/reichelt/ba/bias-mitigation-ba/WordSim353/data/original_finkelstein/combined.csv")

def calculate_embedding_similarity(row, embedding):
    if embedding=="stanford":
        model = stanford_model
    elif embedding=="dd":
        model = dd_glove_model
    else:
        raise ValueError

    word_1 = row["Word 1"].lower()
    word_2 = row["Word 2"].lower()

    if word_1 in model:
        embd_1 = model[word_1]
    else:
        print(f"{word_1} not in vocab. returning similarity 0.")
        return 0.0
    if word_2 in model:
        embd_2 = model[word_2]
    else:
        print(f"{word_2} not in vocab. returning similarity 0.")
        return 0.0

    return 1 - cosine(embd_1, embd_2)

def calculate_stanford(row):
    word_1 = row["Word 1"].lower()
    word_2 = row["Word 2"].lower()
    if word_1 in stanford_model:
        embd_1 = stanford_model[word_1]
    else:
        print(f"{word_1} not in vocab. returning similarity 0.")
        return 0.0
    if word_2 in stanford_model:
        embd_2 = stanford_model[word_2]
    else:
        print(f"{word_2} not in vocab. returning similarity 0.")
        return 0.0
    return 1 - cosine(embd_1, embd_2)

def calculate_dd_glove(row):
    word_1 = row["Word 1"].lower()
    word_2 = row["Word 2"].lower()
    if word_1 in dd_glove_model:
        embd_1 = dd_glove_model[word_1]
    else:
        print(f"{word_1} not in vocab. returning similarity 0.")
        return 0.0
    if word_2 in dd_glove_model:
        embd_2 = dd_glove_model[word_2]
    else:
        print(f"{word_2} not in vocab. returning similarity 0.")
        return 0.0
    return 1 - cosine(embd_1, embd_2)

ws353_data["Stanford Score"] = ws353_data.apply(calculate_stanford, axis=1)
ws353_data["DD-GloVe Score"] = ws353_data.apply(calculate_dd_glove, axis=1)

rho, p = spearmanr(
        ws353_data["Stanford Score"], ws353_data["DD-GloVe Score"],
        nan_policy="raise"
    )

print("rho: " + str(rho))
print("p: " + str(p))
+18.7 KiB
Loading image diff...
+27.3 KiB
Loading image diff...
+30.7 KiB
Loading image diff...
+351 −0
Original line number Diff line number Diff line
#WORD1	WORD2	Value	POS1	POS2
Absage	ablehnen	3.5	n	v
Absage	Stellenanzeige	1.88	n	n
Affe	Gepäckkontrolle	0.13	n	n
Affe	Makake	4	n	n
Afrika	historisch	1	n	a
Agentur	Irrtum	0	n	n
Airbag	Kopfairbag	3.88	n	n
analysieren	Analyse	3.88	v	n
Ansehen	Schaden	0.88	n	n
Arbeitssuchender	Bewerbung	2.75	n	n
aufklären	erklären	2.5	v	v
Aufpreis	Grundpreis	3.13	n	n
Aufstieg	Erfolg	3.25	n	n
aufzeichnen	schreiben	2.75	v	v
Aussage	Auftritt	1.38	n	n
Aussage	Rede	2.38	n	n
Aussage	sagen	3.38	n	v
Aussterben	bedrohen	2.13	n	v
Auto	fahren	3.5	n	v
Bayern	Bayerisch	4	n	a
Bayern	Deutschland	3.5	n	n
Bayern	weißblau	2.75	n	a
Beamte	Amt	3.63	n	n
beginnen	dauern	2.38	v	v
begründen	ausgehen	0.88	v	v
Behörde	Vorschrift	2.75	n	n
beinhalten	umfassen	3.25	v	v
Benedetto	Benedikt	3.63	n	n
Benziner	Dieselversion	3	n	n
Berlin	Berlin-Kreuzberg	3.38	n	n
Berufstätigkeit	Erfolg	2.13	n	n
beschleunigen	übertreiben	1.13	v	v
beschuldigen	Mitschuld	2.5	v	n
Besucher	bekommen	1.38	n	v
Bewerbung	Job	2.38	n	n
Bild	ähneln	1.38	n	v
Bild	Grafik	3.13	n	n
Bild	Röntgenaufnahme	3	n	n
Bild	Symbol	2.13	n	n
Bild	visuell	3	n	a
Böse	Gott	2	n	n
Botschaft	sichtbar	0.25	n	a
Büro	Schreibtisch	3	n	n
Demut	demütig	4	n	a
demütig	selbstbewusst	1.88	a	a
Design	Optik	2.63	n	n
Designer	Eleganz	2.63	n	n
deutsch	Deutscher	3.88	a	n
Deutscher	Bundesbürger	3.5	n	n
Deutschland	Europa	3.25	n	n
Ding	Gegenstand	4	n	n
Doktorandin	Abteilung	1.88	n	n
Doktorandin	Dissertationsthema	2.63	n	n
Drehmoment	drehfreudig	1.75	n	a
dringend	rasch	2.38	a	a
Durchsicht	sehen	2.75	n	v
einfach	komplex	2.75	a	a
Einkommen	Gehaltsunterschied	2	n	n
Einrichtung	Interior	3.5	n	n
Einsamkeit	allein	3.5	n	a
einsteigen	aussteigen	2.75	v	v
Eleganz	klobig	1.38	n	a
Eltern	Vater	3.5	n	n
entgehen	bewundern	0.13	v	v
entwickeln	Entwicklungschef	2.63	v	n
Erfolg	erfolgreich	4	n	a
Erfolg	Maßstab	1.25	n	n
erforschen	herausfinden	3.13	v	v
Erhalt	bedroht	1	n	a
erkennen	sehen	3	v	v
erklären	begründen	2.5	v	v
erklären	machen	0.5	v	v
ernst	ironisch	2	a	a
erst	Ursprungsort	1.38	a	n
Erwachsener	Geist	0	n	n
Erwachsener	Kinder	2.63	n	n
erwarten	klären	0	v	v
fahren	Automobil	3	v	n
filtern	herausfiltern	3.63	v	v
filtern	selektieren	3.38	v	v
finden	herausfinden	3	v	v
Fisch	schwimmen	3.38	n	v
Flaschenöffner	Küchenwerkzeug	3.63	n	n
fokussieren	Aufmerksamkeit	2.63	v	n
folgen	sortieren	0.25	v	v
Form	Farbe	2.13	n	n
formulieren	Formulierung	3.88	v	n
Formulierung	Stiftung	0.13	n	n
Forscher	Wissenschaftler	3.88	n	n
Frage	Antwort	3.25	n	n
Franzose	Deutscher	2.38	n	n
Frau	Familie	2.75	n	n
Frau	Mann	3.25	n	n
Frühlingssonne	kitzeln	1.25	n	v
Frust	frustrieren	3.88	n	v
Frust	Leidensgenosse	1.88	n	n
Frust	Rache	1.88	n	n
geben	nehmen	3.25	v	v
Gefühl	Frau	1.75	n	n
Gegenwind	kritisieren	0.5	n	v
Gehege	Zoo	2.63	n	n
Gehirn	Kortex	3.25	n	n
Gehirn	verstehen	2.13	n	v
gemeinsam	leben	1	a	v
Generation	Jugendlicher	2.5	n	n
geografisch	praktisch	0.13	a	a
Gepäckkontrolle	Flughafen	3.13	n	n
Gepäcknetz	Staumöglichkeit	2.25	n	n
Geschirrdurcheinander	Menschenleben	0.5	n	n
Geschlecht	Mann	3	n	n
Gewalt	Frieden	2.63	n	n
Gewalt	Kämpfer	2.63	n	n
Gewicht	Karriere	0.38	n	n
Glaube	natürlich	0.5	n	a
Glück	glücklich	3.88	n	a
Gorilla	Schlange	1.25	n	n
großzügig	schrumpfen	0.5	a	v
gründen	Arbeitsgruppe	0.75	v	n
Grundlagenforschung	verstehen	1.63	n	v
Hand	Erwachsener	1.38	n	n
Hand	Mensch	2.75	n	n
heimisch	Urwaldhaus	1	a	n
helfen	unterstützen	3.38	v	v
herausstreichen	öffentlich	0.5	v	a
Herkunft	Geschlecht	1.38	n	n
Hintergrund	Fassade	2	n	n
Hirn	Gehirn	3.88	n	n
Hirnsignal	Neuronenaktivität	3.5	n	n
Hoffnung	Resignation	2.75	n	n
Honorarbasis	bezahlen	3	n	v
Hunderttausend	Menge	3	n	n
Hunger	Armut	2.88	n	n
Inaugurationsmesse	Premiere	2.13	n	n
informieren	erfahren	2.63	v	v
Innenspiegel	Auto	3.13	n	n
Internetseite	herunterladen	3.25	n	v
italienisch	vergehen	0	a	v
Jäger	Wald	2.75	n	n
Kaffeetasse	parallel	0	n	a
Kaffeetasse	Tasse	3.75	n	n
Kamera	TV-Kamera	3.75	n	n
kämpfen	idyllisch	0.13	v	a
kämpfen	Veterinär	0.38	v	n
Karriere	hinaufklettern	2	n	v
Karriere	Risiko	1	n	n
Kind	Familie	3.38	n	n
Kompaktvan	Modell	2.5	n	n
Kopfairbag	Seitenairbag	3.25	n	n
Krankheit	reißen	0.25	n	v
Krebserkennung	Röntgenaufnahme	2	n	n
kühl	hübsch	0.38	a	a
Kulturwissenschaft	Grafiker	0.63	n	n
lachen	leben	1.63	v	v
lassen	prägen	0.25	v	v
laufen	bleiben	1.25	v	v
leben	hellen	0.13	v	v
leben	Tod	3.25	v	n
Lebensbedürfnis	ansiedeln	0.38	n	v
legen	Tisch	1.13	v	n
lernen	gleichzeitig	0	v	a
Lied	singen	3.38	n	v
Linguistik	Wissenschaft	3.5	n	n
Luft	Leben	2.75	n	n
Lupe	suchen	2	n	v
lustig	Witz	3.25	a	n
machen	anfertigen	3.63	v	v
machen	ausüben	2.5	v	v
Macht	Reich	2.5	n	n
Mai	Januar	2.88	n	n
Mann	Geschäftspartner	1.5	n	n
männlich	Weiblich	3.13	a	a
Marktl	Bayern	2.25	n	n
Mehrarbeit	Workaholic	2	n	n
Meinung	Überzeugung	3.13	n	n
Mercedes	Premium-Hersteller	2.63	n	n
Minister	Außenminister	3.38	n	n
Minister	Ministerpräsident	3.38	n	n
Minister	Politiker	3.25	n	n
mitteilen	Nachricht	3	v	n
moderat	extra	1.25	a	a
modern	sportlich	1.25	a	a
momentan	kommend	1.38	a	v
Monate	alt	2.25	n	a
Montag	November	2.38	n	n
Motor	Hubraum	2.75	n	n
nachgehen	untersuchen	2.75	v	v
Natur	künstlich	2.63	n	a
Niedersachsen	Landesverband	1.63	n	n
niederschmetternd	positiv	1.63	a	a
Objekt	Gegenstand	3.88	n	n
objektiv	subjektiv	3.13	a	a
pädagogisch	weitläufig	0.5	a	a
Papst	Kirche	3.38	n	n
parallel	linear	1.75	a	a
Pass	Reiseschutzpass	2.75	n	n
Petersdom	Inaugurationsmesse	2.63	n	n
Pinguin	baden	1.5	n	v
plätschern	Wasser	2.88	v	n
Platz	aufgebläht	0.13	n	a
Platz	Petersplatz	3.13	n	n
Pontifikat	Papst	3.38	n	n
Post	Portokosten	3	n	n
Premium-Hersteller	Opel	1.63	n	n
Premium-Hersteller	VW	2	n	n
Problem	Schwierigkeit	3.25	n	n
Projekt	Aktion	2	n	n
Prozentzeichen	Symbol	3.38	n	n
Prüfung	Zeugnis	2.5	n	n
Punktverlust	Platz	1.13	n	n
Ratzinger	Papst	3.38	n	n
Relevanz	relevant	3.88	n	a
riesig	üppig	2.63	a	a
rot-weiß	weißblau	2.75	a	a
sachlich	Seriosität	2.13	a	n
sagen	erklären	2.13	v	v
sagen	mitteilen	3.13	v	v
Sandwich-Konzept	Sicherheit	0.5	n	n
schauen	sehen	3.75	v	v
Schleusung	Betrugshandlung	2.13	n	n
schließen	Überlegung	0.88	v	n
Schrank	Küchenschrank	3.38	n	n
Schwabe	sparen	2.75	n	v
Schwabe	Stuttgarter	3.38	n	n
Seitenansicht	A-Säule	0.88	n	n
Selbstinszenierung	Beziehungsarbeit	0.5	n	n
serienmäßig	extra	2.13	a	a
Sicherheit	Frontalkollision	1.63	n	n
Sicherheit	klobig	0.25	n	a
Sohn	aussteigen	0	n	v
Sohn	Vater	3.38	n	n
Spitze	allein	1.13	n	a
Spitze	hoch	2.25	n	a
sportlich	Interior	0	a	n
sportlich	teuer	0.38	a	a
stark	Gehaltsunterschied	0.13	a	n
stark	Kämpfer	1.88	a	n
Steckdose	komplex	0.13	n	a
Steckdose	Stern	0.13	n	n
Stellenangebot	sehen	0.38	n	v
Stellenangebot	Wochenzeitung	2.25	n	n
Stellenanzeige	Bewerbungsgespräch	2.25	n	n
Stellenanzeige	rasch	0.5	n	a
Stoiber	drehfreudig	0.25	n	a
Stoiber	Ministerpräsident	3.13	n	n
Studie	Dissertationsthema	1.88	n	n
Studie	Ergebnis	2.75	n	n
Studierende	Abteilung	1.63	n	n
Studierende	Note	2.38	n	n
Studium	arbeiten	2.63	n	v
Studium	Beruf	3	n	n
Studium	Deutscher	0.25	n	n
Studium	Europa	0.5	n	n
Studium	Gegenstand	0.88	n	n
Studium	studieren	4	n	v
suchen	Bundesbürger	0	v	n
suchen	finden	3	v	v
Suchmaschinenbetreiber	Eleganz	0.25	n	n
Suchmaschinenbetreiber	Linkstatistik	1.75	n	n
Suchstrategie	Optik	0.25	n	n
Suchstrategie	suchen	3.5	n	v
summieren	selbstbewusst	0.13	v	a
summieren	teuer	0.88	v	a
Tag	demütig	0.25	n	a
Tag	Donnerstag	3.38	n	n
Tag	Leben	1.5	n	n
Tag	Schreibtisch	0	n	n
Tag	sichtbar	0.63	n	a
Tag	Stunde	2.75	n	n
Tastatur	Gott	0	n	n
Tastatur	Suche	0.63	n	n
Tätigkeit	Arbeit	3	n	n
Tätigkeit	visuell	0.13	n	a
teuer	kostspielig	3.88	a	a
teuer	Symbol	0.25	a	n
Tier	Natur	2.63	n	n
Tier	Röntgenaufnahme	0.25	n	n
Tierpark	Giraffe	3	n	n
Tierpark	Grafik	0.5	n	n
Tod	ähneln	0	n	a
Tod	Beerdigung	3.25	n	n
Topmanagement	Job	2.5	n	n
Topmanagement	Unternehmen	2.75	n	n
Traurigkeit	bekommen	0.13	n	v
Traurigkeit	Heimgang	1.13	n	n
überzeugen	Mitschuld	0.5	v	n
überzeugen	zeigen	1.5	v	v
Überzeugung	übertreiben	0.63	n	v
Überzeugung	Zweifel	2.63	n	n
Umfrage	Erfolg	0.13	n	n
Umfrage	Quartalsumfrage	2.88	n	n
umklappen	Berlin-Kreuzberg	0	v	n
umklappen	flachlegen	1.63	v	v
Unternehmen	Dieselversion	0	n	n
Unternehmen	Firma	3.63	n	n
untersuchen	Benedikt	0	v	n
untersuchen	suchen	2.5	v	v
Untersuchungsausschuss	aussagen	1.88	n	v
Untersuchungsausschuss	umfassen	0.38	n	v
Van	Sports-Tourer	2.38	n	n
Van	Vorschrift	0.25	n	n
Vatikan	ausgehen	0.13	n	v
Vatikan	Katholik	3.25	n	n
veranstalten	betreuen	1.38	v	v
veranstalten	dauern	0.75	v	v
verantwortlich	Amt	2.25	a	n
verantwortlich	zuständig	3.63	a	a
vergangen	damalig	3.25	a	a
vergangen	weißblau	0	a	a
Vergangenheit	alte	2	n	a
Vergangenheit	Deutschland	1	n	n
verhindert	Bayerisch	0	a	a
verhindert	Beihilfe	0.75	a	n
verkaufen	bezahlen	2.5	v	v
verkaufen	fahren	0.13	v	v
Vernehmung	bedrohen	0.75	n	v
Vernehmung	vernommen	3.63	n	v
versäumen	sagen	0.13	v	v
versäumen	überprüfen	0.13	v	v
verschicken	Post	3	v	n
verschicken	Rede	0.25	v	n
versichern	Auftritt	0.13	v	n
versichern	bedauern	0.5	v	v
viel	groß	2	a	a
viel	schreiben	0.38	a	v
Volierenzelt	Erfolg	0	n	n
Volierenzelt	Käfig	2.38	n	n
vorankommen	Entwicklung	2.5	v	n
vorankommen	Grundpreis	0.25	v	n
weit	Bewerbung	0	a	n
weit	erklären	0.25	a	v
weit	nahe	3.13	a	a
weit	wegrennen	1.5	a	v
Welle	Schaden	1	n	n
Welle	Surfer	3.13	n	n
Widerspruch	Analyse	1.13	n	n
Widerspruch	Gebiet	0	n	n
Wien	deutschsprachig	3	n	a
Wien	Kopfairbag	0	n	n
Wirtschaftsprofessor	Irrtum	0.38	n	n
Wirtschaftsprofessor	Professor	3.63	n	n
Wirtschaftsuniversität	Abteilung	1.75	n	n
Wirtschaftsuniversität	historisch	0.63	n	a
Witz	Gepäckkontrolle	0.25	n	n
Witz	Joke	4	n	n
Witz	Kopf	1.13	n	n
Witz	Makake	0.13	n	n
Zebra	Stellenanzeige	0	n	n
Zebra	Tier	3.25	n	n
Zielstrebigkeit	ablehnen	0.25	n	v
Zielstrebigkeit	Erfolg	2.63	n	n
Loading