Es war einmal eine Voreingenommenheit: So wird Fairness in Google | gemacht Trends

    0
    9

    Menschen haben eine lange Geschichte in der Entwicklung von Produkten, die nicht unbedingt auf die Bedürfnisse aller ausgerichtet sind. “Frauen hinter dem Lenkrad wurden bis 2011 mit 47% höherer Wahrscheinlichkeit bei Autounfällen schwer verletzt, da die Autohersteller bei Crashtests keine weiblichen Schaufensterpuppen verwenden mussten”, erklärt Tulsee Doshi, Leiter der Initiative. maschinelles Lernen Messe von Google auf einer Konferenz des ACM TechTalks-Zyklus. Infolge des Mangels an repräsentativen Mannequins haben die für die Sicherheit aller Fahrer Verantwortlichen die Auswirkungen von Riemen oder nicht verstanden Airbags über einen wesentlichen Teil von ihnen im Falle einer Kollision.

    Es ist kein Einzelfall. In den 1950er Jahren kalibrierte Kodak seine Karten mit einem weißen Modell. Die neunziger Jahre mussten kommen, damit sich nicht mehr und nicht weniger als Chocolatiers und Holzhersteller beschwerten, dass die Farbe ihrer Produkte auf ihren Fotos nicht gut dargestellt wurde. Diese beiden Beispiele sind es nicht maschinelles Lernen Sie sind auch keine Beispiele für schlechte Absichten oder den Wunsch zu diskriminieren. Sie sind Beispiele dafür, was passiert, wenn wir Technologien basierend darauf entwickeln, wer sie entwickelt. Das Ziel, schnell etwas auf den Markt zu bringen, kann dazu führen, dass unbewusste Vorurteile und Stereotypen in unsere Produkte eindringen. “

    Der gescheiterte Standard an Mannequins fiel nicht vom Himmel und der Mangel an Farben auch. Der Fehler liegt bei den Menschen, die am Steuer saßen, als sie entschieden, wie die Dinge gemacht werden sollten. “Der Mensch steht auch im Zentrum der Entwicklung von maschinelles LernenDoshi Notizen. Und sie können es auch vermasseln, wenn sie nicht die Absicht haben, ihr neues Produkt so schnell wie möglich fertig zu stellen.

    Es passiert in den besten Häusern und auch bei Google. Ein Beispiel ist Perspective, eine API, die mit dem vorrangigen Ziel erstellt wurde, gesündere Online-Konversationen zu fördern und die Moderation von Inhalten zu erleichtern. Die Bedienung ist einfach. Das System beschränkt sich darauf, dem Inhalt eine Bewertung zu geben: nahe Null, wenn sie harmlos sind, und näher an eins, wenn sie giftig sind.

    Doshi gibt das Beispiel von zwei möglichen Kommentaren vor dem Foto eines Welpen. Die Option Was für ein süßer Welpe, ich möchte ihn für immer umarmen Eine Punktzahl von 0,07 wird beibehalten. Stattdessen ist dies das schlechteste Beispiel für einen Welpen, den ich je gesehen habe, als er 0,84 erreichte. “Es ist ein unangenehmer und hasserfüllter Kommentar”, erklärt Doshi. Aber hey, das Tier findet nichts heraus, also wäre alles eine Anekdote. Das Problem trat auf, als das Entwicklerteam eine Demo erstellte und sie für Benutzer öffnete. “Ein Benutzer hat zwei Sätze eingegeben: Ich bin gerade y Ich bin schwulErinnert den Experten. Das von Perspective angebotene Ergebnis betrug 0,04 bzw. 0,86. „Das ist natürlich ein Unterschied, den wir in unseren Produkten nicht sehen wollen. Wir wollen nicht, dass das Vorhandensein eines Identitätsbegriffs die Vorhersage drastisch verändert. “

    Wo Vorurteile geboren werden

    Im Allgemeinen folgt die Implementierung von maschinellen Lernsystemen einem gemeinsamen Verfahren. Sammeln Sie Daten, kennzeichnen Sie sie, trainieren Sie das Modell, um bestimmte Ziele zu erreichen, integrieren Sie diese in ein Produkt und stellen Sie sie den Benutzern zur Interaktion zur Verfügung. “Das Interessante ist, dass Ungerechtigkeit zu jedem Zeitpunkt des Prozesses in das System eindringen kann”, sagt Doshi. Sogar Benutzer können ihre eigenen Vorurteile in die Verwendung des Produkts einbeziehen.

    “Es ist sehr selten, dass eine einzige Ursache oder eine einzige Lösung für diese Probleme gefunden werden kann, und es ist oft die Art und Weise, wie diese verschiedenen Ursachen miteinander interagieren, die zu Ergebnissen führt, wie wir sie besprochen haben”, erklärt der Experte. Zwei Beispiele hierfür sind der Fall eines Geschlechtsklassifikators und des Google-eigenen Übersetzers. Die erste, deren Funktion darin bestand, Bilder zu klassifizieren, führte zu einer größeren Anzahl von Fehlern für die Gruppe der schwarzen Frauen. Im zweiten Fall waren Übersetzungen aus bestimmten Sprachen problematisch: auf Türkisch, Arzt (Arzt in Englisch) standardmäßig übersetzt in männlich und Krankenschwester (Krankenschwester), weiblich.

    Es sind zwei verschiedene Probleme mit zwei verschiedenen Lösungen. Im Fall des Klassifikators bestand die Antwort darin, mehr Daten von der Gruppe der schwarzen Frauen zu sammeln, um das Modell besser zu trainieren. Für Google Translate wurde nach einer Möglichkeit gesucht, dem Nutzer die maximale Menge an Informationen anzubieten: “Wir haben beschlossen, beide Kontexte anzugeben, sowohl die männliche als auch die weibliche Version”, fasst Doshi zusammen. „Diese beiden Lösungen sind wertvolle Möglichkeiten, um das Gespräch über Gerechtigkeit voranzutreiben. Und es gibt zwei Möglichkeiten, um sicherzustellen, dass die Benutzererfahrung inklusiv und fair ist, aber sie sind sehr unterschiedlich. Ein Ansatz ist eher technisch und datenbankbasiert, der andere nimmt die Perspektive des Produktdesigns ein. “

    Wenn die Daten nicht an Muhammad gehen

    Im Fall der API zur Messung der Toxizität des Inhalts ist der Pfad kurvenreicher. Sie sammelten zunächst mehr Daten über das, was sie Project Pride nannten: “Wir haben verschiedene Stolzparaden auf der ganzen Welt besucht, um positive Kommentare über und von der LGBTQ-Community zu sammeln.” Eine andere Möglichkeit wäre gewesen, synthetische Daten zu generieren.

    Darüber hinaus versuchten sie zu verhindern, dass das Modell Identitätsetiketten bei ihren Bewertungen berücksichtigt. Zum Beispiel, wenn ich den Satz habe Einige Leute sind InderIch kann den Begriff nehmen indisch und ersetzen Sie es durch a Token leere Identität (Symbol) “, erklärt Toshi. Auf diese Weise wird sichergestellt, dass alle Identitäten die gleiche Behandlung erhalten, aber auch Informationen verloren gehen. „Dies kann schädlich sein, da es hilfreich sein kann, zu wissen, wann bestimmte Identitätsbegriffe offensiv verwendet werden. Wir müssen darauf achten, toxische Kommentare nicht falsch zu klassifizieren, aber wir müssen auch sicherstellen, dass wir keine wirklich toxischen Kommentare verpassen. “

    Eine andere Möglichkeit, mit diesem Ungleichgewicht umzugehen, besteht darin, die Unterschiede in der Leistung des Modells für die verschiedenen Gruppen zu berücksichtigen – im ersten Beispiel den Unterschied zwischen den durch die Identitäten erhaltenen Bewertungen gerade y schwul– und ein Strafsystem einrichten, das Sie zwingt, diesen Abstand zu minimieren.

    „Jeder dieser Ansätze kann wirklich eine signifikante Verbesserung darstellen. Und Sie können auch sehen, dass diese Verbesserungen für die verschiedenen Gruppen unterschiedlich sind “, sagt der Experte. In diesem Zusammenhang empfiehlt er zu bedenken, dass es keine einheitlichen Lösungen gibt und dass viele Alternativen Vor- und Nachteile haben. “Aus diesem Grund ist es wichtig, dass wir klar und transparent über die Entscheidungen sind, die wir treffen.”

    .

    LEAVE A REPLY

    Please enter your comment!
    Please enter your name here

    This site uses Akismet to reduce spam. Learn how your comment data is processed.