Wikipedia heeft een Google Translate-probleem
Kleinere edities hebben dringend een hulpmiddel voor machinevertaling nodig, maar het is niet goed genoeg om op zichzelf te gebruiken
Amazon Kindle aanbiedingen

Wikipedia is opgericht met als doel kennis over de hele wereld vrij beschikbaar te maken, maar op dit moment is het vooral beschikbaar in het Engels. De Engelse Wikipedia is verreweg de grootste editie, met 5,5 miljoen artikelen, enslechts 15van de 301 edities hebben er meer dan een miljoen. De kwaliteit van die artikelen kan drastisch variëren, waarbij essentiële inhoud vaak volledig ontbreekt. Tweehonderdzes edities missen een artikel over deemotionele staat van geluken iets minder dan de helft mist een artikel over Homo sapiens .
Het lijkt het perfecte probleem voor hulpmiddelen voor machinevertaling, en in januari werkte Google samen met de Wikimedia Foundation om het op te lossen, door Google Translate op te nemen in die van de Foundation.tool voor het vertalen van inhoud, die gebruikmaakt van open-source vertaalsoftware. Maar voor de redacteuren die aan niet-Engelstalige Wikipedia-edities werken, is de tool voor het vertalen van inhoud meer een vloek dan een zegen geweest, waardoor het debat over de vraag of Wikipedia zich überhaupt moet bezighouden met machinevertaling, opnieuw is aangewakkerd.
Mensen beschouwen Google Translate als foutloos... Dat is het duidelijk niet.
Met de tool voor het vertalen van inhoud, beschikbaar als bètafunctie, kunnen redacteuren een voorbeeld van een nieuw artikel genereren op basis van een geautomatiseerde vertaling uit een andere editie. Bij correct gebruik kan de tool kostbare tijd besparen voor redacteuren die onderbemande edities bouwen, maar als het misgaat, kunnen de resultaten rampzalig zijn. eenglobale beheerder wees naar eenbijzonder afschuwelijkvertaling van Engels naar Portugees. Wat is dorpspomp in deEngelse versiewerd een bom in het dorp toen het door machinevertaling in het Portugees werd gehaald.
Mensen beschouwen Google Translate als foutloos, zei de beheerder, die vroeg om naar hun Wikipedia-gebruikersnaam, Vermont, te worden verwezen. Dat is het duidelijk niet. Het is niet bedoeld als vervanging voor het kennen van de taal.
Die slordige machinevertalingen zijn zo'n probleem geworden dat sommige edities speciale beheerdersregels hebben gemaakt om ze uit te roeien. De Engelse Wikipediagemeenschap gekozen om te hebbeneen tijdelijkecriteria voor snelle verwijderingalleen om toe te staanbeheerdersom elke pagina te verwijderen die vóór 27 juli 2016 door de tool voor het vertalen van inhoud is gemaakt, zolang er geen versie bestaat in depagina geschiedenisdie niet machinaal vertaald is. De naam van deze uitzonderlijke omstandigheden snelle verwijdering criterium isX2. Pagina's gemaakt door de tool voor het vertalen van inhoud.
een gemeenschapsbrede strategie om machine learning te verbeteren moet worden besprokenDe Wikimedia Foundation, die Wikipedia beheert, verdedigde de tool toen ze werd benaderd voor commentaar en benadrukte dat het slechts een van de vele tools is. De tool voor het vertalen van inhoud biedt essentiële ondersteuning aan onze redacteuren, zei een vertegenwoordiger, en de impact ervan gaat zelfs verder dan Wikipedia bij het aanpakken van de bredere, internetbrede uitdaging van degebrek aan inhoud in de lokale taal online.
Dat kan verrassend zijn als je de afgelopen jaren krantenkoppen hebt gezien over AI die pariteit bereikt met menselijke vertalers. Maar die verhalen verwijzen meestal naar beperkte, gespecialiseerde tests van de mogelijkheden van machinevertaling, en wanneer de software daadwerkelijk in het wild wordt ingezet, wordt debeperkingenvan kunstmatige intelligentie duidelijk worden. Zoals Douglas Hofstadter, hoogleraar cognitie aan de Indiana University Bloomington, in eeninvloedrijk artikelover dit onderwerp is AI-vertaling oppervlakkig. Het produceert tekst die vloeiend is, maar die meestal de diepere betekenis van woorden en zinnen mist. AI-systemen leren vertalen door statistische patronen in grote hoeveelheden trainingsgegevens te bestuderen, maar dat betekent dat ze blind zijn voor de nuances van taal die minder vaak worden gebruikt, en het gezond verstand van menselijke vertalers missen.
Het resultaat voor Wikipedia-editors is een grote vaardigheidskloof. Hun machinevertaling vereist meestal nauwlettend toezicht van degenen die vertalen, die zelf een goed begrip moeten hebben van beide talen die ze vertalen. Het is een echt probleem voor kleinere Wikipedia-edities die al vastgebonden zijn voor vrijwilligers.
Guilherme Morandini, een beheerder van de Portugese Wikipedia, ziet vaak dat gebruikers artikelen openen in de tool voor het vertalen van inhoud en onmiddellijk publiceren naar een andere taaleditie zonder enige beoordeling. Zijn ervaring is dat het resultaat een slordige vertaling of regelrechte onzin is, een ramp voor de geloofwaardigheid van de uitgave als informatiebron. Bereikt doorDe rand, wees Morandini opditartikel over Jusuf Nurkić als voorbeeld, machine vertaald in het Portugees van itsEngels equivalent. De eerste regel, ... é um Bósnio profissional que atualmente joga ... vertaalt rechtstreeks naar ... is een professionele Bosniër die momenteel speelt ..., in tegenstelling tot de Engelse versie ... is een Bosnische professionele basketbalspeler.
Machinevertaling zal nooit een haalbare manier zijn om artikelen op Wikipedia te makenDe Indonesische Wikipedia-gemeenschap is zo ver gegaan omformeel verzoekendat de Wikimedia Foundation de tool uit de editie verwijdert. De Wikimedia Foundation lijkt terughoudend om dit te doen op basis van de thread, en heeft in het verleden de consensus van de gemeenschap overstemd. Privé werden zorgen geuit aan:De randdat er gevreesd wordt dat dit zou kunnen veranderen in een herhaling van de2014 Media Viewer-gevecht, die aanzienlijk wantrouwen veroorzaakte tussen de Stichting en de door de gemeenschap geleide edities die zij overziet.
Wikimedia beschreef die reactie in positievere bewoordingen. Als reactie op feedback van de community hebben we aanpassingen gedaan enpositieve feedback ontvangendat de aanpassingen die we hebben gedaan effectief waren, zei een vertegenwoordiger.
João Alexandre Peschanski, hoogleraar journalistiek aan deCasper Libero Collegein Brazilië wie?geeft een cursus over Wikiversity, is een andere criticus van het huidige automatische vertaalsysteem. Peschanski zegt dat een gemeenschapsbrede strategie om machinaal leren te verbeteren moet worden besproken, omdat we efficiëntie zouden kunnen verliezen door wat ik zou zeggen een nogal moeizame vertaalinspanning is. Vertaalhulpmiddelen zijn essentieel, en in de ervaring van Peschanski werken ze redelijk goed. De belangrijkste problemen waarmee we worden geconfronteerd, zegt hij, zijn het gevolg van inconsistenteSjablonengebruikt in artikelen. Idealiter bevatten die sjablonen repetitief materiaal dat nodig kan zijn voor veel artikelen of pagina's, vaak tussen verschillende taaledities, waardoor taal gemakkelijker automatisch kan worden ontleden.
Peschanski beschouwt vertalen als een activiteit van hergebruik en aanpassing, waarbij hergebruik tussen taaledities afhangt van het feit of inhoud aanwezig is op een andere site. Maar aanpassen betekent een andere culturele, taalspecifieke achtergrond in de vertaling brengen alvorens verder te gaan. Een bredere mogelijke oplossing zou zijn om een soort van projectbreed beleid in te voeren dat machinevertalingen verbiedt zonder menselijk toezicht.
De meeste gebruikers dieDe randgeïnterviewd voor dit artikel gaven de voorkeur aan het combineren van handmatige vertaling met machinevertaling, waarbij de laatste alleen werd gebruikt om specifieke woorden op te zoeken. Alle geïnterviewden waren het eens met de verklaring van Vermont dat machinevertaling nooit een haalbare manier zal zijn om artikelen op Wikipedia te plaatsen, simpelweg omdat het geen complexe menselijke zinnen kan begrijpen die niet tussen talen vertaald kunnen worden, maar de meesten zijn het erover eens dat het wel degelijk zijn nut heeft.
Geconfronteerd met die obstakels, kunnen kleinere projecten altijd een lagere kwaliteit hebben in vergelijking met de Engelse Wikipedia. Kwaliteit is relatief, en onvoltooide of slecht geschreven artikelen zijn onmogelijk volledig uit te roeien. Maar die ongelijkheid brengt een reële prijs met zich mee. Hier in Brazilië, zegt Morandini, wordt Wikipedia nog steeds als onbetrouwbaar beschouwd, een reputatie die niet wordt geschaad door slordig uitgevoerde vertalingen van Engelse artikelen. Zowel Vermont als Morandini zijn het erover eens dat, in het geval van pure machinevertaling, de betreffende artikelen beter kunnen worden geschrapt. In te veel gevallen zijn ze gewoon te erg om te houden.
James Vincent droeg aanvullende rapportage bij aan dit artikel.
openbaarmaking: Kyle Wilson is een beheerder op de Engelse Wikipedia en a globale gebruiker hernoemer . Hij ontvangt geen betaling van de Wikimedia Foundation en neemt ook niet deel aan betaalde redactie, ruim opgevat.
5/30 9:22 ET: Bijgewerkt om commentaar van de Wikimedia Foundation op te nemen.