Algoritmeista vuodettiin julkisuuteen – Näin Google toimii

Markku Korhonen
| 4 min read

Google-hakukoneen kuva. Alphabet omistaa Googlen.

Maailman johtava hakukone Google on jälleen kerran tarkkailun kohteena. Googlen toimintojen vaikutusta arvioidaan taas sen suhteessa demokratiaan – tällä kertaa eurovaaleissa.

Viime aikoina kaksi merkittävää tapausta ovat nousseet esille: Faktabaarin ja CheckFirstin havaitsemat Googlen hakusuositusten muutokset Suomen presidentinvaalien aikana sekä Helsingin Sanomien raportoimat tiedot Googlen hakukoneen toimintaperiaatteista vuotaneen asiakirjan perusteella.

Faktabaari: Näin hakusuositukset toimivat presidentinvaalien aikana


Faktabaarin ja CheckFirstin Digivaalivahti-hankkeen puitteissa tehtyjen havaintojen mukaan Google muokkasi merkittävästi hakusuosituksiaan Suomen presidentinvaalien alla. Projekti seurasi useiden sosiaalisen median alustojen ja hakukoneiden suosituksia poliittisista aiheista. Erityisen huolestuttavaa oli se, miten Googlen hakusuositukset johdattivat käyttäjiä harhaanjohtaviin vaalivilppiväitteisiin.

Suomen presidentinvaalien ennakkoäänestyksen alkaessa tammikuussa Google poisti kokonaan hakusuositukset presidenttiehdokkaiden nimistä suomalaisilta käyttäjiltä. Esimerkiksi Alexander Stubbin nimeen liittyvät suositukset katosivat yhtäkkiä 14. tammikuuta alkaen. Tämä muutos oli havaittavissa vain Suomessa, kun taas Ranskassa Stubbin nimen yhteydessä tarjottiin useita suosituksia, kuten “sotilasarvo” ja “tulot”.

Presidentinvaalien jälkeen hakusuositukset palautuivat normaaliksi, mikä viittaa siihen, että Google muokkaa aktiivisesti hakukoneensa toimintaa vaalien aikaan. Tämä herättää kysymyksiä siitä, miten paljon tietoa ulkomailla asuvat suomalaiset ja Suomessa asuvat suomalaiset saivat ehdokkaista, ja miten tämä mahdollisesti vaikutti vaalituloksiin.

Bit Dials mainosbanneri

Googlen hakukoneen toiminnan salaisuudet


Myös Helsingin Sanomat on julkaissut tietoja yli 2500 sivun dokumentista, joka vuoti Googlelta. Dokumentti paljastaa yksityiskohtia Googlen hakukoneen toimintaperiaatteista, joita yhtiö on tähän asti pitänyt visusti salassa.

Asiakirjan mukaan Google tekee vaalien aikaan listauksen sivustoista, joita se nostaa hakutuloksissa. Tämä tarkoittaa, että Googlella on suora vaikutus siihen, millaista tietoa käyttäjät saavat demokraattisissa vaaleissa.

Hakukoneoptimoinnin asiantuntijat, kuten Rand Fishkin ja Mike King, ovat kritisoineet Googlea siitä, että yhtiö on valehdellut hakualgoritmiensa toiminnasta.

“Google, jos luet tätä, on jo liian myöhäistä”, King ilakoi oman tekstinsä alussa.

Fishkinin ja Kingin mukaan vuotaneet tiedot osoittavat, että Googlen julkiset lausunnot ja dokumentin paljastamat toimintatavat ovat ristiriidassa keskenään. Tämä nostaa esiin huolen siitä, miten luotettavaa ja objektiivista Googlen tarjoama tieto todellisuudessa on.

Sekä Faktabaarin havainnot että Helsingin Sanomien paljastukset ovat erityisen ajankohtaisia nyt, kun Euroopan parlamentin vaalit lähestyvät. Googlen hakusuositukset ja hakutulokset voivat vaikuttaa merkittävästi siihen, miten eurooppalaiset äänestäjät saavat tietoa ehdokkaista ja poliittisista aiheista. Faktabaari ja CheckFirst seuraavatkin nyt tarkasti suosittelualgoritmeja eurovaalien alla.

Google ja eurovaalit – Hakukoneella on suuri vastuu


Googlen rooli tiedonvälittäjänä asettaa yhtiön merkittävään asemaan demokratiassa. Hakukoneen algoritmit ja ihmisten valikoima sisältö voivat vaikuttaa suuresti siihen, millaista tietoa ihmiset saavat kriittisistä aiheista. Tämä herättää kysymyksen siitä, pitäisikö Googlen olla avoimempi toiminnastaan ja sen vaikutuksista, erityisesti vaalien aikaan.

Google on kiistatta yksi nykymaailman keskeisimmistä tiedonlähteistä, mutta sen salaiset toimintaperiaatteet ja aktiiviset muutokset vaalien aikaan herättävät kysymyksiä sen roolista ja vastuusta. Onko oikein, että yksi yritys voi muokata ja hallita niin merkittävästi demokratiaan liittyvää tietoa? Tämä on kysymys, johon eurooppalaisten äänestäjien ja poliitikkojen tulisi löytää vastaus ennen seuraavia vaaleja.

Ellipal lompakot

Asiantuntija Mike Kingin kommentit Googlen asiakirjavuodosta


Hakukoneasiantuntija Mike King listaa seuraavia varoituksia omassa blogissaan Googlen toiminnasta:

Ei pisteytystoimintoja. Emme tiedä, miten eri ominaisuuksia painotetaan pisteytystoiminnoissa. Emme tiedä, käytetäänkö kaikkea saatavilla olevaa tietoa.

Tiedämme, että jotkut ominaisuudet ovat vanhentuneita. Ellei erikseen mainita, emme tiedä, miten asioita käytetään tai missä vaiheessa ne tapahtuvat prosessissa. Meillä on nimettyjä luokittelujärjestelmiä, jotka löyhästi vastaavat Googlen selityksiä, SEO-asiantuntijoiden havaintoja sekä patenttihakemuksia ja IR-kirjallisuutta. Vuodon ansiosta meillä on nyt selkeämpi kuva siitä, mitä huomioida SEO:ssa.

Todennäköisesti ensimmäinen monista julkaisuista. Tämä on ensimmäinen arvio siitä, mitä olen tarkastellut. Saatan julkaista myöhemmin lisää, kun jatkan yksityiskohtien kaivamista.

King uskoo, että tämä artikkeli saa SEO-yhteisön kilpailemaan asiakirjojen läpikäymisessä ja tulemme yhdessä löytämään ja uudelleen kontekstualisoimaan asioita vielä kuukausia.

Tämä vaikuttaa olevan ajankohtaista tietoa. Parhaan ymmärrykseni mukaan tämä vuoto edustaa Googlen hakukonesisällön varastoinnin nykyistä, aktiivista arkkitehtuuria maaliskuulta 2024. (Googlen PR-henkilö saattaa sanoa, että olen väärässä. Hypätään sen yli.) Commit-historian perusteella asiaan liittyvä koodi työnnettiin 27. maaliskuuta 2024 ja poistettiin vasta 7. toukokuuta 2024.

Asiantuntija Rand Fishkinin viisi pointtia tietovuodosta


Rand Fishkin taas listaa viisi oleellista pointtia tietovuodsta.

1. Navboost ja klikkien, CTR:n, pitkien vs. lyhyiden klikkien ja käyttäjätietojen käyttö

Muutama dokumentissa mainittu moduuli viittaa ominaisuuksiin kuten “goodClicks”, “badClicks”, “lastLongestClicks”, näyttökerrat ja “unicorn clicks”. Nämä liittyvät Navboostiin ja Glueen, jotka ovat tuttuja Googlen DOJ-kuulusteluista. Navboost ja Glue auttavat löytämään ja rankkaamaan sisältöjä, jotka lopulta näkyvät hakutuloksissa. Google näyttää suodattavan pois klikkejä, joita se ei halua laskea ranking-järjestelmissään, ja mittaa myös klikkien pituutta. Tämä osoittaa, että Google käyttää klikkidataa arvioidessaan hakutulosten laatua.

2. Chromen selainklikkivirtojen käyttö Google-haun tukena

Lähteeni mukaan Google halusi jo vuonna 2005 täyden klikkivirran miljardeilta käyttäjiltä ja Chrome-selaimen avulla he ovat nyt saavuttaneet sen. API-dokumentit viittaavat siihen, että Google laskee useita metriikoita Chrome-näkymien avulla. Esimerkiksi dokumentissa, joka kuvaa Sitelinks-ominaisuuksien luomista, mainitaan “topUrl”, joka tarkoittaa sivuja, joilla on korkea “chrome_trans_clicks” -pisteytys. Tämä viittaa siihen, että Google käyttää Chrome-selaimen klikkidataa määrittääkseen suosituimmat URL-osoitteet sivustolla.

3. Whitelistit matkailussa, Covidissa ja politiikassa

Moduuli “Good Quality Travel Sites” viittaa siihen, että Googlella on whitelist matkailualan sivustoille. Lisäksi maininnat “isCovidLocalAuthority” ja “isElectionAuthority” viittaavat siihen, että Google whitelistaa tiettyjä domaineja, jotka ovat sopivia näyttämään kiistanalaisissa tai ongelmallisissa hauissa. Tämä auttaa varmistamaan, että hakutulokset ovat luotettavia ja estävät virheellisen tiedon leviämisen, mikä on erityisen tärkeää vaalien ja kriisitilanteiden aikana.

4. Laadunarvioijien palautteen hyödyntäminen

Googlella on pitkään ollut laadun arviointialusta nimeltä EWOK. Vuodon perusteella vaikuttaa siltä, että jotkut laadunarvioijien tuottamat signaalit ovat käytössä hakujärjestelmissä. Vaikka ei ole täysin selvää, kuinka merkittäviä nämä signaalit ovat, on mahdollista, että laadunarvioijien arviot vaikuttavat suoraan hakutuloksiin. Tämä korostaa laadunarvioijien tekemien ihmisten suorittamien arvioiden tärkeyttä.

5. Klikkidatan käyttö linkkien painoarvon määrittämiseen rankingissa

Vuoto paljasti, että Google käyttää klikkidataa määrittääkseen, mihin laatuindeksiin linkki kuuluu. Google luokittelee linkki-indeksit kolmeen kategoriaan (matala, keski, korkea laatu). Klikkidatan perusteella dokumentti sijoitetaan joko matalan laadun indeksiin (jolloin linkkiä ei huomioida) tai korkean laadun indeksiin (jolloin linkki vaikuttaa hakutuloksiin). Tämä auttaa määrittämään, mitkä linkit ovat luotettavia ja miten ne vaikuttavat hakutulosten sijoituksiin.