È trascorso poco più di un anno da quando Google aveva annunciato la partenza del lavoro per definire uno standard ufficiale per il file Robots.txt: in questi mesi, la compagnia ha già rilasciato nel mondo open source il parser e il matcher robots.txt che utilizza nei suoi sistemi di produzione e, come spiega un articolo appena pubblicato sul blog per webmaster, ha “visto persone costruire nuovi strumenti con esso, contribuire alla libreria open source (migliorando efficacemente i nostri sistemi di produzione, grazie!) e rilasciare nuove versioni linguistiche come golang e rust, che rendono più facile per gli sviluppatori creare nuovi tool”.
Le ultime novità per il robots open source
Oltre a sintetizzare questo lavoro, il post mette in evidenza due nuove versioni relative a robots.txt che “state rese possibili da due stagisti che lavorano nel team di Search Open Sourcing, Andreea Dutulescu e Ian Dolzhanskii”, come ringraziamento a conclusione della intern season a Google.
Alla prima si deve il test delle specifiche di Robots.txt che è in fase di rilascio, mentre il secondo ha collaborato al Java robots.txt parser and matcher.
Che cos’è il Robots.txt Specification Test
Come detto, Andreea Dutulescu ha creato il framework di test per sviluppatori di parser robots.txt, attualmente in fase di rilascio, che rappresenta uno strumento di test in grado di verificare se un parser robots.txt segue il Robots Exclusion Protocol o in che misura. Attualmente, si legge nell’articolo, “non esiste un modo ufficiale e completo per valutare la correttezza di un parser, quindi Andreea ha sviluppato uno strumento che può essere utilizzato per creare parser robots.txt che stanno seguendo il protocollo”.
Che cos’è il Java robots.txt parser and matcher
La seconda novità è la pubblicazione ufficiale di un Java port del parser robots.txt C ++, creato appunto da Ian. Java è il terzo linguaggio di programmazione più popolare su GitHub ed è ampiamente utilizzato anche da Google, quindi non c’è da stupirsi che sia stato il porting del linguaggio più richiesto.
Il parser è una traduzione 1-a-1 del parser C ++ in termini di funzioni e comportamento ed è stato accuratamente testato per la parità rispetto a un’ampia raccolta di regole robots.txt. I team stanno già pianificando di utilizzare il parser Java robots.txt nei sistemi di produzione di Google, scrivono da Mountain View.
La libreria parser e matcher
Sulla pagina GitHub di questo strumento è possibile leggere qualche informazione in più, a cominciare da una parentesi veloce sul Robots Exclusion Protocol (REP), definito lo “standard che consente ai proprietari di siti web di controllare a quali URL possono accedere i client automatici (ad esempio i crawler) attraverso un semplice file di testo con una sintassi specifica”.
Questo protocollo è uno degli elementi costitutivi di base di Internet così come lo conosciamo e ciò che consente ai motori di ricerca di funzionare, ma si ribadisce anche qui che “è stato solo uno standard de facto negli ultimi 25 anni”: questo ha determinato che diversi attuatori implementano il parser di robots.txt in modo leggermente diverso, generando confusione.
Il progetto in questione mira a risolvere questo caos, rilasciando il parser utilizzato da Google: la libreria è leggermente modificata (ad esempio in alcune intestazioni interne e simboli equivalenti) rispetto al codice di produzione utilizzato da Googlebot per determinare a quali URL può accedere in base alle regole fornite dai webmaster nei file robots.txt. La libreria viene rilasciata open source per aiutare gli sviluppatori a creare strumenti che riflettano meglio l’analisi e la corrispondenza (traduzioni letterali di parser e matcher) del file robots.txt di Google.