KromeBlog

Il Blog di Sergio Longoni

In questo Blog si discute di , , , , e tanto altro

Il Robots Exclusion Standard per Difendere i Diritti sui Tuoi Contenuti Online

Pubblicato il 25-03-2008 da Sergio

In queste ore impazza per la blogosfera italiana una di quelle noiosissime polemiche che occupa spazio - sia come commenti sia come post - in quasi tutti i blog che frequento abitualmente.

Se hai capito di cosa parlo bene, altrimenti meglio: comunque questa volta non ho voglia di mettere link o citare fatti.

Sembra che il centro della questione questa volta siano alcuni “contenuti” raccolti da un sistema automatico (robot) e ripubblicati su alcune pagine contenenti pubblicità. Questo secondo gli autori dei “contenuti” sarebbe in violazione con le licenze attraverso i quali questi contenuti vengono distribuiti.

Internet è un sistema condiviso al quale hanno accesso milioni di utenti e per questa ragione nel corso degli anni si è sviluppato un insieme di regole e di standard per evitare conflitti e stabilire responsabilità: queste regole - pur non avendo nella maggior parte dei casi un valore legale - sono ampiamente condivise da chiunque voglia vivere la rete nel rispetto degli altri.

Anche per la situazione che ha generato le polemiche di questi giorni, naturalmente, esiste un regolamento al quale appellarsi: si chiama Robot Exclusion Standard.

Il Robot Exclusion Standard risale al 1994 ed è emerso come standard condiviso dalla robots mailing list.

Lo standard è semplice:
chi gestisce il sito mette nella directory root un file chiamato robot.txt nel quale andrà a specificare quali regole dovranno seguire i programmi automatici che accederanno alle pagine del suo sito.

Chi gestisce il programma automatico si impegnerà a far leggere e rispettare al programma quanto scritto dal gestore del sito nel suo robot.txt

In questo modo, ad esempio, potremmo negare la lettura ad ogni processo automatico escluso quello che indicizza le nostre pagine per conto di google con queste semplici righe:

User-agent: *
Disallow: /
User-agent:Googlebot
Disallow:

Lo standard non è molto lungo ed è scritto in modo semplice: quindi ti invito a leggerlo

Lo standard è comunque volontario, quindi non c’è alcuna garanzia che il robot legga e rispetti le nostre regole, ma comunque, nel caso potremo prendercela con chi gestisce il robot, e avremo anche ragione.

Internet ha delle regole fatte apposta per evitare polemiche, flame e ai litigi: basta conoscerle e rispettarle. Nel caso contrario se proprio vi divertite a litigare non è che potreste farlo privatamente via email o Instant Messanger?
Vero. Potrei anche non leggere le vostre polemiche: se solo sulla blogosfera italiana in questa Pasqua 2008 si parlasse d’altro…

Update
Ho scritto un nuovo post sulla stessa problematica più specifico rispetto alle licenze Creative Commons e la lettura automatica dei Feed RSS


Trackback | | Stampa

4 Commenti

markingegno ha commentato:

Beh, almeno a confronto con queste polemiche il mio problema con akismet e’ stato quasi interessante, allora.

Risolto, grazie!
;)

.mau. ha commentato:

Non è così semplice.
Se usi feedburner per presentare il tuo sito, ad esempio, ovviamente il robots.txt è quello di feedburner e non il tuo. Potresti dire “faccio due feed, uno su feedburner e uno sul sito” ma rovineresti la logica d’uso di feedburner, che è avere un po’ di statistiche.
Dal mio umile punto di vista, occorre un equivalente di robots.txt all’interno del feed stesso. Non è poi tropop difficile decidere uno standard di esclusione interno a <dc:rights>, o se proprio si vuole inserire un puntatore a un file robots.txt.

Sergio ha commentato:

@.mau. posso dire se usi feedburner sono un po’ affaracci tuoi :-)

In ogni caso in feedburner esiste la funzione noindex: penso che serva proprio a questo.

A parte gli scherzi il problema è tecnicamente risolvibile: io ho un redirect dalla mia pagina rss a quella di feedburner e quindi “in teoria” il robot.txt dovrebbe funzionare (poi nell’autodiscovery ho comunque feedburner rendere indipendente la lettura del mio feed dal attività o meno del mio sito)

In ogni caso la seconda puntata più specifica sull’attuale polemica ha come titolo: “Come leggere e rispettare il diritto d’autore in un file RSS (generato da feedburner)”: tecnicamente una banalità, ma nessun sito che io conosca la mette in pratica.

Overlord ha commentato:

Questi sono argomenti che vanno al di la del mio raggio d’azione :(

Lascia il tuo Commento