Freitag, 24. Juni 2011
Matt Cutts geht heute der Frage nach, ob Google erkennt, welche Seite einen bestimmten Inhalt zuerst veröffentlicht hat. Er klärt auch, was man tun kann, wenn andere den eigenen Inhalt auf ihren Websites kopieren.
Die heutige Frage kommt von Kunal Pradhan. Ich bin aus Ost-Kentucky. Entschuldigung, wenn ich die Namen manchmal falsch ausspreche. Die Frage lautet: "Google crawlt Website A jede Stunde und Website B einmal am Tag. Website B schreibt einen Artikel. Website A kopiert ihn und ändert den Zeitstempel. Website A wird zuerst vom Googlebot gecrawlt. Wessen Inhalte werden von Google als Original betrachtet und hoch gerankt? Wenn es A ist, wie ist das gerecht gegenüber Website B?"
Ich könnte jetzt viel darüber erzählen, wie das Web gecrawlt wird. Um ein Signal genau zu erkennen, muss es laut Nyquist mit der doppelten Frequenz abgetastet werden. Eine Webseite kann sich aber jederzeit ändern. Die Vorstellung, dass man das gesamte Web crawlt und in jedem Moment eine perfekte Kopie erhält, ist unrealistisch, da wir zu jedem Zeitpunkt nur eine bestimmte Anzahl von Seiten abrufen können. Wollten wir alle Seiten abrufen, was unsere Architektur fast unterstützen würde, würde das Web womöglich zusammenbrechen. Wir versuchen, eher dezent zu crawlen. Wir priorisieren z. B. anhand des PageRank einer bestimmten Seite. Oder eine Website kann einen hohen PageRank haben.
Die eigentliche Frage lautet also: Wenn A häufig gecrawlt wird, der Originalartikel aber zuerst auf B war, was ist wenn A bei B klaut? Es gibt Möglichkeiten, sich davor zu schützen. Wenn ihr etwa einen Tweet postet, können andere ihn sehen und darauf verweisen. Möglicherweise folgen wir diesen Links schneller, als wir den Inhalt auf der anderen Website finden. Ihr könnt auch so etwas wie PubSubHubbub einsetzen, das verschiedene Stellen anpingt. Wir nutzen PubSubHubbub in geringem Umfang zur Verbesserung unseres Crawlings. Das kann sich im Lauf der Zeit ändern. Und damit kann man quasi asynchron auf einen neuen Artikel oder einen neuen Blog-Post hinweisen.
Aber zurück zu unserem hypothetischen Szenario: Wenn A euren Artikel kopiert und den Zeitstempel ändert, ist das schon fast Betrug, als ob A behaupten würde, den Artikel selbst verfasst zu haben. Dagegen könnt ihr ein paar Dinge tun. Erstens: Als Autor des Artikels könnt ihr eine Mitteilung entsprechend dem Digital Millenium Copyright Act (DMCA) einreichen. Wie das geht, könnt ihr unter google.de/dmca.html nachlesen. Damit sagt ihr im Prinzip, dass diese Website euch kopiert hat, ihr aber der Originalautor seid. Diese Website kann entweder eine Gegendarstellung einreichen, dies also bestreiten und sagen, dass sie diese Seite geschrieben hat, was problematisch ist, wenn dies nicht stimmt. Oder es wird nicht angefochten, und der Inhalt verschwindet von der anderen Website. Wenn also jemand bei euch klaut, könnt ihr immer eine DMCA-Mitteilung einreichen.
Wenn z. B. eine automatisch erstellte Website bei verschiedenen Leuten klaut und kopiert, könnt ihr auch einen Spam-Report einschicken. Denn das ist keine qualitativ hochwertige Website, die wir in unserem Index haben wollen.
Nun aber zum Spezialfall. Es ist theoretisch möglich, dass wir einen Artikel erst auf einer Website finden, bevor wir ihn auf der anderen finden. Wir bemühen uns herauszufinden, wer der Originalautor der jeweiligen Inhalte ist. Aber wir sind sicher nicht perfekt. Wir suchen intensiv nach Möglichkeiten, mit denen Autoren angeben können, dass sie die Inhalte geschrieben haben. In Google News haben wir ein paar neue Tags eingeführt, die wir jetzt testen möchten. Diese weisen den Originalautor des betreffenden Inhalts aus. Wir sind dabei, noch andere Möglichkeiten auszuloten.
Derzeit zumindest ist der Fall also theoretisch möglich. In der Praxis ist er aber eher selten, und ihr habt Möglichkeiten, damit umzugehen oder darauf zu reagieren, von der DMCA-Mitteilung bis zum Spam-Report. Ich hoffe, das hilft euch weiter.
Veröffentlicht von Daniela Loesser und Jörg Pacher, Search Quality Team
Die heutige Frage kommt von Kunal Pradhan. Ich bin aus Ost-Kentucky. Entschuldigung, wenn ich die Namen manchmal falsch ausspreche. Die Frage lautet: "Google crawlt Website A jede Stunde und Website B einmal am Tag. Website B schreibt einen Artikel. Website A kopiert ihn und ändert den Zeitstempel. Website A wird zuerst vom Googlebot gecrawlt. Wessen Inhalte werden von Google als Original betrachtet und hoch gerankt? Wenn es A ist, wie ist das gerecht gegenüber Website B?"
Ich könnte jetzt viel darüber erzählen, wie das Web gecrawlt wird. Um ein Signal genau zu erkennen, muss es laut Nyquist mit der doppelten Frequenz abgetastet werden. Eine Webseite kann sich aber jederzeit ändern. Die Vorstellung, dass man das gesamte Web crawlt und in jedem Moment eine perfekte Kopie erhält, ist unrealistisch, da wir zu jedem Zeitpunkt nur eine bestimmte Anzahl von Seiten abrufen können. Wollten wir alle Seiten abrufen, was unsere Architektur fast unterstützen würde, würde das Web womöglich zusammenbrechen. Wir versuchen, eher dezent zu crawlen. Wir priorisieren z. B. anhand des PageRank einer bestimmten Seite. Oder eine Website kann einen hohen PageRank haben.
Die eigentliche Frage lautet also: Wenn A häufig gecrawlt wird, der Originalartikel aber zuerst auf B war, was ist wenn A bei B klaut? Es gibt Möglichkeiten, sich davor zu schützen. Wenn ihr etwa einen Tweet postet, können andere ihn sehen und darauf verweisen. Möglicherweise folgen wir diesen Links schneller, als wir den Inhalt auf der anderen Website finden. Ihr könnt auch so etwas wie PubSubHubbub einsetzen, das verschiedene Stellen anpingt. Wir nutzen PubSubHubbub in geringem Umfang zur Verbesserung unseres Crawlings. Das kann sich im Lauf der Zeit ändern. Und damit kann man quasi asynchron auf einen neuen Artikel oder einen neuen Blog-Post hinweisen.
Aber zurück zu unserem hypothetischen Szenario: Wenn A euren Artikel kopiert und den Zeitstempel ändert, ist das schon fast Betrug, als ob A behaupten würde, den Artikel selbst verfasst zu haben. Dagegen könnt ihr ein paar Dinge tun. Erstens: Als Autor des Artikels könnt ihr eine Mitteilung entsprechend dem Digital Millenium Copyright Act (DMCA) einreichen. Wie das geht, könnt ihr unter google.de/dmca.html nachlesen. Damit sagt ihr im Prinzip, dass diese Website euch kopiert hat, ihr aber der Originalautor seid. Diese Website kann entweder eine Gegendarstellung einreichen, dies also bestreiten und sagen, dass sie diese Seite geschrieben hat, was problematisch ist, wenn dies nicht stimmt. Oder es wird nicht angefochten, und der Inhalt verschwindet von der anderen Website. Wenn also jemand bei euch klaut, könnt ihr immer eine DMCA-Mitteilung einreichen.
Wenn z. B. eine automatisch erstellte Website bei verschiedenen Leuten klaut und kopiert, könnt ihr auch einen Spam-Report einschicken. Denn das ist keine qualitativ hochwertige Website, die wir in unserem Index haben wollen.
Nun aber zum Spezialfall. Es ist theoretisch möglich, dass wir einen Artikel erst auf einer Website finden, bevor wir ihn auf der anderen finden. Wir bemühen uns herauszufinden, wer der Originalautor der jeweiligen Inhalte ist. Aber wir sind sicher nicht perfekt. Wir suchen intensiv nach Möglichkeiten, mit denen Autoren angeben können, dass sie die Inhalte geschrieben haben. In Google News haben wir ein paar neue Tags eingeführt, die wir jetzt testen möchten. Diese weisen den Originalautor des betreffenden Inhalts aus. Wir sind dabei, noch andere Möglichkeiten auszuloten.
Derzeit zumindest ist der Fall also theoretisch möglich. In der Praxis ist er aber eher selten, und ihr habt Möglichkeiten, damit umzugehen oder darauf zu reagieren, von der DMCA-Mitteilung bis zum Spam-Report. Ich hoffe, das hilft euch weiter.
Veröffentlicht von Daniela Loesser und Jörg Pacher, Search Quality Team