Ob Ihre Website neu ist oder bereits seit einiger Zeit online ist, besteht die Möglichkeit, dass Ihre Inhalte gescraped werden. Was genau ist also Web Scraping? Dieser Beitrag wird Ihnen darüber berichten und wie Sie das Scrapen Ihrer Website verhindern können.
Was ist Web Scraping?
Web Scraping ist eine Technik, um automatisch Daten von Webseiten zu erhalten. Es basiert auf der Indexierung von Inhalten. Es kann auch auf die Umwandlung von Informationen, die in Websites enthalten sind, in verständliche Duplikate abzielen. Diese Daten können dann in andere Formate exportiert werden, wie z.B. Tabellenkalkulationen.
Der erste nicht bösartige Web Scraping-Bot, der als World Wide Web Wanderer bezeichnet wurde, wurde 1993 gestartet und schätzte die Größe des neu entstandenen World Wide Web. Bidder's Edge, einer der frühesten möglicherweise gefährlichen E-Commerce-Web Scraping-Bots, wurde Anfang der 2000er Jahre veröffentlicht, um Konkurrenzpreise auf Auktionsseiten zu sammeln.
In einem rechtlichen Fall, eBay gegen Bidder's Edge, erklärte das Gericht das Online-Scraping für akzeptabel, aber die Überlastung der eBay-Server durch die Scraping-Bots, die so viele Daten extrahierten, wurde als Einkommensverlustquelle hervorgehoben.
Web Scraping ist auch heute noch ein rechtlich unscharfer Bereich. Anstatt auf eine rechtliche Antwort zu warten, könnten Online-Unternehmen effektive technische Bot-Sicherheit und Scraper-Bot-Erkennungsmethoden installieren.
Das Personal, das für diese Crawling-Operation, bekannt als Scraping, verantwortlich ist, wird als Bots oder Crawler bezeichnet. Es handelt sich um Roboter, die so konzipiert sind, dass sie autonom Websites durchsuchen und Daten oder Informationen daraus sammeln.
Die zu erfassenden Daten können äußerst vielfältig sein. Es gibt beispielsweise Technologien, die für die Preisgestaltung oder die Sammlung von Informationen über Hotel- oder Reisepreise für Vergleichsseiten verantwortlich sind. Andere Methoden wie SERP Scraping werden verwendet, um die Top-Ergebnisse in Suchmaschinen für bestimmte Begriffe zu finden.
Die meisten großen Unternehmen nutzen das Data Scraping. Google ist vielleicht das offensichtlichste Beispiel: Woher glauben Sie, dass es alle Informationen erhält, die es benötigt, um Websites zu indexieren? Seine Bots durchsuchen kontinuierlich das Web und klassifizieren Informationen nach Relevanz.
Ist es illegal, eine Website zu scrapen?
Die Legalität von Web Scraping kann je nach verschiedenen Faktoren variieren, darunter die Gerichtsbarkeit, der spezifische Inhalt, der gescraped wird, und der Zweck der Scraping-Aktivität. In einigen Fällen kann Web Scraping als legal angesehen werden, während es in anderen Fällen als illegal betrachtet und rechtlich verfolgt werden könnte.
Um jedoch sicherzustellen, dass das Scrapen der Website legal ist, was macht den Inhalt öffentlich oder privat? Hier sind einige Beispiele, wie der Inhalt einer Website als tabu für Data Scrapers betrachtet werden kann:
- Wenn Sie sich anmelden müssen, um auf den Inhalt der Website zugreifen zu können;
- Wenn die robots.txt-Datei auf der Website Suchmaschinen und Scrapern verbietet, die Website zu durchsuchen;
- Wenn der Inhalt auf privaten Servern gespeichert ist und explizit als nicht öffentlich markiert ist, wie in einigen Regierungsarchiven;
- Wenn der Inhalt sensible Informationen wie Kredit- oder Bankdaten oder Identifikationsnummern enthält;
Es ist wichtig zu beachten, dass je nach Art der gescrapten Daten, wie persönliche Informationen, mehrere Datenschutzbestimmungen verletzt werden können und als kriminell angesehen werden können.
5 Möglichkeiten, das Scrapen einer Website zu verhindern
Website-Traffic überwachen
Wenn Sie den Traffic Ihrer Website nicht überwachen, verpassen Sie wahrscheinlich mögliche Bots, einschließlich derjenigen, die die Website scrapen. Wenn Sie den Traffic Ihrer Website überwachen und häufige Trafficquellen identifizieren, die verdächtig erscheinen könnten, können Sie sie blockieren, bevor sie Ihrer Website ernsthafte Probleme verursachen.
Robots.txt-Datei verwenden
Die Robots.txt-Datei informiert Suchmaschinen und Web Scrapers, auf welche Seiten Ihrer Website sie zugreifen können. Stellen Sie sicher, dass Ihre robots.txt-Datei klar und gut strukturiert ist. Geben Sie deutlich an, auf welche Bereiche Suchmaschinen oder Website-Scraper keinen Zugriff haben sollen.
Es ist wichtig zu bedenken, dass die robots.txt-Datei eher eine Empfehlung ist, und obwohl viele Suchmaschinen und Web Scrapers die in der Datei enthaltenen Anweisungen respektieren werden, werden viele andere sie ignorieren. Dies mag nicht ermutigend erscheinen, aber Sie sollten trotzdem die robots.txt-Datei einsetzen.
CAPTCHA verwenden
CAPTCHA ist eine Form des Überprüfungstests, der es Menschen leicht macht, eine Website oder Anwendung zu betreten, während es automatischen Tools wie Content Scrapers praktisch unmöglich macht. CAPTCHA ist ein Akronym für "Completely Automated Public Turing Test to Tell Computers and Humans Apart" und kann zu jedem Formular auf Ihrer Website hinzugefügt werden, einschließlich Anmeldeseiten. Diese dienen als Tür, die nur diejenigen passieren lässt, die einen Test bestehen.
Wenn Sie CAPTCHA verwenden möchten, stellen Sie sicher, dass die Tests nicht unlösbar sind, da einige Tests, wie ungewöhnliche Zeichen, für Benutzer mit Dyslexie oder anderen Sehbeeinträchtigungen problematisch sein können.
Begrenzung der Anzahl der Anfragen
Die Begrenzung der Anzahl der Anfragen, die eine IP-Adresse oder ein Benutzeragent an Ihre Website stellen kann, kann helfen, Web Scraping zu verhindern. Dies können Sie durch eine Rate-Limitierung erreichen, die die Anzahl der Anfragen begrenzt, die innerhalb eines bestimmten Zeitraums auf Ihrer Website gemacht werden können. Dadurch können Sie verhindern, dass Web Scrapers Ihre Website mit Anfragen überfluten und sie möglicherweise zum Absturz bringen.
Ein Content Delivery Network (CDN) verwenden
Ein Content Delivery Network oder CDN ist ein globales Netzwerk von Servern, das zusammenarbeitet, um den Inhalt Ihrer Website Benutzern auf der ganzen Welt zur Verfügung zu stellen. CDNs von Swiss Hoster Server & Cloud können dazu beitragen, Web Scraping zu verhindern, indem sie Ihre Website zwischenspeichern und statische Inhalte wie Fotos und Videos von einem lokalen Server anstelle des Hauptservers der Website bereitstellen.
Wenn ein CDN dies tut, wird die Belastung des Hauptservers reduziert, was es schwieriger für Web Scrapers macht, die Seite zu scrapen. Darüber hinaus bietet dies bei einem Backend-Bereich eine zusätzliche Sicherheitsebene, um zu verhindern, dass Bots gewaltsam auf Ihre Website zugreifen.
Für einen Monat bieten wir allen unseren neuen Kunden eine einzigartige Möglichkeit, die Sicherheit Ihrer Website zu stärken und den CDN-Dienst eines Hosting-Anbieters mit weltweitem Ruf zu nutzen. Verwenden Sie den Promo-Code SC50CDN8 und erhalten Sie jetzt Ihren 50% Rabatt.