Parametrisierte Google Suche

2

12. July 2012 by Michael Wowro

Motivation

Ein wichtiges Instrument eines Webscrapers sind tatsächlich URLs, denn damit landet man immerhin schon mal auf der gewünschten Seite (manchmal auch schon in den gewünschten Ergebnissen). Im Kontext der Google Suche kann die gezielte Verwendung von URLs auch für einen Otto-Normal-Nutzer eine Arbeitserleichterung sein. Hat man regelmäßige gleichlautende Abfragen, speichert man diese sinnvollerweise als URL in seinen Favoriten/Bookmarks/Lesezeichen.

Anatomie der Google Suche URL

die URL beginnt immer mit

https://www.google.com/search?

dahinter werden die Parameter in beliebiger Reihenfolge angehängt

parametername=parameterwert

mehrere Parameter werden mit & zusammengefügt, sodass die URL letzendlich diese Form annimmt

https://www.google.com/search?parametername1=parameterwert1&parametername2=parameterwert2&parametername3=parameterwert3

Die Parameter

Da Google keine offizielle Spezifikation seiner Parameter rausgibt, muss man sich diese von verschiedenen Seiten zusammenklauben (bzw. selbst herausfinden):

Google Search URL Parameters – Query String Anatomy

The Ultimate Guide to the Google Search Parameters

Google search parameters in 2012

Eine kleine vereinfachte Tabelle für unser u.g. Beispiel

Parameter Bedeutung
q=suchbegriff1+suchbegriff2 Das sind die Suchbegriffe, die in das google-Suchfeld eingetragen werden. Die einzelnen Suchbegriffe werden mit + aneinandergefügt.
as_eq=suchbegriff3+suchbegriff4 Das sind die Suchbegriffe, die von der Google Suche ausgeschlossen werden. Die einzelnen Suchbegriffe werden mit + aneinandergefügt.
tbs=qdr:d tbs=qdr filtert die Ergebnisse in einem bestimmten Zeitraum. d bedeutet hier Tag, d.h. nur die Suchergebnisse der letzten 24 h werden angezeigt (w bedeutet week usw.). Gerade wenn man regelmäßige Suchanfragen hat, möchte man ja nicht immer das Gleiche angezeigt bekommen, sondern nur die neuesten (noch nicht gelesenen) Suchergebnisse. Für solche Zwecke ist dieser Parameter natürlich Gold wert.
tbs=qdr:d,sbd:1 Wenn man dann noch die Ergenisse nicht nach Relevanz (ein Kriterium, das bei kleinen Zeiträumen eh keine Rolle spielt), sondern nach Zeit sortiert haben mag, hängt man noch ,sdb:1 an.
num=100&as_qdr=all num bedeutet die Anzahl der Suchergebnisse pro Seite. Seitdem Google jedoch Google Instant eingeführt hat, funktioniert dieser Parameter alleine nicht mehr. Man muss zusätzlich mittels as_qdr=all Google Instant ausschalten. Ein ausführlicher Artikel hierzu: num Parameter trotz Instant

Ein Beispiel

Als Beispiel nehme ich die Suchbegriffe “Google” und “Suche” – vielleicht wird dieser Artikel dereinst auf der ersten SERP stehen … naja … als auszuschließende Begriffe nehme ich willkürlich “Wikipedia” und “Apple” – im Suchfeld erreicht man den Ausschluss durch vorangestelltes Minuszeichen.

Die Google Suche URL sieht dann entsprechend so aus (kopiert die URL in Euer Browser-Adressfeld und seht die Magie …)

https://www.google.com/search?q=Google+Suche&as_eq=Wikipedia+Apple&tbs=qdr:d,sbd:1&num=100&as_qdr=all

Und dann wird diese URL schließlich noch als Favorit/Bookmark/Lesezeichen abgespeichert – feddisch.

Advertisements

2 thoughts on “Parametrisierte Google Suche

  1. UweK. says:

    … und wenn man das 3 mal gemacht hat, zeigt uns Google, dass man das dort überhaupt nicht mag und man ist erst mal von weiteren Google-Suchen ausgeschlossen.

    • itkosmopolit says:

      Hallo Uwe,

      danke für den Hinweis. Ich denke, dass Google nicht nicht möchte, dass man die parametrisierte Suche benutzt. Google möchte grundsätzlich alles abblocken, was wie ein Webbot aussieht. Ich benutze die parametrisierte Suchabfrage regelmäßig einmal/Tag – öfters brauch ich die momentan nicht. Hatte mit diesem Rhythmus noch keine Probleme. Wenn Googles Anti-Bot-Mechanismus anspingt wird man nicht drum rum kommen, mit proxies zu arbeiten …

      Schöne Grüße,
      Michael

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: