Suche einen Web Crawler

  • Seit einiger Zeit hat google doch enorm nachgelassen.


    1. Zum einen lassen sie Inzwischen sehr gerne Suchbegriff weg oder passen sie an oder suchen was ähnliches. Es wird gefühlt immer schlimmer.


    2. Es sind in der letzten Zeit sehr sehr viele Seiten auf dem Google Suchindex die einfach nur stören.
    Hier gibt es mehrere Sorten:
    1. Seiten die deinen Suchbegriff bei sich in eine "suchmaske" reinkopieren.
    2. Seiten mit Paywall
    3. Seiten wo ein eingebettetes Video losrennt
    4. Seiten wie Treiber.de und Co die behauten Treiber für alles mögliche zu haben.
    5. Seiten wie Chip.de wo du einen Downloader brauchst um etwas runter zu laden.
    6. Seiten die Stichwörter zusammen werfen.



    3. haste doch Filter bei Google drin die auf die nerven gehen.


    2003-2006 War google echt richtig gut. Danach hat es echt nachgelassen...


    Was will ich jetzt?


    Ich will einen Crawler haben wo ich eine GUI / Textgui / whatever habe wo ich:


    1. Websiten eintragen kann die er Scannen soll z.b. füge www.voodooalert.de zur Suchliste hinzu.
    2. Ich auswählen kann Suche nach: Bild / Datei / PDF / Webinhalt
    3. Ich will Websiten aus dem Suchindex loschen können.
    4. Einiger massen brauchbare Ergebnisse liefern. (besser als unsere Forensuche gerne schlechter als Bing / Yahoo(als es das noch gab) und Duckduckgo



    Was soll er nicht machen:
    Seiten Indexieren die ich NICHT eingegeben habe.
    Autokorrektur (Korrekturen Vorschlagen ist ok)
    ähnliche Begriffe suchen



    Hardware Anforderungen sind mir eigentlich recht egal. Der kann storage und Ram fressen wie er will. Allerdings will ich das ganze Plattform Unabhängigkeit am liebsten auf einem Linux System. Und wenn es irgendwie geht bitte bitte kein JAVA. :spitze:

  • Sowas musst du vermutlich selber schreiben ;)


    Solange er nur Sachen indexieren soll ide du eingegeben hast ist das auch von der Leistung her kein Problem. Les dich schlau über gescheite Indexierungsalgorithmen (ist Performancemäßig nicht ganz simple) und schreib den Kram.


    Die Leistung die du bräuchtest um eine ernsthafte "Suchmaschine" daraus zu machen liegt ungefähr bei ein paar mittleren Rechenzentren und glaub mir "gute" von "nicht so guten" Ergebnissen zu Unterscheiden ist echt schwer, insbesondere weil bei jeder einfachen Metrik du einen Haufen Webseiten finden wirst, die nur für sowas optimiert sind und inhaltlich ein Scheißdreck sind. Aber wie gesagt solange der nichts "selbstständig" suchen soll...

    all I can do is be me, whoever that is. -Bob Dylan


    Römer sind keine Bieber!

    Edited once, last by Giovannie ().

  • Najo Softwareinformer ist auch so eine Seite. auf Jedenfall geht mir Chip unter anderen tierisch auf die Nerven ...

  • [YaCy].


    Und ja, es is Java. Aber es ist ansonsten genau was du suchst, es is self-hosted und kann per DHT in ein globales Web aus Knotenservern eingebunden werden, damit auch andere Leute die von dir indizierten Inhalte über das Webinterface eines anderen Knotenservers finden können. Und damit du Inhalte finden kannst, die auf anderen Knoten indiziert wurden.


    DHT issn verteiltes Protokoll, das auch im Bittorrent System (und in anderen) genutzt wird.


    Alternativ kannst du deinen YaCy Server aber auch privat laufen lassen, also so, daß er nicht mit anderen Knoten kommuniziert, quasi ein "Inselserver", der nur die von dir gespeisten Seiten indiziert.


    Basieren tut er u.a. auf der Apache [Solr/Lucene] Technologie.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700 (defekt)

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • hmm evtl. das Fretchen ?
    Bevor es google gab habe ich das immer genutzt, mittlerweise soll das Tool natürlich deutlich besser sein .. ;)

    Diskutiere niemals mit Idioten, sie ziehen dich auf ihr Niveau runter und schlagen dich mit ihrer Erfahrung
    Mein Herzblut:
    AMD 5x86-P75, 64MB-Ram, Voodoo I, Win3.11
    AMD K6-III+ 400 @ 550MHz, 768MB-Ram, Voodoo II SLI, Win98SE
    AMD 3700+, 3072MB-Ram, ATi FireGL X3-256
    , WinXP SP3 (Sockel 754)

  • Das is aber nur ein Frontend für andere Suchmaschinen, in etwa wie DuckDuckGo ein Webfrontend für andere Suchmaschinen ist.


    Es ist in sich keine eigene Search Engine mit eigener Indexdatenbank unter Userkontrolle.


    Klang so als würde Bier sowas aber wollen. Weil sonst wär eh DuckDuckGo schon eine brauchbare Alternative?

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700 (defekt)

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Das Problem mit DuckDuckGo ist ja, dass Bier gerade anmeckert, dass viel Kram gefunden wird der ihn nicht interessiert und das ranking für ihn kaputt ist (letztlich ist es das worüber du meckerst. Das (behaupte ich mal) liegt an zwei Dingen: 1.) daran das google Geld verdienen will und deswegen diese nervigen Werbungen wie Suchergebnisse plaziert und "kommerziell" rankt und 2.) Das du ein vergleichsweise ungewöhnlicher User bist (sind wir in diesem Forum alle) und man daher vergleichsweise viel Wissen über dich bräuchte um gescheit ranken zu können.


    Mit DuckDuckGo o.ä. fällt 1. zwar weg, 2. wird aber noch schlimmer. Wenn jemand mit sehr spezieller Interessenlage allgemeine Suchmaschinen benutzt, dann wird da je anonymer das ist desto mehr "Bullshit" für ihn dabei sein. Bei deinem "Crawler" gibst du dieses Wissen über deine Interessen ja schon dadurch ein, dass du ihm manuell angibst welche Seiten er indizieren soll. DuckDuckGo oder andere anonyme Frontends und "Multisuchmaschinensucher" werden das Problem eher verschlimmern als verbessern.

    all I can do is be me, whoever that is. -Bob Dylan


    Römer sind keine Bieber!

  • Also eine "Metasearch" was das Frontend da mehr oder weniger Tut bringt mir nicht viel. 90% aller Suchmaschienen sind heutzutage Google.


    Bing ist google. Yahoo ist google. Startpage.com ist google. Duckduckgo.de ist auch google.
    Hier liegt unter anderem der Hund begraben ... Mir hilft es nicht mehr Ergebnisse zu haben...


    Najo 2006 Wusste google auch nicht wer ich bin und hat mir sinnvollere Ergebnisse geliefert als Heute. Da hilft mir auch nicht, wenn man sich de anonymisiert...

  • Ich finde Bing eigentlich zu großen Teilen für mich sogar akkurater und besser als Google, rein von den Hits her. Ist mir beim Direktvergleich schon mehrfach aufgefallen. Aber davon abgesehen ist YaCy eigentlich der Deckel den du für deinen Topf suchst, minus Java halt. Allerdings ermöglicht es dir die Java Natur auch leicht, das Trumm auf vielen Betriebssystemen laufen zu lassen - Windows, Linux, BSD UNIX, MacOS, geht alles.


    Maschine mit genug Storage (bevorzugt SSD), viel RAM, YaCy entsprechend konfiguriert um diese Ressourcen auch zu nutzen... und es is echt recht brauchbar. Dennoch finde ich es nach wie vor sinnvoll, den eigenen Knoten in die YaCy Superstruktur zu hängen.


    Wenn du etwas SUCHST, wirst du ja meistens nicht Informationen wollen die du auf dir bekannten Seiten sowieso gefunden hättest. Wahrscheinlich suchst du etwas dir noch völlig unbekanntes, zumindest in vielen Fällen. Also muß man auch ein bissl exploren anstatt nur bekanntes zu exploiten. Weil vielleicht is die Info ja auf einer Seite, die du noch gar nicht kennst. Bonus: Viele YaCy Betreiber sind selbst wohl Tech Geeks. Könnte also in dem Bereich fruchtbarer Boden sein.


    Zumindest kenne ich keine bessere Alternative, lasse mir aber gerne welche zeigen, aus Eigeninteresse heraus!

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700 (defekt)

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

    Edited once, last by GrandAdmiralThrawn ().