|
|||||||
| Registrieren | Hilfe | Benutzerliste | Kalender | Suchen | Heutige Beiträge | Alle Foren als gelesen markieren |
|
#1
|
|||
|
|||
|
Hallo,
ich habe ein paar Fragen zur automatischen Indexierung meiner Seite mittels indexed_search extension + Crawler extension. Zunächst mal mein TS-Code der Root Seite (bei Fehlern bitte gleich meckern! ![]() ------------------------------------------------- tx_crawler.crawlerCfg.paramSets { tt_content_index = &L=[|_TABLE ages_language_overlay;_FIELD:sys_language _uid]tt_content_index.procInstrFilter = tx_indexedsearch_reindex tt_content_index.baseUrl = http://www.domain.com/ tt_news_index = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:24;_FIELD:uid]&L=[|_TABLE ages_language_overlay;_FIELD:sys_language _uid]tt_news_index.procInstrFilter = tx_indexedsearch_reindex tt_news_index.pidsOnly = 26 tt_news_index.cHash = 1 tt_news_index.baseUrl = http://www.domain.com/ } # id 26 = news detail page # id 24 = news sys folder ID ------------------------------------------------- Frage 1) Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs klicke, und danach das Log anschaue, steht folgendes in der Status Spalte: ".." Was bedeutet das denn nun ? Fehlschlag oder Erfolg? Habe dann noch weitere Fragen: Mein Ziel ist es, per Cronjob alle Seiten alle 24h zu indexieren. Mir ist prinzipiell klar wieso dafür ein Cronjob jede Minute gemacht werden soll, allerdings gibt es trotzdem für mich jede Menge Ungereimheiten: Frage 2) Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B. "Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was muss man tun damit das JEDEN TAG so ist? Frage 3) Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now" klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt meines Mausklicks), dann läuft das Script trotzdem durch. Was natürlich Schwachsinn ist, da das Script ja erst um Mitternacht aktiv werden sollte --> Warum läuft das Script trotzdem? Frage 4) Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal irgendwie stark verdächtig --> Vorschläge ? Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld aufgebracht habe und danach das Crawler Log anschaue, steht in der Status spalte die höchst aussagekräftige Meldung "Error: .." --> Vorschläge? Vielen Dank, Marius P.S. Leider haben es meine langen Fragen an sich, nicht beantwortet zu werden. Wenn ihr was wisst, dann sagt es bitte . IdR werden meine Probleme in Mailinglisten eher selten beantwortet, da es entweder Probleme sind die noch kein Mensch hatte, oder keiner den Beitrag je bis zum Ende durchgelesen hat und auf dem Weg dort hin an Langeweile verstorben ist. _______________________________________________ TYPO3-german mailing list TYPO3-german (AT) lists (DOT) netfielders.de http://lists.netfielders.de/cgi-bin/...o/typo3-german |
|
#2
|
|||
|
|||
|
Marius Shekow schrieb:
Hallo Marius, Ich habe neulich auch ein wenig mit dem Crawler mal wieder gespielt... Prinzipiell wird der Crawler mittels Cronjob getriggert. Du setzt mit dem Infomodul eine Konfiguration aktiv, die dann je nach dem wie diese eingestellt ist abgearbeitet wird oder nicht. Der Cronjob kann alle 5 Minuten laufen oder so. Dieser ist so was wie ein regelmäßiger Herzschlag, der den Crawler an Leben hält. Einmal eingerichtet sollte das Crawlen von alleine gehen. > Frage 1) > Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die > Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs > klicke, und danach das Log anschaue, steht folgendes in der Status > Spalte: ".." > Was bedeutet das denn nun ? Fehlschlag oder Erfolg? Bei mir steht dann hier: 35 URLs submitted. Also stimmt was mit Deiner Config nicht. > Frage 2) > Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B. > "Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job > zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was > muss man tun damit das JEDEN TAG so ist? siehe oben. > Frage 3) > Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann > im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now" > klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt meines > Mausklicks), dann läuft das Script trotzdem durch. Was natürlich > Schwachsinn ist, da das Script ja erst um Mitternacht aktiv werden > sollte --> Warum läuft das Script trotzdem? > Weil Run now! Run now bedeutet.... > Frage 4) > Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der > Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal > irgendwie stark verdächtig --> Vorschläge ? Das liegt an der Keep alive Anweisung im Code. http://wiki.typo3.org/index.php/Ext_crawler#Performance Version aus dem SVN nutzen... http://typo3xdev.sourceforge.net/ > Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld > aufgebracht habe und danach das Crawler Log anschaue, steht in der > Status spalte die höchst aussagekräftige Meldung "Error: .." Wahrscheinlich ein Memoryproblem? Was passiert, wenn Du das Script mittels Konsole steuerst? meine Konfig. tx_crawler.crawlerCfg.paramSets { language = &L=[|_TABLE ages_language_overlay;_FIELD:sys_language _uid]language.procInstrFilter = tx_indexedsearch_reindex, tx_cachemgm_recache language.baseUrl = http://directmail.dev/ tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:24] tt_news.procInstrFilter = tx_indexedsearch_reindex, tx_cachemgm_recache tt_news.pidsOnly = 23 tt_news.cHash = 1 tt_news.baseUrl = http://directmail.dev/ } olivier _______________________________________________ TYPO3-german mailing list TYPO3-german (AT) lists (DOT) netfielders.de http://lists.netfielders.de/cgi-bin/...o/typo3-german |
|
#3
|
|||
|
|||
|
Olivier Dobberkau schrieb:
> Marius Shekow schrieb: > > Hallo Marius, > > Ich habe neulich auch ein wenig mit dem Crawler mal wieder gespielt... > > Prinzipiell wird der Crawler mittels Cronjob getriggert. > > Du setzt mit dem Infomodul eine Konfiguration aktiv, die dann je nach > dem wie diese eingestellt ist abgearbeitet wird oder nicht. > > Der Cronjob kann alle 5 Minuten laufen oder so. Dieser ist so was wie > ein regelmäßiger Herzschlag, der den Crawler an Leben hält. > > Einmal eingerichtet sollte das Crawlen von alleine gehen. Allerdings stellt sich mir die Frage: ich richte einen Job auf der Queue ein (z.B: für Mitternacht alles crawlen), der Cronjob erledigt das dann z.B. "heute" um Mitternacht. Dann müsste (per Definition einer "queue") diese dann leer sein (insofern der Job um Mitternacht erfolgreich beendet wurde). D.h. wenn der Crawler dann morgen um Mitternacht nachsieht wird er keine Aufgabe in der Queue finden, und also auch nichts machen. So verstehe ich das. > >> Frage 1) >> Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die >> Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs >> klicke, und danach das Log anschaue, steht folgendes in der Status >> Spalte: ".." >> Was bedeutet das denn nun ? Fehlschlag oder Erfolg? > > Bei mir steht dann hier: 35 URLs submitted. Also stimmt was mit Deiner > Config nicht. Bei mir steht durchaus auch "12 URLs submitted". Wenn ich dann auf Continue gehe und dann zum Crawler Log wechsle, habe ich, wie erwähnt, den Status "..", und eben nicht "OK" o.ä. > > > >> Frage 2) >> Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B. >> "Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job >> zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was >> muss man tun damit das JEDEN TAG so ist? > > siehe oben. > >> Frage 3) >> Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann >> im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now" >> klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt >> meines Mausklicks), dann läuft das Script trotzdem durch. Was >> natürlich Schwachsinn ist, da das Script ja erst um Mitternacht aktiv >> werden sollte --> Warum läuft das Script trotzdem? >> > > Weil Run now! Run now bedeutet.... okok ![]() > > > >> Frage 4) >> Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der >> Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal >> irgendwie stark verdächtig --> Vorschläge ? > > Das liegt an der Keep alive Anweisung im Code. > > http://wiki.typo3.org/index.php/Ext_crawler#Performance > Version aus dem SVN nutzen... > > http://typo3xdev.sourceforge.net/ Ich habe die "alte" Crawler Extension deinstalliert, gelöscht, diese hier (http://typo3xdev.sourceforge.net/T3X...2007-09-24.t3x) importiert und installiert. Da ich jetzt leider gleich weg muss kann ich nich nochmal (400 Sekunden?) warten, denn auf jeden Fall ist es, seit dem Update der Extension, nicht wirklich schneller geworden nach dem ich auf "Run now" geklickt habe (nach ca 4 Minuten habe ich abgebrochen). > > >> Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld >> aufgebracht habe und danach das Crawler Log anschaue, steht in der >> Status spalte die höchst aussagekräftige Meldung "Error: .." > > Wahrscheinlich ein Memoryproblem? > Was passiert, wenn Du das Script mittels Konsole steuerst? Memory Limit ist auf 96 MB. Da ich leider nicht selbst Admin des Servers bin kann ich noch nicht sagen, was beim ausführen des CLI's auf der Konsole passiert. Ich habe dem Admin den Befehl genannt, und seine Antwort war dann, dass es sich nicht ausführen ließ, da php in /usr/bin nicht gefunden wurde. Habe ihn gebeten, php dementsprechend zu installieren und es erneut zu versuchen. Bleibt abzuwarten. Danke auch für deine Konfiguration des crawlers, die sieht schlanker aus. Viele Grüße, Marius _______________________________________________ TYPO3-german mailing list TYPO3-german (AT) lists (DOT) netfielders.de http://lists.netfielders.de/cgi-bin/...o/typo3-german |
|
#4
|
|||
|
|||
|
Wenigstens eine Frage konnte ich nun selbst beantworten:
Wie in folgender Anleitung beschrieben: http://www.fi-ausbilden.de/blog/2007...er-einrichten/ richtet man nicht einen sondern ZWEI cronjobs ein, einer erzeugt dabei die queue, der andere arbeitet sie ab. Das macht auch Sinn. Die anderen Fragen sind weiterhin offen. > Marius Shekow schrieb: > Allerdings stellt sich mir die Frage: ich richte einen Job auf der Queue > ein (z.B: für Mitternacht alles crawlen), der Cronjob erledigt das dann > z.B. "heute" um Mitternacht. Dann müsste (per Definition einer "queue") > diese dann leer sein (insofern der Job um Mitternacht erfolgreich > beendet wurde). D.h. wenn der Crawler dann morgen um Mitternacht > nachsieht wird er keine Aufgabe in der Queue finden, und also auch > nichts machen. So verstehe ich das. _______________________________________________ TYPO3-german mailing list TYPO3-german (AT) lists (DOT) netfielders.de http://lists.netfielders.de/cgi-bin/...o/typo3-german |
| Lesezeichen |
| Themen-Optionen | |
| Ansicht | Thema bewerten |
|
|
|
||||
| Thema | Autor | Forum | Antworten | Letzter Beitrag |
| [TYPO3] Site crawler + Indexed Search | John 'Tux' Nielsen | typo3-english@lists.netfielders.de | 0 | 14.08.2007 12:15 |
| [TYPO3-german] indexed search/crawler Probleme | Wolf-Nicolas Henkels | typo3-german@lists.netfielders.de | 3 | 25.05.2007 13:14 |
| [TYPO3] Indexed Search and Crawler Problem Help !! | Paweł Kubzdyl | typo3-english@lists.netfielders.de | 0 | 16.03.2007 01:43 |
| [TYPO3] Crawler and Indexed Search | Pawe³ Kubzdyl | typo3-english@lists.netfielders.de | 0 | 13.03.2007 01:27 |
| [TYPO3] problem: indexed search results: search result title wronglanguage / default language | Bernhard Welzel | typo3-english@lists.netfielders.de | 0 | 01.02.2007 09:10 |