TYPO3Jack.net - Das TYPO3 Mailinglist Forum Archiv

TYPO3 Mailingliste: nicht fragen - lesen!

TYPO3 Mailingliste: nicht fragen - lesen!_RR_1-->
Zurück   TYPO3Jack.net - Das TYPO3 Mailinglist Forum Archiv > TYPO3-Mailinglisten: DEUTSCH > typo3-german@lists.netfielders.de

Registrieren Hilfe Benutzerliste Kalender Suchen Heutige Beiträge Alle Foren als gelesen markieren
  #1  
Alt 24.09.2007, 23:18
Marius Shekow
Gast
 
Beiträge: n/a
Standard [TYPO3-german] Fragen zum crawler und indexed search

Hallo,

ich habe ein paar Fragen zur automatischen Indexierung meiner Seite
mittels indexed_search extension + Crawler extension.

Zunächst mal mein TS-Code der Root Seite (bei Fehlern bitte gleich
meckern!
-------------------------------------------------
tx_crawler.crawlerCfg.paramSets {
tt_content_index =
&L=[|_TABLEages_language_overlay;_FIELD:sys_language _uid]
tt_content_index.procInstrFilter = tx_indexedsearch_reindex
tt_content_index.baseUrl = http://www.domain.com/

tt_news_index =
&tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:24;_FIELD:uid]&L=[|_TABLEages_language_overlay;_FIELD:sys_language _uid]
tt_news_index.procInstrFilter = tx_indexedsearch_reindex
tt_news_index.pidsOnly = 26
tt_news_index.cHash = 1
tt_news_index.baseUrl = http://www.domain.com/
}
# id 26 = news detail page
# id 24 = news sys folder ID
-------------------------------------------------

Frage 1)
Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die
Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs
klicke, und danach das Log anschaue, steht folgendes in der Status
Spalte: ".."
Was bedeutet das denn nun ? Fehlschlag oder Erfolg?

Habe dann noch weitere Fragen:
Mein Ziel ist es, per Cronjob alle Seiten alle 24h zu indexieren. Mir
ist prinzipiell klar wieso dafür ein Cronjob jede Minute gemacht werden
soll, allerdings gibt es trotzdem für mich jede Menge Ungereimheiten:

Frage 2)
Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B.
"Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job
zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was
muss man tun damit das JEDEN TAG so ist?

Frage 3)
Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann
im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now"
klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt meines
Mausklicks), dann läuft das Script trotzdem durch. Was natürlich
Schwachsinn ist, da das Script ja erst um Mitternacht aktiv werden
sollte --> Warum läuft das Script trotzdem?

Frage 4)
Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der
Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal
irgendwie stark verdächtig --> Vorschläge ?

Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld
aufgebracht habe und danach das Crawler Log anschaue, steht in der
Status spalte die höchst aussagekräftige Meldung "Error: .."
--> Vorschläge?

Vielen Dank,
Marius

P.S. Leider haben es meine langen Fragen an sich, nicht beantwortet zu
werden. Wenn ihr was wisst, dann sagt es bitte . IdR werden meine
Probleme in Mailinglisten eher selten beantwortet, da es entweder
Probleme sind die noch kein Mensch hatte, oder keiner den Beitrag je bis
zum Ende durchgelesen hat und auf dem Weg dort hin an Langeweile
verstorben ist.
_______________________________________________
TYPO3-german mailing list
TYPO3-german (AT) lists (DOT) netfielders.de
http://lists.netfielders.de/cgi-bin/...o/typo3-german
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
  #2  
Alt 24.09.2007, 23:51
Olivier Dobberkau
Gast
 
Beiträge: n/a
Standard Re: [TYPO3-german] Fragen zum crawler und indexed search

Marius Shekow schrieb:

Hallo Marius,

Ich habe neulich auch ein wenig mit dem Crawler mal wieder gespielt...

Prinzipiell wird der Crawler mittels Cronjob getriggert.

Du setzt mit dem Infomodul eine Konfiguration aktiv, die dann je nach
dem wie diese eingestellt ist abgearbeitet wird oder nicht.

Der Cronjob kann alle 5 Minuten laufen oder so. Dieser ist so was wie
ein regelmäßiger Herzschlag, der den Crawler an Leben hält.

Einmal eingerichtet sollte das Crawlen von alleine gehen.

> Frage 1)
> Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die
> Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs
> klicke, und danach das Log anschaue, steht folgendes in der Status
> Spalte: ".."
> Was bedeutet das denn nun ? Fehlschlag oder Erfolg?


Bei mir steht dann hier: 35 URLs submitted. Also stimmt was mit Deiner
Config nicht.



> Frage 2)
> Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B.
> "Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job
> zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was
> muss man tun damit das JEDEN TAG so ist?


siehe oben.

> Frage 3)
> Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann
> im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now"
> klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt meines
> Mausklicks), dann läuft das Script trotzdem durch. Was natürlich
> Schwachsinn ist, da das Script ja erst um Mitternacht aktiv werden
> sollte --> Warum läuft das Script trotzdem?
>


Weil Run now! Run now bedeutet....



> Frage 4)
> Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der
> Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal
> irgendwie stark verdächtig --> Vorschläge ?


Das liegt an der Keep alive Anweisung im Code.

http://wiki.typo3.org/index.php/Ext_crawler#Performance
Version aus dem SVN nutzen...

http://typo3xdev.sourceforge.net/



> Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld
> aufgebracht habe und danach das Crawler Log anschaue, steht in der
> Status spalte die höchst aussagekräftige Meldung "Error: .."


Wahrscheinlich ein Memoryproblem?
Was passiert, wenn Du das Script mittels Konsole steuerst?


meine Konfig.

tx_crawler.crawlerCfg.paramSets {

language = &L=[|_TABLEages_language_overlay;_FIELD:sys_language _uid]

language.procInstrFilter = tx_indexedsearch_reindex, tx_cachemgm_recache
language.baseUrl = http://directmail.dev/

tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:24]
tt_news.procInstrFilter = tx_indexedsearch_reindex, tx_cachemgm_recache
tt_news.pidsOnly = 23
tt_news.cHash = 1
tt_news.baseUrl = http://directmail.dev/
}

olivier
_______________________________________________
TYPO3-german mailing list
TYPO3-german (AT) lists (DOT) netfielders.de
http://lists.netfielders.de/cgi-bin/...o/typo3-german
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
  #3  
Alt 25.09.2007, 09:14
Marius Shekow
Gast
 
Beiträge: n/a
Standard Re: [TYPO3-german] Fragen zum crawler und indexed search

Olivier Dobberkau schrieb:
> Marius Shekow schrieb:
>
> Hallo Marius,
>
> Ich habe neulich auch ein wenig mit dem Crawler mal wieder gespielt...
>
> Prinzipiell wird der Crawler mittels Cronjob getriggert.
>
> Du setzt mit dem Infomodul eine Konfiguration aktiv, die dann je nach
> dem wie diese eingestellt ist abgearbeitet wird oder nicht.
>
> Der Cronjob kann alle 5 Minuten laufen oder so. Dieser ist so was wie
> ein regelmäßiger Herzschlag, der den Crawler an Leben hält.
>
> Einmal eingerichtet sollte das Crawlen von alleine gehen.

Allerdings stellt sich mir die Frage: ich richte einen Job auf der Queue
ein (z.B: für Mitternacht alles crawlen), der Cronjob erledigt das dann
z.B. "heute" um Mitternacht. Dann müsste (per Definition einer "queue")
diese dann leer sein (insofern der Job um Mitternacht erfolgreich
beendet wurde). D.h. wenn der Crawler dann morgen um Mitternacht
nachsieht wird er keine Aufgabe in der Queue finden, und also auch
nichts machen. So verstehe ich das.
>
>> Frage 1)
>> Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die
>> Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs
>> klicke, und danach das Log anschaue, steht folgendes in der Status
>> Spalte: ".."
>> Was bedeutet das denn nun ? Fehlschlag oder Erfolg?

>
> Bei mir steht dann hier: 35 URLs submitted. Also stimmt was mit Deiner
> Config nicht.

Bei mir steht durchaus auch "12 URLs submitted". Wenn ich dann auf
Continue gehe und dann zum Crawler Log wechsle, habe ich, wie erwähnt,
den Status "..", und eben nicht "OK" o.ä.
>
>
>
>> Frage 2)
>> Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B.
>> "Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job
>> zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was
>> muss man tun damit das JEDEN TAG so ist?

>
> siehe oben.
>
>> Frage 3)
>> Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann
>> im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now"
>> klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt
>> meines Mausklicks), dann läuft das Script trotzdem durch. Was
>> natürlich Schwachsinn ist, da das Script ja erst um Mitternacht aktiv
>> werden sollte --> Warum läuft das Script trotzdem?
>>

>
> Weil Run now! Run now bedeutet....

okok
>
>
>
>> Frage 4)
>> Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der
>> Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal
>> irgendwie stark verdächtig --> Vorschläge ?

>
> Das liegt an der Keep alive Anweisung im Code.
>
> http://wiki.typo3.org/index.php/Ext_crawler#Performance
> Version aus dem SVN nutzen...
>
> http://typo3xdev.sourceforge.net/

Ich habe die "alte" Crawler Extension deinstalliert, gelöscht, diese
hier
(http://typo3xdev.sourceforge.net/T3X...2007-09-24.t3x)
importiert und installiert. Da ich jetzt leider gleich weg muss kann ich
nich nochmal (400 Sekunden?) warten, denn auf jeden Fall ist es, seit
dem Update der Extension, nicht wirklich schneller geworden nach dem ich
auf "Run now" geklickt habe (nach ca 4 Minuten habe ich abgebrochen).
>
>
>> Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld
>> aufgebracht habe und danach das Crawler Log anschaue, steht in der
>> Status spalte die höchst aussagekräftige Meldung "Error: .."

>
> Wahrscheinlich ein Memoryproblem?
> Was passiert, wenn Du das Script mittels Konsole steuerst?


Memory Limit ist auf 96 MB. Da ich leider nicht selbst Admin des Servers
bin kann ich noch nicht sagen, was beim ausführen des CLI's auf der
Konsole passiert. Ich habe dem Admin den Befehl genannt, und seine
Antwort war dann, dass es sich nicht ausführen ließ, da php in /usr/bin
nicht gefunden wurde. Habe ihn gebeten, php dementsprechend zu
installieren und es erneut zu versuchen. Bleibt abzuwarten.

Danke auch für deine Konfiguration des crawlers, die sieht schlanker aus.

Viele Grüße,
Marius
_______________________________________________
TYPO3-german mailing list
TYPO3-german (AT) lists (DOT) netfielders.de
http://lists.netfielders.de/cgi-bin/...o/typo3-german
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
  #4  
Alt 25.09.2007, 15:50
Marius Shekow
Gast
 
Beiträge: n/a
Standard Re: [TYPO3-german] Fragen zum crawler und indexed search

Wenigstens eine Frage konnte ich nun selbst beantworten:

Wie in folgender Anleitung beschrieben:
http://www.fi-ausbilden.de/blog/2007...er-einrichten/
richtet man nicht einen sondern ZWEI cronjobs ein, einer erzeugt dabei
die queue, der andere arbeitet sie ab. Das macht auch Sinn.

Die anderen Fragen sind weiterhin offen.

> Marius Shekow schrieb:
> Allerdings stellt sich mir die Frage: ich richte einen Job auf der Queue
> ein (z.B: für Mitternacht alles crawlen), der Cronjob erledigt das dann
> z.B. "heute" um Mitternacht. Dann müsste (per Definition einer "queue")
> diese dann leer sein (insofern der Job um Mitternacht erfolgreich
> beendet wurde). D.h. wenn der Crawler dann morgen um Mitternacht
> nachsieht wird er keine Aufgabe in der Queue finden, und also auch
> nichts machen. So verstehe ich das.

_______________________________________________
TYPO3-german mailing list
TYPO3-german (AT) lists (DOT) netfielders.de
http://lists.netfielders.de/cgi-bin/...o/typo3-german
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
 

Lesezeichen

Themen-Optionen
Ansicht Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


Ähnliche Themen

Thema Autor Forum Antworten Letzter Beitrag
[TYPO3] Site crawler + Indexed Search John 'Tux' Nielsen typo3-english@lists.netfielders.de 0 14.08.2007 12:15
[TYPO3-german] indexed search/crawler Probleme Wolf-Nicolas Henkels typo3-german@lists.netfielders.de 3 25.05.2007 13:14
[TYPO3] Indexed Search and Crawler Problem Help !! Paweł Kubzdyl typo3-english@lists.netfielders.de 0 16.03.2007 01:43
[TYPO3] Crawler and Indexed Search Pawe³ Kubzdyl typo3-english@lists.netfielders.de 0 13.03.2007 01:27
[TYPO3] problem: indexed search results: search result title wronglanguage / default language Bernhard Welzel typo3-english@lists.netfielders.de 0 01.02.2007 09:10


Alle Zeitangaben in WEZ +1. Es ist jetzt 18:14 Uhr.


Powered by vBulletin® Version 3.7.4 (Deutsch)
Copyright ©2000 - 2009, Jelsoft Enterprises Ltd.
SEO by vBSEO 3.1.0
Template-Modifikationen durch TMS

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77