Nejprve musime stahnout (bohuzel se dokolecka tahaji duplicity, je to znama chyba wgetu)
Kód: Vybrat vše
wget -k -m -E -p -np -R memberlist.php*,faq.php*,viewtopic.php*p=*,posting.php*,search.php*,ucp.php*,viewonline.php*,*sid*,*view=print*,*start=0* -o log.txt http://www.world-of-lucid-dreaming.com/forum/
prejmenovani vse co ma .php? na .php_ (kvuli Windows) + Oprava linku v souborech na nove nazvy, likvidace cisla fora z viewtopicu:
Kód: Vybrat vše
for i in *.html ; do cat $i | sed -e 's/="http:\/\/www.world-of-lucid-dreaming.com\/forum\//="/g' -e 's/="topic_/="topic_/g' -e 's/="viewtopic.php?/="topic_/g' -e 's/css%3Fassets/css_assets/g' -e 's/="download\/file.php_/="download\/file.php_/g' -e 's/="forum_/="forum_/g' -e 's/="topic_f=[0-9]*&t=/="topic_t=/g' -e 's/="topic_f=[0-9]*_t=/="topic_t=/g'> `echo "../forum2/$i" | sed -e 's/?/_/g' -e 's/php_f=[0-9]*&t/php_t/g'` ; done
rucne je potreba prejmenovat ? v nazvech souboru se styly a obrazky na "_" (avatary) (aaa.php?xxxaaabbb -> aaa.php_xxxaaabbb)
spojeni vicestrankovych pokracovacich stranek temat do jednoho html, likvidace prebytecnych dokumentu:
Kód: Vybrat vše
ls viewto*t=*\_start=* | sed -e 's/\_start=.*$//g' | sort | sort -um | while read bname ; do cat $bname.html >tmp.html ; for s in `ls $bname\_start=* |sed -e 's/^.*start=//g' -e 's/\.html$//g' | sort -n `; do grep -B 99999 '<form id="viewtopic" method="post"' tmp.html | grep -v '<form id="viewtopic" method="post"' > tmp2.html ; grep -A 99999 '<div class="action-bar top">' $bname\_start=$s.html >> tmp2.html ; mv tmp2.html tmp.html ; rm $bname\_start=$s.html ; done ; mv tmp.html $bname.html; done
spojeni seznamu for do jednoho html pro kazde forum:
Kód: Vybrat vše
ls viewfo*f=*\_start=* | sed -e 's/\_start=.*$//g' | sort | sort -um | while read bname ; do cat $bname.html >tmp.html ; for s in `ls $bname\_start=* |sed -e 's/^.*start=//g' -e 's/\.html$//g' | sort -n `; do grep -B 99999 '<form method="post" action="viewforum.php' tmp.html | grep -v '<form method="post" action="viewforum.php' > tmp2.html ; grep -A 99999 '<div class="action-bar top">' $bname\_start=$s.html >> tmp2.html ; mv tmp2.html tmp.html ; rm $bname\_start=$s.html ; done ; mv tmp.html $bname.html; done
Vysledek je asi 300 MB dat, hromada by toho sla skrouhnout minimalizaci HTML, ono by to pak i zlepsilo citelnost. Pokud by o to nekdo mel zajem, vysledny archiv mohu nekam nahrat. Pristihl jsem se, ze radsi si ctu v offline kopii, jednak to je rychlejsi a rekl bych i prehlednejsi (az na par topicu kde je treba 700 prispevku ... prohlizec to 3MB velke html moc nedava )