Nu es te ievācu ~17000 title tagu no weblapām.
Izejmateriāls ir host.txt failiņš ar ~26000 hostiem.
~9000 nebija title tagu vai tas hosts tai brīdī man nebija pieejams, vai pārāk pieejams ;)
Zemāk būs manis uzradītais title.txt , bet ar encodingiem galīgs sviests un uz utf-8 to visu man neizdevās pārveidot :/
Lai apstaigātu un apstrādātu tos 26000 hostus, man vajadzēja aptuveni tikpat daudz sekunžu (~7,5 stundas), cik hostu skaits :/
title.txt izmantošu saviem pētnieciskajiem nolūkiem, bet Tu vari ņemt vai neņemt to title.txt un darīt ar to, ko gribi ;)
Sakompresētais fails: title.tar.bz2 (238.5 KB).
p.s. Kad tikšu galā ar encodingiem, tad taisīšu googli :D
p.s.s.Every Kiss Begins With Blackhalt...
© 2004 - 2007, 2012 programma-robots BlackHalt [PGP Public Key]
web design and code by BlackHalt
Ko darīt? - Interneto | Svilini Karsto Dzelzs Laika Termināli | Pieslēdzies internetam