www.weblogy.cz :: 2 měsíce poté

MyEgo.cz

home foto blogy mywindows.cz kontakt

www.weblogy.cz :: 2 měsíce poté

Technologie 16.05.04
weblogy

Mám rád weblogy.cz Jirky Lahvičky. Shledávám je více a více užitečnými. Když Jirka s weblogy.czzačínal, první týden, statečně jsem jeho snahu ignoroval. Obsahem toho webu byla tehdy cca jedna desítka odborných blogů, které jsem stejně sledoval ve svojí RSS čtečce. Neshledával jsem tento web užitečným...

Nicméně, již po dvou týdnech jsem se na ně díval mnohem častěji. Bylo tam více a více blogů, nové služby, inteligentní řazení příspěvků.

Dnes, po 2 měsících existence weblogy.czjsem ze své RSS čtečky vyřadil cca 15 blogů. Je pro mě pohodlnější sledovat články na weblogy.cz, než v RSS čtečce.

Postrádám něco? Prakticky nikoliv. Jen by mě zajímalo, jaké AI funguje na weblogy.cz... Tedy, jak jsou příspěvky automaticky řazeny do kategorií? Databáze slov a relativní váhy k nim? Případná penalizace některých slov? Jak jsou příspěvky řazeny na titulce? Je to podstatná informace, pro moje rozhodnutí co číst, a co nikoliv. Taky by se hodilo RSS 2.0. Protože jsem je již dělal pro Nucleus CMS, je-li zájem, pomůžu s implementací :)


PS: s podobnou službou, ale zaměřenou na telekomunikace, WiFi, a další, přišel i Patrick Zandl na www.prehled.net. Nicméně, je tato služba, alespoň pro mě, ve stádiu "prvního týdne". Uvidíme, jaký bude vývoj. Dodatečné služby, a "AI", by se, Patricku, hodilo :)


Komentáře

  1. 1 Jirka Lahvička 16.05.04, 11:05:00
    FB

    Řazení příspěvků do témat:
    1. Spočítá se podobnost nového příspěvku se všemi předchozími příspěvky (nový i předchozí příspěvky jsou nahrubo lematizované, tj. slova převedená na kořeny). Podobnost se určuje na základě shod slov a až čtyřslovných frází.
    2. Vyberu příspěvky, co vyšly nejpodobnější, a podívám se, do jakých témat byly zařazeny, tím mi vyjde podobnost příspěvku k tématům.
    3. Aplikace Bayesových vzorců na podmíněnou pravděpodobnost - příliš složité zde rozepisovat, ale pokud někdo píše pravidelně o publikačních systémech, stačí mu menší podobnost, aby byl do tématu přiřazen, než někomu, kdo o tom dosud nenapsal ani čárku.

    Každopádně to ještě potřebuje ruční korekce, mám sice ještě v plánu jedno zlepšení algoritmu na hodnocení podobnosti a i lematizér budu psát znova a lépe, ale lidská inteligence pořád mírně vede :-)

    Řazení na titulce:
    1. Nové příspěvky
    2. Nečtené příspěvky
    3. Přečtené příspěvky
    Uvnitř každé skupiny rozhoduje rank příspěvku odvozený z jeho čtenosti. Na začátku dostane každý poměrně vysoký rank, ale pokud nikdo nekliká, rank rychle klesne. Poté, co se vyberou příspěvky podle tohoto algoritmu, setřídí se ještě podle času. Pro ty, kdo preferují nefiltrovanost, je stránka Vše za posledních 14 dní - všechno, co importér našel, chronologicky, bez jakékohokoliv dalšího řazení/filtrování.

    Další vývoj
    Momentálně si zkouším algoritmy na jeden projekt, který bude trochu podobný, takže co se osvědčí, to strčím i na weblogy.cz. Do té doby jsem rád, že stíhám opravovat parser, aby se vyrovnal s chybami a změnami v HTML sledovaných blogů (třeba s tím, že nejmenovaný blog bude uzavírat stránku tagem </htm> místo </html>, jsem fakt nepočítal :D )

  2. 2 Radek Hulán 16.05.04, 11:05:15
    FB

    [1] děkuji Jirko za doplnění, to byla ale rychlost 8O

  3. 3 Jiří Macich ml. 16.05.04, 11:05:36
    FB

    [1] Co mám udělat proto, aby můj blog byl agregován? Píšu Blog počítačového nadšence na http://blog.macich.net, který je v TopList Weblog 50 a třeba Přehled.NET jej agreguje (jako jeden z mála blogů), tak nevím, jestli je tak špatný, že se na Weblogy.CZ nedostal nebo jestli ještě neuvízl v oku autora :D

  4. 4 Jirka Lahvička 16.05.04, 11:05:43
    FB

    [3] Blog znám a není špatný, jen nesedí do podtitulu weblogy.cz Co píší české weblogy o webdesignu, internetu a programování - patří prostě mezi tu drtivou většinu blogů, které do tématu agregovaného weblogy.cz nezapadají. Třeba prehled.net agreguje úplně jinou oblast, tj. s nimi žádný překryv mít asi nikdy nebudu.

  5. 5 Jiří Macich ml. 16.05.04, 12:05:16
    FB

    [4] Nezlob se na mě, ale takových tam máte více a v pohodě se agregují 8O

  6. 6 Patrick Zandl 16.05.04, 05:05:33
    FB

    AI u sluzby prehled.net je - myslim, ze je to trochu podobne weblogy.cz. Jen se zatim neaplikuje rank podle čtennosti, protože ta je nevelká a vznikají velké odchylky tím, jak si na link kliknu já :)

    Přehled.net není zaměřený na telekomunikace, vybírá proste nejsledovanější témata na českých webech v oblasti techniky - a většina témat na českém netu se týká telekomunikací. Mnoho IT serverů bohužel nemá RSS (Pctuning, swnet a další), zatímco servery o telco mají RSS prakticky všechny. A tím se i trochu deformuje to, co na něm je nejvíce vidět.

    Během pár dní začneme hromadně sledovat i weblogy, které se technice nevěnují tak detailně, nebojte, zlepšení budou :)

  7. 7 Jiří Macich ml. 16.05.04, 08:05:41
    FB

    [6] Jen nevyhoďte mě :D

  8. 8 Petr Olmer 27.05.04, 04:05:49
    FB

    Ještě k technické stránce věci: Přehled.net analyzuje pouze titulky, takže používá trochu odlišný algoritmus od weblogů.cz, ale ten text-mining pochopitelně zůstává, včetně klasifikace do ontologie a počítání podobnosti. Patrick si trochu vymýšlí, že Přehled.net není zaměřený na telekomunikace. Trochu je, protože pro telekomunikace máme zatím nejvíc propracovanou ontologii. Ale na druhou stranu ji máme nejvíc prorpacovanou právě proto, že se o ní nejvíc píše. :-)