Martinerův blogísek: Java HTML parsery

středa 2. května 2007

Java HTML parsery

Oproti parsování XML je zpracování HTML složitější v tom, že běžné dokumenty často nejsou správně formátované a parser tak musí být mnohem "chytřejší" a umět si poradit s chybějícími nebo špatně umístěnými tagy.
Ze zástupu HTML parserů pro Javu jsem vybral JTidy (javovskou implementaci poměrně známého HTML Tidy).

Výpis správně formátovaného dokumentu z nesprávně formátovaného vstupu na standardní výstup:

Tidy tidy = new Tidy();
tidy.setQuiet(true);
tidy.setShowWarnings(false);
tidy.parse(new FileInputStream("test.html"), System.out);

JTidy také umí výsledek parsování vrátit jako org.w3c.dom dokument, se kterým se pracuje běžnými DOM metodami. Výpis všech odkazů z dokumentu:

Document d = tidy.parseDOM(
  new FileInputStream("test.html"), null);
NodeList l = d.getElementsByTagName("a");
for (int i = 0; i < l.getLength(); i++) {
  Node n = l.item(i);
  if (n instanceof Element) {
    System.out.println(
      ((Element) n).getAttribute("href"));
  }
}

Update 4.7.2007: Podobnou věc řešil na svém blogu Leoš Literák, a v diskuzi si pár lidí na JTidy poněkud stěžovalo.

2 komentáře:

Anonymníčtvrtek 3. května 2007 v 14:40:00 SELČ
pise se sformatovat nebo zformatovat ? co myslis ?
OdpovědětVymazat
Odpovědi
martinerčtvrtek 3. května 2007 v 20:01:00 SELČ
No to mě mohlo napadnout, že spellchecker ve Firefoxu nebude jedinej, kdo si bude ztěžovat :)
OdpovědětVymazat
Odpovědi

Okomentovat

Martinerův blogísek

středa 2. května 2007

Java HTML parsery

2 komentáře:

Hledání na blogu

Twitter

RSS

Fotky

Odkazy

Rubriky

Archiv