Skip to main content

C#のHTML Parserで便利なものはないものか?

· 2 min read

今日は朝からほとんどコード漬け。 他にもちょこちょこと別のことも平行してやったりもするけど、サイトの大量生産に向けてコードを書くしか手が無い。

HTMLの解析をしてたんだけど、いいパーサーがない! 日本語が使えなかったり(エンティティで表示される)、XPathが動作しなかったり、namespaceの挙動がおかしかったりと・・・。

■ntidy | Get ntidy at SourceForge.net

http://sourceforge.net/projects/ntidy/

■Tidy.NET | Get Tidy.NET at SourceForge.net

http://sourceforge.net/projects/tidynet/

■Majestic-12: Distributed Search Engine

http://www.majestic12.co.uk/

この3つの他にC#標準のDOMも使ったりしてる。 Majestic-12はちょっと使い辛い感じ。 NTidyとTidy.Netは使いやすいんだけど、数年前で開発が止まってる。 Pythonで書けば早いんだけど、他の人が使うことを考えるとexeで配布できた方がいいんだよな・・・。

一日でこれだけ検索して、使うのも結構大変。 ここを抜ければ一気に進むはずなんだけどなぁ。

今日は検索→調査→試すを集中して繰り返したせいか、帰りの電車で一駅寝過ごした🙄