C#のHTML Parserで便利なものはないものか?
今日は朝からほとんどコード漬け。 他にもちょこちょこと別のことも平行してやったりもするけど、サイトの大量生産に向けてコードを書くしか手が無い。
HTMLの解析をしてたんだけど、いいパーサーがない! 日本語が使えなかったり(エンティティで表示される)、XPathが動作しなかったり、namespaceの挙動がおかしかったりと・・・。
■ntidy | Get ntidy at SourceForge.net http://sourceforge.net/projects/ntidy/
■Tidy.NET | Get Tidy.NET at SourceForge.net http://sourceforge.net/projects/tidynet/
■Majestic-12: Distributed Search Engine http://www.majestic12.co.uk/
この3つの他にC#標準のDOMも使ったりしてる。 Majestic-12はちょっと使い辛い感じ。 NTidyとTidy.Netは使いやすいんだけど、数年前で開発が止まってる。 Pythonで書けば早いんだけど、他の人が使うことを考えるとexeで配布できた方がいいんだよな・・・。
一日でこれだけ検索して、使うのも結構大変。 ここを抜ければ一気に進むはずなんだけどなぁ。
今日は検索→調査→試すを集中して繰り返したせいか、帰りの電車で一駅寝過ごした🙄