Михаил И.
3 сообщения
#17 лет назад
Мы пока решили задачу путём загрузки HTML в IHTMLDocument (COM обёртка IE) и дальейшего экспорта в XML. Такой путь очень прост, но одна страница загружается в контейнер по 3-5 секунд минимум Тоже интересно было бы узнать как сделать по другому...
Сергеевич А.
791 сообщение
#17 лет назад
А для чего используете преобразование такое?
обычно наоборот)
Михаил И.
3 сообщения
#17 лет назад
Для поисковика по интересным нам сайтам. Site specific search engine такой получился. Например поиск Хабрахабра (а также Секлаба, упомянутого sharpaddict'ом,и ещё нескольких сайтов) — отвратителен, Google CSE тоже не гибок ни разу (например не умеет классифицировать посты по темам), а мы сделали себе новый, клёвый. Для получения информации о тегах, тексте поста, комментариев используется адская сместь RegExp'ов, смарт-сёрча и XPath. Как раз для последнего нужен валидный XML.