HTML -> XML
3 повідомлення
#17 років тому
Мы пока решили задачу путём загрузки HTML в IHTMLDocument (COM обёртка IE) и дальейшего экспорта в XML. Такой путь очень прост, но одна страница загружается в контейнер по 3-5 секунд минимум 
3 повідомлення
#17 років тому
Для поисковика по интересным нам сайтам. Site specific search engine такой получился. Например поиск Хабрахабра (а также Секлаба, упомянутого sharpaddict'ом,и ещё нескольких сайтов) — отвратителен, Google CSE тоже не гибок ни разу (например не умеет классифицировать посты по темам), а мы сделали себе новый, клёвый. Для получения информации о тегах, тексте поста, комментариев используется адская сместь RegExp'ов, смарт-сёрча и XPath. Как раз для последнего нужен валидный XML.