Себастьян Ф.
584 повідомлення
#12 років тому
Приветствую!

Столкнулся с интересной для себя задачей, и не могу никак придумать как правильно погуглить, т.е. сформировать запросы.
Задача, не срочная и не коммерческая, мне просто интересно поработать с ней и разобраться самому.

Задача:
Итак, есть множество разных текстов, например 100 млн, средний размер текста от 150кб до 10 мб.
Необходимо организовать "простой" поиск по вхождению слов из запроса в эти тексты.
Как пример, можно представить 100 млн рецептов еды, и надо выводить результаты по запросу "сосиски в тесте".
Для примера, можно взять небольшую нагрузку на поисковый механизм, например 100тыс запросов к базе в день (т.е. примерно 1-2 запроса в секунду).
База постоянно пополняется и растет в размерах, пусть например 10.000 новых документов в день.

Вопрос:
С помощью каких технологий производится решение таких задач?
Какие ключевики мне нужны для гугления?
Может быть кто-то писал свой поисковик и знает как организовывается структура базы, да и вообще какие базы для этого используют?
Так же вопрос тем, кто работал с Sphinx-ом, покроет ли он требования этой задачи?

Заранее благодарен за любую информацию!
Евгений Б.
5330 повідомлень
#12 років тому
Сфинкс подойдет.
Проблема с правильным индексированием базы и обновлением индексов при быстрорастущем объеме.
Себастьян Ф.
584 повідомлення
#12 років тому
Спасибо! Буду тестировать.