LJSear.ch — сервис для тех, кому нужны архивы «Живого журнала»
Что такое LJSear.ch?
Это более терабайта архивов «ЖЖ». Проиндексированы и доступны для поиска 340 миллионов постов и 1 миллиард комментариев с 2000-го по осень 2015 года. И всё это с привычными для поиска по блогам инструментами: ограничение по автору, по дате, по сообществу.
Новые записи не индексируются, поскольку мы рассматриваем наш проект как архивный, мемориальный.
Проект полностью некоммерческий, никакой рекламы и иных способов заработка не предполагает.
Зачем нужен сервис?
Осенью 2015 года возможности поиска по блогам «Яндекса» были ограничены только последним месяцем. Объяснение было простым: подавляющее большинство пользователей ищет информацию, связанную с недавними записями, и глубокий поиск для них избыточен.
Это правда. Последнего месяца достаточно для задач вроде регулярного vanity search или мониторинга отзывов о каком-то свежем событии. Но есть задачи и более глубокие, исследовательские.
Я считаю, что в «ЖЖ» случилась или как минимум нашла своё отражение почти вся русскоязычная культура нулевых годов. Значение этого архива трудно переоценить. Когда «Яндекс» закрыл поиск по архивам, я очень огорчился, поскольку убеждён, что это собрание информации должно быть сохранено для человечества. Ну и попросил у «Яндекса» архивы, а он внезапно согласился и дал их.
Архивы поиска по блогам совершенно уникальны, потому что очень многое уже нельзя скачать в самом «ЖЖ». Многие журналы удалены их авторами, некоторые взломаны и уничтожены хакерами, в некоторых случаях записи не удалены, но спрятаны под замок.
Последние полгода на мне лежала ответственность за то, чтобы эти данные не пропали. Я позвал на помощь друзей, и среди них нашлись те, кто согласился помочь понять, можно ли сделать информацию доступной для поиска. Мы создали сервис LJSear.ch и вроде бы довели его до вменяемого состояния.
Добровольцев оказалось много?
Нашлись. Известный специалист в области UX Коля Заярный придумал дизайн. Саша Белянский взялся за БЭМ-вёрстку и фронтенд на Node.js. Spaceinvaderz занялся системным администрированием. Программировать бэкенд на PHP я стал сам на базе прототипа, который сделал мой друг tobe.
Самой большой проблемой было железо: кто будет платить за хостинг? Друзья уверяли, что можно собрать деньги на краудфандинговых площадках, но я был настроен скептически. И тут на нас вышли прекрасные люди из Servers.ru и предложили помочь. В итоге у нас отличный выделенный сервер с SSD для индекса и бэкенда поиска плюс облачный виртуальный сервер для фронтенда.
Кому может быть интересен проект?
Поскольку новые записи не индексируются, то аудитория, на которую я рассчитываю, — это исследователи. Как в прямом смысле слова исследователи культурных пластов нулевых годов, так и просто настоящие или бывшие пользователи «ЖЖ», которые хотят найти что-то, что было написано в те годы. А потому я не стал ограничивать максимальное время выполнения поискового запроса: исследователь может подождать выполнения сложного запроса и минуту, и две. При этом, конечно, простые запросы выполняются быстро, а если сервис обнаруживает, что запросов сейчас много, он включает управляемую деградацию, в том числе ограничивает тайм-аут запроса.
Станьте первым, кто оставит комментарий