LJSear.ch — сервис для тех, кому нужны архивы «Живого журнала»

Хотите найти в «ЖЖ» запись столетней давности, но не можете, потому что возможности поиска ограничены одним месяцем? Вам поможет бесплатный сервис LJSear.ch, в котором собраны архивы русскоязычной части LiveJournal за 2000–2015 годы. Расскажет о нём его создатель Роман Иванов (kukutz).

Роман Иванов

Менеджер по продуктам в «Яндексе». Запустил поиск по блогам, персональный поиск «Яндекса», несколько версий «Яндекс.Почты», сервисы «Яндекс.Лента»,«Я.ру», «Яндекс.Фотки» и ряд других. Сейчас занимается «Яндекс.Браузером» и LJSear.ch.

Что такое LJSear.ch?

Это более терабайта архивов «ЖЖ». Проиндексированы и доступны для поиска 340 миллионов постов и 1 миллиард комментариев с 2000-го по осень 2015 года. И всё это с привычными для поиска по блогам инструментами: ограничение по автору, по дате, по сообществу.

Новые записи не индексируются, поскольку мы рассматриваем наш проект как архивный, мемориальный.

Проект полностью некоммерческий, никакой рекламы и иных способов заработка не предполагает.

Зачем нужен сервис?

Осенью 2015 года возможности поиска по блогам «Яндекса» были ограничены только последним месяцем. Объяснение было простым: подавляющее большинство пользователей ищет информацию, связанную с недавними записями, и глубокий поиск для них избыточен.

Это правда. Последнего месяца достаточно для задач вроде регулярного vanity search или мониторинга отзывов о каком-то свежем событии. Но есть задачи и более глубокие, исследовательские.

Я считаю, что в «ЖЖ» случилась или как минимум нашла своё отражение почти вся русскоязычная культура нулевых годов. Значение этого архива трудно переоценить. Когда «Яндекс» закрыл поиск по архивам, я очень огорчился, поскольку убеждён, что это собрание информации должно быть сохранено для человечества. Ну и попросил у «Яндекса» архивы, а он внезапно согласился и дал их.

Архивы поиска по блогам совершенно уникальны, потому что очень многое уже нельзя скачать в самом «ЖЖ». Многие журналы удалены их авторами, некоторые взломаны и уничтожены хакерами, в некоторых случаях записи не удалены, но спрятаны под замок.

Последние полгода на мне лежала ответственность за то, чтобы эти данные не пропали. Я позвал на помощь друзей, и среди них нашлись те, кто согласился помочь понять, можно ли сделать информацию доступной для поиска. Мы создали сервис LJSear.ch и вроде бы довели его до вменяемого состояния.

Добровольцев оказалось много?

Нашлись. Известный специалист в области UX Коля Заярный придумал дизайн. Саша Белянский взялся за БЭМ-вёрстку и фронтенд на Node.js. Spaceinvaderz занялся системным администрированием. Программировать бэкенд на PHP я стал сам на базе прототипа, который сделал мой друг tobe.

Самой большой проблемой было железо: кто будет платить за хостинг? Друзья уверяли, что можно собрать деньги на краудфандинговых площадках, но я был настроен скептически. И тут на нас вышли прекрасные люди из Servers.ru и предложили помочь. В итоге у нас отличный выделенный сервер с SSD для индекса и бэкенда поиска плюс облачный виртуальный сервер для фронтенда.

Кому может быть интересен проект?

Поскольку новые записи не индексируются, то аудитория, на которую я рассчитываю, — это исследователи. Как в прямом смысле слова исследователи культурных пластов нулевых годов, так и просто настоящие или бывшие пользователи «ЖЖ», которые хотят найти что-то, что было написано в те годы. А потому я не стал ограничивать максимальное время выполнения поискового запроса: исследователь может подождать выполнения сложного запроса и минуту, и две. При этом, конечно, простые запросы выполняются быстро, а если сервис обнаруживает, что запросов сейчас много, он включает управляемую деградацию, в том числе ограничивает тайм-аут запроса.

LJSear.ch →

Это упрощённая версия страницы.

Читать полную версию