Проекты
Организация деятельности по классификации содержания Интернета по запросу клиента |
|
Проблемы По результатам исследований (NetCraft) за 2009 год в Интернете появилось более 20 млн. новых сайтов, а общее количество активных сайтов превысило 200 млн. Компания-заказчик предоставляет пользователям своих продуктов услугу по избирательному ограничению доступа к Интернет на основе категории, к которой относится запрашиваемый ими сайт. Для этого компании приходится поддерживать актуальную и максимально полную базу сайтов и их категорий. Такая классификация может осуществляться как в автоматическом режиме (по названиям доменов, с использованием технологии линз и пр.), так и с использованием неавтоматических технологий, ориентированных на принятие решений человеком. Необходимость второго подхода обусловлена тем, что существует значительный процент доменов, содержание которых сложно или невозможно оценить без экспертной оценки живым человеком. Процент сайтов, некорректно обработанных системой классификации, определяет качество и конкурентоспособность системы фильтрации контента. Для автоматической системы классификации он пока остается довольно высоким. Задачи Требовалось снизить процент неверно классифицированных автоматической системой сайтов. Для этого необходимо организовать постоянную деятельность по экспертной оценке предоставляемой базы адресов Интернет на основании их контента и присвоение адресам категории из утвержденного списка. Должен был осуществляться анализ сайтов на различных языках (включая азиатские). Также Заказчиком ставилась задача по минимизации стоимости рейта одного сайта и поддержание его на конкурентоспособном уровне. Решения Наши специалисты успешно организовали эффективный и масштабируемый производственный процесс классификации входного потока URL по 60 категориям. Уже на протяжении 5 лет в проекте надежно работает команда рейтеров, свободно владеющих несколькими языками и обеспечивающая высокий уровень удовлетворенности клиентов. В течение проекта производительность команды была увеличена в 6 раз. Нами были внесены ряд ценных комментариев и рекомендаций по улучшению инструмента для классификации веб-сайтов, тем самым, обеспечив развитие системы. Результаты Команда обрабатывает более двухсот тысяч сайтов в месяц. Рейтинги проходят специально разработанную процедуру контроля и эскалации, в случае снижения качества оценки. Организация команды позволяет оперативно наращивать производительность в случае значительного роста базы адресов (например, в случае выхода продуктов Заказчика на новые рынки). Команда осуществляет анализ и реакцию на обращения в службу поддержки пользователей с жалобами на неверную классификацию сайтов. Также специальное подразделение занимается ведением списка и про-активным поиском прокси, позволяющих обходить средства контентной фильтрации продуктов Заказчика. Особенности проекта Гибкая организация труда позволила привлекать к участию в проекте широкие категории сотрудников, повышая эффективность процесса, обеспечивая высокую масштабируемость и снижая стоимость приведенного рейтинга. |
Назад в раздел


