На решение выбрать ту или иную турфирму, авиакомпанию, гостиницу и далее по списку часто влияют советы бывалых. Однако впечатлениями в Интернете делятся не только туристы. Некоторые хвалебные «ревю» берутся писать сотрудники самих компаний или их знакомые, а чересчур негативные отзывы об уровне услуг на поверку могут оказаться местью конкуренту.
Точки над «i» в отзывах о гостиницах на туристических сайтах и форумах решили расставить специалисты по компьютерной лингвистике, разработав специальную программу. Группу добровольцев попросили намеренно писать ложные положительные отзывы о гостиничном сервисе. Эти рассказы дословно сравнивались с гарантированно правдивыми отзывами.
Затем был проведен компьютерный анализ, основанный на отслеживании тонких особенностей текста. Так, правдивые отзывы, например, более вероятно использовали слова, описывающие конкретику о гостинице, такие как «ванная комната», check-in или «цена». Сфабрикованные отзывы повествовали о вещах, призванных передать атмосферу, дать представление о сценах, которые происходили, при помощи таких слов, как «каникулы», «командировка» или «мой муж». Обманщики использовали больше глаголов, а говорящие правду — больше существительных.
«Ученые использовали так называемое машинное обучение для выявление разных сигналов в текстах, по которым можно опознать, фальшивый отзыв или настоящий, — поясняет руководитель сервиса «Яндекс.Маркет» Алексей Авдей. — Качество системы зависит от объема и качества обучающей выборки (gold standard), а также от использованных алгоритмов».
Между тем, по словам специалистов Корнельского университета, алгоритм уже показал себя в деле, проверив 800 отзывов о 20 чикагских отелях и выявив фальшивые обзоры почти с 90-процентной точностью. «Хотя это первое исследование в своем роде и еще многое предстоит сделать, я думаю, что наш подход в конечном счете поможет сайтам в выявлении и устранении мошеннических обзоров», — заявил один из авторов ПО Майл Отт.
Подобные системы, правда основанные на анализе не только текстов, но и других факторов, уже сейчас используются для обнаружения спама в письмах. «Качество срабатывания на спам в письмах обычно выше 90%, — отмечает Алексей Авдей. — Спам в отзывах только по тексту поймать труднее, так как фальшивые комментарии часто очень похожи на настоящие, и заявленный уровень точности в 90% является довольно высоким».
Так что методика может быть весьма перспективной. «Технология поможет улучшить сферу онлайн-бронирования, по крайней мере в той ее части, где путешественники оценивают варианты по рецензиям, опубликованным на туристических сайтах, — считает Дмитрий Коновалов, менеджер коммерческих партнерств Skyscanner. — Если создателям программы удастся создать универсальный алгоритм, который бы отсеивал ненастоящие комментарии, применение ему можно было бы найти в сфере авиа- и железнодорожных перевозок, а также проката автомобилей».
Такой проект наверняка не реализовать без серьезных вычислительных ресурсов. Но где же их взять? Один из вариантов - аренда сервера в России. Использование выделенных серверов это не только хорошая возможность обеспечить дополнительную мощность и безопасность для ваших интернет-проектов, но и позволит значительно сэкономить на приобретении дорого оборудовании, его обслуживании и апгрейда.