Найти за полсекунды: сравниваем похожие фотографии Реальный опыт

Доклад принят в программу конференции
Петр Петренко
Badoo

Прежде чем прийти в программирование, был тимлидом команды администраторов городского интернет-провайдера.
Восемь лет занимается коммерческой веб-разработкой, связанной с большими объемами данных. Из них последние два с половиной в команде биллинга в Badoo.
Обожает базы данных. Считает, что неважно, на каком языке реализован хороший алгоритм.
Использует PHP, когда прижмет C++, экспериментирует с Kotlin.

http://t.me/avallac
Тезисы

Однажды, еще до работы в Badoo, мне предложили сделать пет-проект. Идея была находить похожие фотографии — после кропа, ресайза, наложения ватермарков — в базе из десятков миллионов. При этом обрабатывать предстояло 150 тысяч фотографий в сутки. До этого я занимался только несложными ресурсами на PHP + MySQL. Казалось, сделать поиск было нереально, но я был молод и полон энтузиазма.

В итоге все оказалось не так плохо. Шаг за шагом выяснилось, что для успеха было достаточно вузовских алгоритмов и свободного времени в течение года. В докладе я расскажу, как прошел путь от прочитанной на Хабре статьи до работающего гибридного PHP-кластера, и как этот неожиданный опыт помог мне устроиться в компанию, где я сейчас и работаю.