Исследования
MinHash: элегантный алгоритм для оценки похожести разреженных данных
MinHash — это алгоритм, который позволяет транслировать разрежённые бинарные векторы огромной размерности в целочисленные векторы гораздо меньшего размера, при этом сохраняя информацию для оценки похожести исходных векторов. Это особенно полезно в задачах, где нужно быстро находить дубликаты или похожие объекты среди большого количества данных.
Автор называет MinHash «потрясающе красивым» и обещает в следующей части рассказать про SimHash — ещё один элегантный алгоритм. Если хотите погрузиться в детали и понять, чем именно MinHash заслужил такую оценку, добро пожаловать под кат.
Источник: habr.com