Как устроены алгоритмы Reels?

ЧТО ЭТО?

Тебе в руки попал чрезвычайно полезный материал – это технический анализ алгоритмов Instagram*, основанный на публикациях блога Engineering at Meta*, заметок AI Research Meta*, научных публикаций и патентов инженерной команды Meta* и Instagram*. Этот документ основан только на фактах того, что из себя представляют системы машинного обучения, которые стоят в основе обработки контента в Instagram*.

КАК УСТРОЕН INSTAGRAM*

Instagram* сегодня — это не просто приложение для фото и видео. Это огромная технологическая экосистема, где каждый экран, кнопка и лента работают на базе десятков алгоритмов машинного обучения, всего их более тысячи. Главная лента, Reels, Explore — все это управляется ML-системами, которые в реальном времени решают, что именно показать каждому пользователю.

Что происходит с видео после загрузки

Когда вы загружаете видео, контент переводится в векторное представление, причем частично это происходит прямо на устройстве (если мощность позволяет). Ролик раскладывается на сотни признаков: длительность, динамика, цвет, объекты, лица, музыка, отдельные звуки, текст, даже шрифт текста. За все это отвечают CV (Computer Vision), OCR (Optical Character Recognition) и аудио модели.

CV-модели, такие как Detectron2, распознают, кто и что в кадре: люди, предметы, сцены, даже эмоции.
Аудио-модели слушают музыку, речь, даже выделяют трендовые звуки.
OCR-система, основанная на технологии Rosetta читает текст прямо из видео, фиксирует совпадение текста и контекста.

В итоге, у каждого ролика появляется гигантская карта параметров – цифровое описание того, что именно в нем.

У автора контента есть «рейтинг», author score. Сет отдельных ML-систем скорит автора: частота публикаций, насколько его контент удерживает аудиторию, были ли страйки за нарушение правил. Если успешная серия — новому контенту дается буст, если контент не вызывает удержания зрителя — алгоритм режет охваты. Работает это в виде «баллов», которые складываются по определенным формулам.

Следующий этап при обработке видео – предсказание успеха. В игру вступают сотни моделей машинного обучения, которые смотрят ролик и делают ставку, будет ли он интересен. Причем они предсказывают не абстрактное «людям понравится», а конкретную карту предсказаний — досмотрят 67% зрителей, тут будут перематывать, а в этом моменте будут ставить лайк, а этот ролик вообще не будут сохранять.

Как работает предсказание и почему ML это знает? Так работает машинное обучение! Это Deep Learning – внутри датасет из миллиардов единиц контента с детальной картой параметров и анализом поведения каждого конкретного пользователя дают возможность предсказывать дальнейшее поведение на основании всей этой информации. Это математика, статистика, машинное обучение.

Как видео попадают тебе в ленту

Когда ты открываешь Instagram*, перед тобой уже готова подборка роликов — не случайных, а отобранных именно под тебя. Каждый пользователь уникален. У тебя есть цифровой профиль — «вектор интересов», который формируется из всех твоих действий: что смотришь до конца, что пересматриваешь, что листаешь мимо.

Каждое видео описано данными. Для алгоритма это не просто «видео про спорт», а набор числовых признаков: что в кадре, какая музыка играет, есть ли текст, какой стиль монтажа. Алгоритмы ищут совпадения. Система сравнивает твой профиль с миллионами роликов и ищет наиболее близкие совпадения. Именно так видео находит тебя в реальном времени. Вся эта магия происходит за миллисекунды — как только ты свайпнул, модель уже предсказывает, какой следующий ролик даст наибольшую вероятность, что ты его досмотришь до конца.

Первый этап воронки это Retrieval — отбор кандидатов. Когда ты открываешь Reels, система показывает неслучайные видео. У тебя есть вектор интересов — цифровое описание твоего поведения. Пример: «смотрю до конца ролики про Москву, пересматриваю мемы, быстро пропускаю мемы про бывшую». У каждого ролика тоже есть набор векторов, например «спорт + быстрый монтаж + текст вначале + мужской голос».

Каждый пользователь и каждое видео для алгоритма — это не «человек» или «рилс», а точка в многомерном пространстве. Эта точка описывается числовым вектором. Например:

Пользователь:[0.72 (спорт), 0.03 (танцы), 0.65 (технологии), 0.12 (коты), 0.88 (юмор)...]
Видео:[0.70 (спорт), 0.02 (танцы), 0.69 (технологии), 0.10 (коты), 0.85 (юмор)...]

А вектор пользователя строится из его поведения: какие ролики досматривает, где ставит лайки, какие темы комментирует, где задерживается даже без действий. И самое главное — вектор динамический: каждый скип, лайк или досмотр мгновенно чуть меняет профиль. Алгоритм ищет совпадения. Если векторы похожи (высокая косинусная близость), значит вероятность, что человек залипнет на рилсе, выше. Вот и мэтч. Из миллионов роликов остается несколько тысяч кандидатов.

Следующий этап, Ranking – первое ранжирование. Теперь эти тысячи кандидатов для показа оценивают сотни ML моделей. Их задача — предсказать поведение на каждом ролике: досмотрит до конца, пересмотрит, лайкнет, напишет комментарий, сделает репост, подпишется на автора.

Дальше из этих вероятностей собирают общий скор — по сути, ожидаемую ценность показа:
Score = w₁*P_watchthrough + w₂*P_rewatch + w₃*P_follow + w₄*P_share + w₅*P_comment + w₆*P_like
У каждого действия свой вес. Подписка и пересмотр — самые сильные сигналы, лайк — минимальный. Результат — прогноз твоего поведения под конкретным роликом.

Последний этап перед показом ролика, Re-ranking – второй слой. Теперь вступают дополнительные правила:

Разнообразие (чтобы тебе не показывали 10 одинаковых мемов подряд).
Свежесть (новый рилс может получить буст к охватам).
Рейтинг автора (стабильные авторы с высокой вовлеченностью получают буст).
Ограничения по безопасности и политике (например, за логотип TikTok охваты снижаются).

Предсказание не равно истина. Важно: все эти расчеты — прогноз, а не гарантия. Поэтому каждое новое видео сначала показывают маленькой тестовой аудитории. Смотрят retention: досмотрели ли до конца, есть ли пересмотры. Проверяют реакции: комменты, репосты, подписки. Если показатели выше среднего, то видео масштабируют.

СЛОВАРИК BUZZWORDS

ML (Machine Learning) – отрасль искусственного интеллекта, в которой компьютеры учатся выполнять задачи, распознавать закономерности и делать прогнозы на основе данных без прямого программирования.
Deep Learning (глубокое обучение) — это вид машинного обучения с использованием многослойных нейронных сетей, которые самообучаются на большом наборе данных.
CV (Computer Vision) – область искусственного интеллекта, которая позволяет компьютерам видеть, анализировать и понимать визуальную информацию.
OCR (Optical Character Recognition) — это технология оптического распознавания символов, которая преобразует изображения, содержащие текст.
ASR (Automatic Speech Recognition) – это технология, которая переводит устную речь в текст.

Что является самыми сильными признаками для алгоритмов?

ML Ranking предсказывает вероятности действий на основании исторических данных и собирает общий скор рилса. Сильные действия тянут наверх, легкие напротив, почти не влияют.

Вес действий выглядит примерно так: Подписка примерно равна пересмотру и сильнее репоста к себе или в директ, которые сильнее комментария, который сильнее лайка. Почему подписка и пересмотр такие сильные – потому что алгоритм считает, что если человек посмотрел рилс 2+ раза, значит контент ценный прямо сейчас. Сохранение – пригодится в будущем. Это сильные действия.

Виральность начинается со следующих коэффициентов действий на первых 500–1500 показах:

досмотр видео (15–25 с ролики имеют большую досматриваемость): 60–70%+
повторный просмотр: 10–20%+
в подписку: 0.3–0.8%+
комментарии: 1–2%+
поделиться: 2–4%+

Ранний дроп (когда ролик пропускают) — самый токсичный сигнал для показателя досматриваемости видео. Если 20–30% зрителей скипают рилс в первые 0-3 сек, модель начинает понижать скор (рейтинг) ролика. Ориентироваться надо на дроп на 0–3 сек меньше 20%. Если больше — хук необходимо менять.

Существует миф, что нужно загружать ролик 100 и более раз. Но это миф. В реальности все с точностью до наоборот. Финальный re-ranking слой алгоритма следит за diversity (разнообразием). Дубликаты и однотипные рилсы конкурируют между собой — покажут 1-2, остальные получат нулевой скор и не попадут в ленту. Перезаливы понижают авторский скор.

Integrity-алгоритм триггерится на следующие темы:

откровенный адалт / 18+ подтекст
обещания гарантированно заработать
открытая агрессия / хейт спич / оскорбления
использование чужих рилс с водяными знаками (избегайте логотипов конкурентов Meta*)
кликбейты, вводящий в заблуждение контент

Когда ты заливаешь рилс, он не сразу падает в ленту ко всем, а попадает в песочницу. Алгоритм берет малую аудиторию, обычно от 100 до 500 человек. Цель — проверить, совпадают ли реальные метрики с прогнозом ML. Есть Trial Mode, когда ролик публикуется не в ленту, а внешней аудитории (не-подписчики). Сигналы идут только от внешней группы и не влияют на итоговый скор автора.

Из чего состоит рейтинг автора и на что он влияет?

Факт: у аккаунта автора есть собственный score, или рейтинг, или индекс здоровья. Meta* прямо подтверждает это сразу в нескольких документах. И то, насколько здоровый аккаунт напрямую влияет на продвижение контента.

За что могут «штрафовать» рейтинг аккаунта (author score)? Нарушения Community Standards: хейт, насилие, adult, фейки, манипуляции. Такие аккаунты получают меньше показов в рекомендациях.

Meta* в Journey to 1000 Models прямо описывает: стабильные авторы получают буст, проблемные — минус. Влияет частота публикаций, средняя вовлеченность, количество негативных сигналов, наличие страйков. Если на автора часто жалуются («Скрыть», «Неинтересно», «Жалоба»), это снижает его «здоровье».

Что будет, если в реальности вовлеченность ниже предсказания? Если прогноз ML был «ролик соберет реакции», а в реальности они не пришли, алгоритм понижает рейтинг контента.

Как пройти фильтр этапа Retrieval

Миссия retrieval: из миллионов роликов быстро выбрать несколько тысяч похожих на твои вкусы по эмбеддингам (векторным представлениям). Если алгоритм не распознал тему/жанр — ролик даже не попадет в кандидаты.

CV-модели считывают лица/объекты/сцены/движение. Аудио-модели слушают голос/музыку/ритм. OCR читает текст в кадре. Дай алгоритмам понять, о чем видео. В первые 3–5 сек покажи лицо/ключевой объект/контекст жанра. Дай короткую фразу голосом и короткую фразу на экране про тему ролика.

Важно визуальное разнообразие. Модели видят динамику кадров и понятные объекты. Статичная картинка = риск раннего дропа. Разные планы увеличивают сигнал жанра, улучшают retrieval-мэтч и держат внимание.

При проектировании ролика учитывай смену плана каждые 2–4 сек. На биты/смысловые точки — визуализация. Не скрывай лицо и ключевой объект.

Субтитры нужны не для красоты, а для алгоритма распознавания текста. Ошибкой будут микроскопические или нечитаемые шрифты, абстрактные фразы. Читабельный, синхронный текст усиливает понимание темы.

Звук решает не меньше картинки. Аудио-модель делает эмбеддинг жанра. Распознавание текста + речи = семантический мэтч: что ты говоришь и что показываешь.

ЧЕК-ЛИСТ ALGORITHM-FIRST РИЛСА

Традиционный контент, особенно для начинающих авторов, необходимо проектировать с учетом особенностей алгоритмов. Задача автора сделать такую единицу контента, глядя на которую алгоритм поверит – этот ролик залетит.

Чеклист 1

Чеклист 2

Если чек-лист закрыт на 90%, вероятность, что ролик попадет в «широкую дистрибуцию» и станет виральным, максимально высокая. А именно этого мы с вами и хотим добиться.

Источники (Документация Meta*)

Scaling the Instagram* Explore recommendations system
Journey to 1000 models: Scaling Instagram’s* recommendation system
How Instagram* suggests new content
Faiss: A library for efficient similarity search
Inside Facebook’s* video delivery system
What is the Instagram* Feed?
Reels Chaining
Explore
Rosetta: Large-scale text recognition in images
DLRM: Deep Learning Recommendation Model
How machine learning powers Facebook’s* News Feed ranking algorithm
Matching and ranking content items
The AI behind unconnected content recommendations on Facebook* and Instagram*
Reels Ranking Signals
On the Value of Diversified Recommendations
A New Ranking Framework for Better Notification Quality on Instagram*
Privacy within Meta’s* Integrity Systems
Community Standards
Brand Safety

* — Деятельность организации Meta Platforms Inc. и ее продуктов Instagram и Facebook признана экстремистской и запрещена на территории РФ.

Как устроены алгоритмы Reels?

ЧТО ЭТО?

КАК УСТРОЕН INSTAGRAM*

ЧЕК-ЛИСТ ALGORITHM-FIRST РИЛСА

Статья была полезна?

Условия использования

1. Общие положения и Возраст (18+)

2. Соблюдение законодательства и Запрещенная деятельность

3. Безопасность и Платежные данные

4. Лицензия, Запреты и Возвраты

5. Отказ от ответственности (As is)

6. Разрешение споров

Политика конфиденциальности

1. Общие положения

2. Какую информацию мы собираем

3. Использование и передача данных

4. Хранение и Безопасность

5. Права пользователя

Политика файлов cookie

1. Что такое файлы cookie?

2. Использование нами файлов cookie

3. Чего мы НЕ делаем

4. Удаление и Отключение файлов cookie