Гибридная схема настройки рекомендаций и товарного предложения в современной цифровой средеРекомендательные системы широко используются на многих популярных сайтах электронной коммерции, чтобы помочь пользователям находить продукты, которые им могут понравиться. Хотя в этой области достигнуто многое, большинство рекомендательных систем предназначены для работы поверх централизованных платформ, которые традиционно поддерживаются фиксированной инфраструктурой.

Электронная коммерция, наряду с другими интернет-сервисами, такими как электронная почта, социальные сети и потоковое мультимедиа, естественным образом согласуется с сетями, устойчивыми к задержкам, поскольку не требует короткого времени прохождения туда и обратно и является асинхронным. Однако для того, чтобы электронная коммерция была жизнеспособной в среде, устойчивой к задержкам, важно свести к минимуму количество взаимодействий запросов/ответов, которые происходят во время взаимодействия пользователя с сервером. Чтобы решить эту проблему, на пользовательские устройства необходимо перенести больше вычислительных задач, включая перемещение кода (например, отображение форм заказов) и данных (например, каталогов покупок). Приняв этот подход, пользователи могут легко просматривать продукты и сравнивать цены, не завися от доступности сервера. Более того, они становятся невосприимчивыми к задержкам и перебоям, вызванным перегрузкой сетевой инфраструктуры.

Рекомендательные системы предоставляют персонализированное и автоматизированное решение, для устранения информационной перегрузки. Эти программные инструменты помогают пользователям перемещаться по огромным каталогам продукции, анализируя их предпочтения и рекомендуя товары, которые с большей вероятностью вызовут интерес. Хотя рекомендации обычно используются в электронной коммерции, их применение распространяется и на другие области, такие как здравоохранение (например, прогнозирование побочных эффектов лекарств), социальные сети (поиск друзей), туризм (направления для путешествий), электронное обучение (рекомендации полезных учебных материалов или курсов), музыка (плейлисты по предпочтениям пользователя) или информационные системы питания (рецепты, здоровое питание, рестораны, кафе).

Система работает, принимая в качестве входных данных набор пользователей с их профилями интересов, чтобы создать рекомендуемое подмножество элементов для каждого. Этот процесс состоит из трёх этапов, а именно:

1) этап сбора информации;
2) машинное обучение;

3) этап прогнозирования

Первый шаг может быть достигнут явными или неявными средствами. Явный сбор включает в себя просьбу к пользователю предоставить конкретные сведения о себе, включая демографические характеристики (имя, возраст и род занятий) в совокупности с личными предпочтениями (интересы, хобби, места и характер проведения досуга). Хотя этот подход потенциально может дать надёжную информацию для выработки высококачественных рекомендаций, дополнительная информационная нагрузка, нехватка времени или проблемы конфиденциальности могут привести к тому, что многие пользователи пропустят или вообще избегнут участвовать в этом процессе.

Кроме того, из-за своей моментальной природы этот подход не может отразить динамический характер пользовательских предпочтений с течением времени. А вот скрытый (неявный) сбор информации не требует от пользователей выполнения дополнительных задач. Вместо этого, профили интересов автоматически определяются путём наблюдения за поведением человека, например, за историей его покупок и навигации, переходами по ссылкам или временем, потраченным на изучение определённого контента. Методы неявного сбора менее обременительны для пользователей, но они полагаются на значительное количество взаимосвязей, для точного определения пользовательских предпочтений. Но самое главное, такой сбор информации не только требует повышенного объёма носителей хранения данных, но и задействует значительные ресурсы центров обработки данных, для сегментации, фильтрации, сопоставления и каталогизации этого массива информационных потоков.

На втором этапе, известном как этап обучения, система обрабатывает собранную информацию о пользователе для извлечения соответствующих функций или атрибутов. Эти извлечённые функции затем используются для создания профилей пользователей, посредством методов интеллектуального анализа или машинного обучения. На заключительном этапе, известном как этап прогнозирования и рекомендаций, система использует сгенерированные профили с предыдущего шага, для оценки уровня интереса, который может иметь каждый пользователь к конкретным элементам (рекламным объявлениям, карточкам товаров, анонса мероприятий и т.п.). На основе доступной информации можно использовать различные методы фильтрации. Один из простых и понятных методов — ранжировать элементы в соответствии с их прогнозируемыми рейтингами, выбирая лучший из них. Среди всех подходов существуют два, хорошо известных и зарекомендовавших себя, метода — это фильтрация на основе контента и совместная фильтрация.

Фильтрация на основе контента рекомендует предложения путём анализа свойств ранее оценённых и промаркированных элементов, при создании индивидуальных профилей. Сопоставления уровня интереса человека к новому элементу определяется посредством измерения сходства между профилем пользователя и характеристиками предложения (как правило, рекламного характера). Таким образом, чёткое представление профилей пользователей играет центральную роль в фильтрации на основе контента.

Векторно-пространственная модель- это самое простое и наиболее часто используемое сопоставление профилей, при фильтрации на основе контента. Это метод, основанный на статистических терминах, представляет содержимое документов (контента) как векторы взвешенных терминов. Аналогично, профили пользователей также представлены как векторы, отражающие предпочтения. «Вес», присвоенный каждому ключевому слову, означает его важность для представления документа или профиля пользователя.

Использование контентной фильтрации в рекомендательной системе даёт несколько преимуществ:

• Независимость: такой тип фильтрации опирается исключительно на характеристики ранее оценённых товарных категорий, при формировании профилей пользователей. Поэтому для выдачи рекомендаций конкретному человеку не требуются данные других людей.

• Прозрачность: рекомендации, сделанные посредством применения этого фильтра, можно легко объяснить, изучив функции, которые способствуют включению элемента.

Однако фильтрация по контенту также имеет некоторые недостатки, которые следует учитывать:
• Ограниченный анализ контента: метод требует достаточной информации о функциях или описаниях элементов для их точного представления. Следовательно, содержимое каждого элемента должно обладать определённым уровнем разнообразия, чтобы обеспечить точное создание профиля пользователя и последующую рекомендацию.

• Чрезмерная специализация: поскольку фильтрация на основе контента предлагает элементы, аналогичные ранее оценённым, она может не иметь возможности предоставлять неожиданные или новые рекомендации. Это явление, известное как «проблема счастливой случайности», ограничивает возможности системы по выработке весьма разнообразных предложений.

• Нехватка информации: фильтрация основана на сборе достаточного количества оценок, чтобы лучше понять интересы пользователя. Следовательно, системе может быть сложно предоставить надёжные рекомендации, когда системе доступно ограниченное количество действий человека в сети.

Система делает прогнозы и рекомендации, учитывая рейтинговые данные других пользователей в системе. Он основан на предпосылке, что, если пользователи демонстрируют схожие модели поведения в определённых сетевых средах, они, вероятно, будут демонстрировать аналогичные предпочтения в отношении продукции, предпочтений, интересов. И не только в настоящий момент, но и в ближайшем будущем. Среди различных подходов к совместной фильтрации алгоритмы на основе памяти используют исторические данные рейтинга для установления сходства между элементами или пользователями. Чтобы облегчить этот процесс, строится матрица рейтингов пользователей и элементов, в которой хранятся оценки, предоставленные пользователями для доступных элементов. Совместную фильтрацию на основе памяти можно разделить на две категории: подходы «пользователь-пользователь» и «элемент-элемент».

Совместная фильтрация между пользователями — этот подход напрямую наследует основное определение совместной фильтрации. Оценки, предоставленные похожими по поведению людьми, затем используются в качестве основы для создания прогнозов и рекомендаций для целевого пользователя.

Тип «элемент-элемент» по своей общей структуре напоминает ранние версии фильтров на основе содержимого. Однако при совместной фильтрации элементов сходство между ними определяется их рейтинговыми историями. В частности, если два элемента нравятся или не нравятся одной и той же группе пользователей, они считаются похожими. Но этот принцип требует наличия функции сходства для его оценки между двумя элементами. Также требуется метод генерации прогнозов на основе этих сходств и рейтингов. Устраняется необходимость в контент-анализе, что означает отсутствие надобности в создании языковых моделей, анализе документов или предварительной обработке текста. Это не только экономит драгоценное время, но и сохраняет ценные ресурсы, а также упрощает процесс профилирования. Гибридный подход позволяет избежать сложности взвешивания терминов и определения их значимости для представления интересов пользователей.

Совместная фильтрация тоже имеет ряд недостатков:
• Разреженность данных: люди обычно оценивают лишь небольшую часть доступных элементов, в результате чего получается матрица с множеством пропущенных значений. Эта проблема становится более заметной при попытке рекомендовать товары пользователям с очень небольшим сетевым опытом или рейтингом.

• Проблема «холодного запуска» при работе с новыми пользователями или новыми элементами. Для новых пользователей, которые не оценили ни одного элемента, изучили мало контента, не одобрили сбор куки-файлов, системе сложно найти похожих пользователей для эффективных рекомендаций. Аналогично, если появляется новый товар, системе не хватает данных, чтобы рекомендовать его любому подходящему пользователю.

• По мере роста числа пользователей или продукции, гибридный тип обработки информации сталкивается с ограничениями масштабируемости. Для хранения профилей и матрицы рейтингов пользователей требуется больше памяти. Кроме того, время обработки значительно увеличивается, поскольку необходимо проанализировать больше данных для создания прогнозов по каждому пользователю.

Гибридные алгоритмы направлены на повышение производительности и использование сильных сторон различных методов, путём их объединения и функциональности. Но надо учитывать, что модели, разработанные для традиционных сред, сталкиваются с проблемами при внедрении в оппортунистические сети, в первую очередь из-за отсутствия центрального субъекта. Чтобы преодолеть это ограничение, необходимо изменить этапы, с учётом динамического характера распределённой сети. В оппортунистических сетях ответственность за генерацию распределяется между всеми участвующими узлами. Каждый узел имеет локальную систему, которая обрабатывает фазу прогнозирования для своего активного пользователя. Фаза сбора информации также реализуется распределённым образом, когда каждый узел собирает необходимые данные, и сохраняет их в локальной БД. Каждый узел также обрабатывает этап обучения активного пользователя, используя доступные массивы из этой локальной базы данных.

от Avtor

Добавить комментарий