Компания СЭА
× Компания Каталог Новости Вакансии Вход/авторизация Производители Контакты Доставка Тех. поддержка

Как ИИ может изучать человеческие предубеждения – и почему это важно для управления дорожным движением

  • 18.02.2025
  • 1993

Современные транспортные технологии активно развиваются, внедряя инновационные решения на основе искусственного интеллекта и машинного обучения. Однако эффективность этих систем во многом зависит от качества данных, которые они используют. Компания СЭА, производитель и разработчик программного обеспечения для WIM-систем, продолжает знакомить рынок с ключевыми вызовами и исследованиями, определяющими будущее транспортной отрасли. Одной из таких важных тем является проблема предвзятости данных в машинном обучении и необходимость установления единых стандартов для повышения точности и справедливости алгоритмов.

«Сейчас инженеры пишут код, но модели обучаются сами и создают собственные связи, которые остаются непрозрачными даже для самих разработчиков».

Данные в машинном обучении

Искусственный интеллект (ИИ) и алгоритмы машинного обучения (ML) способствуют появлению множества захватывающих инноваций в транспортной отрасли. Совершенствуясь, эти технологии могут повышать безопасность, улучшать доступность мобильности и обеспечивать более эффективное управление дорожным движением. Однако предвзятость в алгоритмах ML может привести к негативным последствиям — дискриминации, несправедливости и ненадёжным данным. В этом отрывке из будущей статьи, которая будет полностью опубликована в журнале Intertraffic World 2024, Лорен Дайсон общается с экспертами, чтобы исследовать, как можно предотвратить нежелательные последствия в сфере интеллектуального управления данными.

Решения в области транспортного планирования обычно принимаются на основе данных, полученных из различных источников — таких как подсчёт трафика, опросы и данные переписей населения.

«Транспортный сектор имеет долгую историю использования данных для разработки транспортных планов и стратегий», — подтверждает Питер Линдгрен, руководитель направления цифровизации транспорта в TRL. «Данные собираются в разных точках транспортной сети, например, через индукционные петли в дорожном покрытии, фиксирующие проезжающие транспортные средства. Планировщики объединяют эти данные с другими наборами, такими как переписи населения. Отрасль уже давно вынуждена работать с фрагментированными наборами данных. Люди создавали стратегии для работы с ними, но данные всё равно остаются несовершенными».

Появляются новые наборы данных, которые могут дополнять существующие — например, данные мобильных сетей, содержащие информацию о перемещениях людей. Из этих данных можно получить ценные выводы о том, где начиналась и заканчивалась поездка, а также какие виды транспорта использовались.

Помимо использования этих данных для транспортного планирования, их также можно применять для обучения интеллектуальных систем самостоятельному принятию решений. Машины используют алгоритмы и статистические модели для анализа и выявления закономерностей в данных. Большинство алгоритмов в транспортной сфере ИИ сегодня основаны на так называемом «контролируемом обучении», когда модель обучается на данных, которые уже размечены определённым образом.

Искусственный интеллект

«Алгоритмы компьютерного зрения — отличный пример», — отмечает Линдгрен. «Машине показывают миллионы изображений и видео, классифицированных человеком, и со временем она учится самостоятельно распознавать объекты. В автоматизированных транспортных средствах эти алгоритмы используются для идентификации объектов — пешеходов или других машин».

«Многие модели машинного обучения и статистики анализируют данные, чтобы делать выводы», — добавляет Марк Белл, старший статистик TRL. «Мы называем их обучающими данными, поскольку модель исследует информацию и выявляет взаимосвязи. Существует миф, что с ростом объёма данных проблема предвзятости становится менее значимой. На самом деле всё наоборот. Если обучающие данные содержат предвзятость, модель унаследует её, что повлияет на результаты».

В машинном обучении качество и точность модели зависят от качества исходных данных. «Если данные были неправильно классифицированы или смещены в сторону определённой демографической группы, модель этого не осознаёт», — объясняет Линдгрен. «Она делает выводы на основе полученных данных, поэтому результаты могут быть неточными или несправедливыми. Кроме того, эти модели постоянно обучаются, и даже если принимаются меры по снижению предвзятости, со временем она может проявляться снова. Это явление называется “дрейф модели” (Model Drift)».

Виды предвзятости данных

Существует несколько типов предвзятости, влияющих на качество алгоритмов машинного обучения:

  • Предвзятость выборки возникает, когда обучающие данные не представляют целевую совокупность. Например, если набор данных включает только информацию с мобильных телефонов, анализ охватывает только владельцев мобильных устройств.
  • Временная предвзятость возникает, когда данные смещены из-за конкретного периода времени. «Данные переписи населения — хороший пример», — говорит Линдгрен. «Перепись проводится раз в 10 лет, а последняя — в 2021 году, во время пандемии COVID-19. Один из ключевых вопросов: “Как вы обычно добираетесь до работы?” Поэтому набор данных отражает ситуацию именно того времени, когда передвижения были ограничены».
  • Предвзятость измерения появляется, когда способ сбора данных не является репрезентативным.
  • Предвзятость отбора возникает, если обучающие данные не были выбраны случайно или смещены в сторону определённого типа данных.
  • Географическая предвзятость — когда данные чрезмерно сосредоточены на одном регионе.
  • Демографическая предвзятость — когда данные не отражают реальную демографическую структуру. Она включает гендерную предвзятость, характерную для транспортной отрасли.

«Если наборы данных предвзяты к одной группе, они могут не учитывать потребности других», — поясняет Линдгрен. «Например, женщины чаще выбирают маршруты, где чувствуют себя безопаснее. Если наши системы этого не учитывают, их рекомендации могут быть непригодными для некоторых пользователей. Из-за этого такие группы могут не принимать технологии или относиться к ним с недоверием. Транспорт — важный фактор социального развития, поэтому важно, чтобы технологии были полезны всему обществу».

Снижение предвзятости данных

Важно осознавать возможность предвзятости в моделях машинного обучения и принимать меры для её минимизации. «Всё сводится к качеству данных и правильному подходу», — говорит Линдгрен. «Нужно следить, чтобы данные не содержали предвзятости или учитывать её влияние. А также важно, чтобы специалисты не вносили собственные — осознанные или нет — предубеждения».

Существует несколько способов сделать это:

  • Использование разнообразного обучающего набора данных. Это поможет модели изучить широкий спектр особенностей и сценариев. В транспорте часто не хватает разнообразных данных, поэтому Линдгрен рекомендует использовать аугментацию данных — метод, создающий множество вариантов на основе одного примера.
  • Предобработка и очистка данных. «Важно правильно готовить данные перед вводом в систему, применяя методы фильтрации и нормализации», — отмечает Линдгрен. (Подробнее о методах аугментации можно прочитать в Intertraffic World 2024.)
  • Использование справедливых метрик оценки. «Это поможет избежать предвзятости по отношению к отдельным группам людей», — добавляет Белл. Он также подчёркивает важность разнообразия команды разработчиков для предотвращения предвзятости на уровне проектирования.
  • Прозрачность разработки и постоянный мониторинг. «Необходимо регулярно проводить аудиты, чтобы выявлять предвзятость и подтверждать корректность работы модели», — говорит Линдгрен. «Даже после внедрения модель продолжает обучаться, поэтому важно отслеживать появление новых искажений. Систематическое применение лучших практик и адаптация к изменениям также играют большую роль».

Прозрачность данных

Белл считает важным понимать разницу между современными алгоритмами машинного обучения и классическими статистическими методами, особенно в контексте прозрачности.

«Статистическая модель обычно направлена на понимание взаимосвязей», — объясняет он. «Например, если нужно смоделировать связь между интенсивностью движения и количеством жертв ДТП (KSI), результат будет понятен: с ростом интенсивности ожидается рост KSI. Такая модель даёт объяснимый результат, который можно проверить на исторических данных».

«В машинном обучении акцент делается не на анализ взаимосвязей, а на точности прогнозов. Чтобы оценить качество алгоритма, его обучают, а затем тестируют на новых данных. Если модель хорошо справляется — это считается успехом».

Одна из главных проблем машинного обучения — не всегда ясно, почему модель приняла то или иное решение. «Их называют “чёрными ящиками”», — говорит Белл. «Если мы пытаемся понять, что происходит внутри, это непросто. Мы видим, что модель определила объект как пешехода, но не можем объяснить, почему. Машинное обучение может превосходить классические подходы, но из-за непрозрачности труднее выявлять возможные искажения».

«Важно стремиться понимать, как работают модели, уметь объяснять и оценивать их результаты», — добавляет Линдгрен. «Сейчас инженеры пишут код, но модели обучаются сами и создают связи, остающиеся непрозрачными даже для разработчиков».

Установление стандартов

TRL считает, что для преодоления предвзятости данных необходимо внедрить единые стандарты в области искусственного интеллекта и машинного обучения. «Единые стандарты позволили бы всем пользоваться лучшими практиками», — говорит Линдгрен. «Они обеспечили бы отправную точку для новичков и помогли бы избежать ситуаций, когда компании выбирают ошибочные пути из-за неосознанных искажений».

«Набор руководящих принципов важен уже сейчас и станет ещё важнее в будущем, когда объём данных и зависимость от них будут расти», — добавляет Белл. «Алгоритмы машинного обучения играют всё большую роль в процессе принятия решений, и проблема предвзятости становится особенно актуальной. Это усиливает необходимость строгих стандартов».

По материалам intertraffic.com

Похожие новости

Отзывов (0)
Незарегистрированные пользователи не могут добавлять отзывы.
Войдите или зарегистрируйтесь
Top