Компанія СЕА
× Компанія Каталог Новини Вакансії Вхід/авторизація Виробники Контакти Доставка Тех. Підтримка

Як ШІ може вивчати людські упередження – і чому це важливо для управління дорожнім рухом

  • 18.02.2025
  • 146

Сучасні транспортні технології активно розвиваються, впроваджуючи інноваційні рішення на основі штучного інтелекту та машинного навчання. Проте ефективність цих систем значною мірою залежить від якості даних, які вони використовують. Компанія СЕА, виробник та розробник програмного забезпечення для WIM систем, продовжує знайомити ринок із ключовими викликами та дослідженнями, що визначають майбутнє транспортної галузі. Однією з таких важливих тем є проблема упередженості даних у машинному навчанні та необхідність встановлення єдиних стандартів для підвищення точності та справедливості алгоритмів.

«Зараз інженери пишуть код, але моделі навчаються самі та створюють власні зв’язки, які залишаються непрозорими навіть для самих розробників».

Дані у машинному навчанні 

Штучний інтелект (ШІ) та алгоритми машинного навчання (ML) сприяють появі низки захопливих інновацій у транспортній галузі. Удосконалюючись, ці технології можуть підвищувати безпеку, покращувати доступність мобільності та забезпечувати ефективніше управління дорожнім рухом. Однак упередженість у алгоритмах ML може призвести до негативних наслідків, таких як дискримінація, несправедливість і ненадійні дані. У цьому уривку з майбутньої статті, що буде повністю опублікована в журналі Intertraffic World 2024, Лорен Дайсон спілкується з експертами, щоб дослідити, як можна запобігти небажаним наслідкам у сфері розумного управління даними.

Рішення щодо транспортного планування зазвичай ухвалюються на основі даних, отриманих із різних джерел, таких як підрахунок трафіку, опитування та дані перепису населення.

«Транспортний сектор має давню історію використання даних для розробки транспортних планів і стратегій», — підтверджує Пітер Ліндгрен, керівник напряму цифровізації транспорту в TRL. «Дані збираються в різних точках транспортної мережі, наприклад, через індукційні петлі в дорожньому покритті, які фіксують транспортні засоби, що проїжджають. Транспортні планувальники поєднують ці дані з іншими наборами, такими як перепис населення. Галузь транспорту вже давно змушена працювати з фрагментованими наборами даних. Люди створювали стратегії для роботи з ними, але дані все одно залишаються недосконалими».

Зараз з’являються нові набори даних, які можуть доповнювати наявні, наприклад, дані з мобільних мереж, що містять інформацію про переміщення людей. З цих даних можна отримати цінні висновки про те, де могла розпочатися та завершитися подорож, а також які види транспорту були використані.

Окрім використання цих даних для транспортного планування, їх також можна застосовувати для навчання інтелектуальних машин самостійному ухваленню рішень. Машини використовують алгоритми та статистичні моделі для аналізу й виявлення закономірностей у даних. Більшість алгоритмів у сфері транспортного ШІ сьогодні базуються на так званому «контрольованому навчанні». Це означає, що модель навчається на основі даних, які вже певним чином позначені.

Штучний інтелект

«Алгоритми комп’ютерного зору – чудовий приклад цього», – зазначає Ліндгрен. «Машині демонструють мільйони зображень і відео, які вже були класифіковані людиною, і зрештою вона вчиться самостійно розпізнавати об’єкти. В автоматизованих транспортних засобах ці алгоритми використовуються для ідентифікації об'єктів, таких як пішоходи чи інші транспортні засоби».

«Багато моделей у сфері машинного навчання та статистики аналізують дані, щоб робити певні висновки», – додає Марк Белл, старший статистик TRL. «Ми називаємо це навчальними даними, оскільки модель досліджує інформацію й намагається виявити взаємозв’язки у певному наборі даних. Існує міф, що зі збільшенням обсягу даних проблема упередженості стає менш важливою. Насправді все навпаки. Якщо навчальні дані містять упередження, модель також їх успадкує, що вплине на результати».

У машинному навчанні якість і точність моделі залежать від якості вхідних даних. «Якщо дані були класифіковані неправильно або мають перекіс у бік певної демографічної групи, модель цього не усвідомлює», — пояснює Ліндгрен. «Вона робитиме висновки на основі отриманих даних. Тому результати можуть бути неточними або несправедливими. Крім того, ці моделі постійно навчаються, тому навіть якщо вживаються заходи для мінімізації упереджень, з часом вони можуть знову проявлятися. Це явище називається “дрейф моделі” (Model Drift)».

Види упередженості даних

Існує кілька типів упередженості, які можуть впливати на якість алгоритмів машинного навчання.

  • Упередженість вибірки виникає, коли навчальні дані не є репрезентативними для загальної сукупності або цільової вибірки. Наприклад, якщо у наборі даних є лише інформація, отримана від мобільних телефонів, це означає, що аналіз охоплює тільки людей, які мають мобільні пристрої.
  • Часова упередженість виникає, коли дані зміщені через конкретний часовий період. «Дані перепису населення – чудовий приклад цього», – зазначає Ліндгрен. «Перепис проводиться лише раз на 10 років, і останній відбувся у 2021 році, коли світ перебував у розпалі пандемії. Одне з ключових запитань у переписі – “Як ви зазвичай дістаєтеся на роботу?” Тож, природно, цей набір даних відображає лише ситуацію в той момент, коли COVID-19 суттєво обмежував пересування людей».
  • Упередженість вимірювання виникає, коли спосіб збору даних не є репрезентативним.
  • Упередженість відбору з’являється, якщо навчальні дані не були відібрані випадковим чином або мають перекіс у бік певного типу даних.
  • Географічна упередженість трапляється, коли дані надмірно орієнтовані на один регіон.
  • Демографічна упередженість виникає, коли дані не відображають реальну демографічну структуру населення. Вона включає гендерну упередженість, яка, за словами Белла, є притаманною транспортній галузі.

«Якщо набори даних упереджені щодо однієї групи, вони можуть не відповідати потребам інших», – пояснює Ліндгрен. «Наприклад, у плануванні маршрутів ми знаємо, що жінки часто відчувають себе безпечніше на певних шляхах і обирають інші маршрути, ніж чоловіки. Якщо створювані нами системи не враховують ці фактори, їхні рекомендації можуть бути непридатними для деяких груп населення. Через це ці групи можуть не приймати такі технології або ставитися до них із більшим скептицизмом. Транспорт – це один із ключових чинників соціального розвитку, тому важливо, щоб результати роботи моделей і технологій, які ми створюємо, були корисними для всього суспільства».

Зменшення упередженості даних

Важливо усвідомлювати можливість упередженості в моделях машинного навчання та вживати заходів для її мінімізації. «Все зводиться до забезпечення якості даних і правильного підходу», – каже Ліндгрен. «Йдеться про те, щоб у даних не було упередженості або щоб вона враховувалася. А також про те, щоб люди, які працюють із моделями, не накладали на систему власні — свідомі чи підсвідомі — упередження».

Існує кілька способів зробити це:

  • Використання різноманітного навчального набору даних. Це допоможе моделі ознайомитися з широким спектром особливостей і сценаріїв. Оскільки у сфері транспорту не завжди є достатня кількість різноманітних даних, Ліндгрен пропонує застосовувати аугментацію даних – метод, який дозволяє створювати велику кількість можливих варіантів на основі одного реального прикладу.
  • Попередня обробка та очищення даних. «Важливо правильно опрацьовувати дані перед тим, як подавати їх у систему, застосовувати відповідні методи попередньої обробки та очищення», – зазначає Ліндгрен. (Докладніше про методи аугментації даних можна дізнатися в Intertraffic World 2024).
  • Використання справедливих метрик оцінювання. «Це допоможе уникнути упередженості щодо певних груп людей», – додає Белл. Він також наголошує, що важливим фактором є різноманітність команди, яка працює над моделлю, щоб уникнути перенесення упередженості на рівні розробки.
  • Прозорість процесу розробки та постійний моніторинг. «Необхідно регулярно проводити перевірки та аудити, щоб виявляти упередження та переконуватися, що модель працює відповідно до задуму», – каже Ліндгрен. «Навіть після впровадження в експлуатацію модель постійно навчається, тому важливо стежити за тим, щоб нові упередження не проникали в систему. Систематичне застосування найкращих практик і їх адаптація до змін також має велике значення».

Прозорість даних

Белл вважає важливим розуміти різницю між сучасними алгоритмами машинного навчання та традиційними статистичними методами, особливо з точки зору прозорості.

«Статистична модель зазвичай спрямована на розуміння взаємозв’язків», — пояснює він. «Наприклад, якщо мене попросять змоделювати зв’язок між інтенсивністю руху на дорогах і кількістю загиблих або серйозно травмованих людей (KSI), модель буде досить зрозумілою: якщо інтенсивність руху зросте на певну величину, можна очікувати відповідне збільшення кількості KSI. Така модель дає конкретний і пояснюваний результат, який можна перевірити за історичними даними».

«У машинному навчанні основна увага приділяється не стільки кількісному аналізу зв’язків, скільки точності прогнозів. Щоб оцінити якість алгоритму, його інтенсивно навчають, а потім тестують на нових, невідомих даних. Якщо модель добре працює на цих нових даних — це вважається успіхом».

Одна з головних проблем у машинному навчанні полягає в тому, що не завжди зрозуміло, чому модель ухвалила те чи інше рішення. «Їх називають “чорними ящиками”», — каже Белл. «Якщо ми намагаємося розібратися, що відбувається всередині, це може бути непросто. Ми знаємо, що модель визначила об’єкт як пішохода, але не завжди можемо зрозуміти, чому саме. Машинне навчання може значно перевершувати класичні статистичні підходи, і в багатьох випадках це виправдано. Але через неможливість зазирнути всередину моделі важче оцінити та зрозуміти потенційні упередження».

«Важливо намагатися зрозуміти, як працюють моделі, уміти пояснювати та оцінювати їхні результати», — додає Ліндгрен. «Зараз інженери пишуть код, але моделі навчаються самі та створюють власні зв’язки, які залишаються непрозорими навіть для самих розробників».

Встановлення стандартів

TRL вважає, що для подолання упередженості даних необхідно впровадити набір стандартів у сфері штучного інтелекту та машинного навчання. «Єдині стандарти дозволили б усім отримувати вигоду від найкращих практик», — зазначає Ліндгрен. «Вони забезпечили б новачкам у цій галузі певну відправну точку. Крім того, стандарти допомогли б уникнути ситуацій, коли організації обирають шляхи, які спочатку здаються ефективними, але зрештою виявляються помилковими через неусвідомлені упередження».

«Набір керівних принципів є важливим уже зараз і стане ще важливішим у майбутньому, коли обсяг даних зростатиме, а наша залежність від них збільшуватиметься», — додає Белл. «Алгоритми машинного навчання відіграють дедалі більшу роль у процесах ухвалення рішень, тому питання упередженості стає ще актуальнішим. Це підсилює необхідність розробки суворого набору стандартів».

За матеріалами intertraffic.com

Схожі новини

Відгуків (0)
Незареєстровані користувачі не можуть додавати відгуки.
Увійдіть або зареєструйтесь
Top