Як досліджувати пропаганду за допомогою даних

17.05.2022

Навесні одні з найчастіших новин в українських медіа стосувалися загострення на фронті та стягування Росією військ до кордону з Україною.

Разом з новинами в російському медіапросторі вирував потік фейків та маніпуляцій на кшталт «Україна планує напасти на Донбас». Одна з тодішніх версій про те, до чого ж ця демонстрація зброї ― мовляв, Байден назвав Путіна вбивцею, і той так реагує. Проте та фраза прозвучала у березні, а підготовку інформаційного поля в Росії почали ще в лютому.

Як про це дізналися? Завдяки моніторингу пропаганди від Texty.org.ua. Розповідаємо, як працює цей напрямок видання, навіщо взагалі журналістика даних для дослідження пропаганди та ― як бонус ― коли з’явилося слово «соросята».

Що роблять «Тексти»

«Тексти» ― видання, що працює з журналістикою даних. Серед їхніх проєктів ― візуалізація змін політичних вподобань в Україні з 2006 року, аналіз складу Національної академії наук, вітчизняного ринку праці, забудови Києва та зміни освітлення на окупованих і вільних територіях за час війни.

Однак головну нагороду у царині журналістики даних ― Sigma Awards ― видання отримало торік за роботу над російською пропагандою та дезінформацією.

Нагородили проєкт Topic Radar, зроблений на основі моделей машинного навчання, що складається з трьох частин: щотижневі моніторинги російської пропаганди, створені на їхній основі дайджести та застосунок для браузера, а також Telegram-бот «Фейкогриз», що попереджає про маніпулятивні новини.

«Ми жартуємо, що вже самі могли б влаштуватися на ті пропагандистські сайти й писати для них новини», ― сміється Петро Боднар, один з трьох учасників команди, яка працює з дезінформацією й пропагандою.

Крім нього, у команді Юлія Дукач і Юрій Малахов. Надія Романенко, що одна з перших взялася за цей напрямок, видання вже покинула, хоча «Тексти» досі використовують створені нею інструменти.

«Наша найбільш регулярна активність ― щотижневі моніторинги», ― розповідає Петро Боднар. Окрім моніторингів, команду або окремих людей з неї залучають до створення великих окремих проєктів ― наприклад, про аудиторію (про)російських медіа в Україні або пошуку тролів у мережі Facebook-груп. З останнього проєкту власне і почався регулярний моніторинг медіа. Петро Боднар пояснює: «Немає сталої процедури, кого і куди залучають. Ми давно цим займаємося, тому хтось просто включений більше у певну тему ― наприклад, я мало працюю з темою пандемії, але багато з міжнародною політикою та військовою тематикою».

Як це працює

В основі проєкту ― щотижневі моніторинги російської пропаганди. На їх основі потім пишуть звіти й окремі матеріали, що розповідають про вужчі явища (наприклад, про те, як розпізнавати російську пропаганду у новинах про українські проблеми або ж які є напрямки російської пропаганди про Захід).

Моніторинг працює на основі програми, яка збирає новини з RSS-стрічок медіа ― тобто інтерфейсу для програм, а не для користувачів. Вона запускається автоматично щокілька годин і працює цілодобово. У базі є сотні сайтів, які аналізує програма ― від українських Liga.net чи LB.ua до російських Lenta.ru та маргінальних на кшталт «Фронт Новороссии». Деякі з них заблоковані в Україні, але потрапляють у дослідження. Також для моніторингу використовують дописи ста Telegram-каналів ― для цього мають спеціальну окрему sim-карту й використовують функцію завантаження повідомлень, що доступна всім у застосунку.

Зібрані новини потрапляють до спеціальної програми для зберігання, відтак добірку новин за тиждень аналізують. Оскільки їх тисячі, використовують алгоритми.

«Ми маємо два великі технічні засоби, ― говорить Петро Боднар. ― Перший ― наша так звана «модель маніпуляції», що визначає типові пропагандистські або емоційно незбалансовані новини. Передусім вона добре вловлює новини штибу «каратели убивают детей». Завдяки їй можна відділити подібні релевантні для нас новини від звичайної кримінальної хроніки, наприклад».

Другий інструмент на основі машинного навчання обирає новини, що стосуються політики й економіки. Модель працює на основі нейронних мереж і перетворює текст новини на числову формулу, за якою можна зрозуміти, чи стосується текст політики. Це працює не за словами-маркерами: враховуються різні властивості тексту, значення слів, зв’язки між словами та реченнями, тональність тексту тощо.

«Є певна кількість новин-прикладів, для яких відомо, чи стосуються вони політики й економіки, і нескінченна кількість новин, для яких це ще не відомо, ― пояснює Петро Боднар. ― Ми перетворюємо текст у довгий ряд чисел. І використовуємо нейронну мережу, яка підбирає формулу, що трансформує ряд чисел в одну цифру — від 0 до 1. Якщо отримане число буде ближчим до 0 — ймовірно, новина не стосується політики й суспільного життя, а якщо ближче до 1 — навпаки: є великі шанси, що новина саме про політику чи суспільне життя».

Найпростіший спосіб для такого перетворення, на якому будуються складніші розрахунки «Текстів» ― модель bag-of-words («торба слів»). У сукупності новин рахують частоту використання кожного слова, відтак слова отримують номера за частотою використання, які потім виставляють як ряди чисел, «зашифровуючи» так кожну новину. Цей числовий ряд називають вектором, і після певних перетворень він виглядає як ряд одиниць і нулів. Уже потім вектор, пройшовши через нейронну мережу, видає фінальну відповідь «1» або «0» ― і новина або потрапляє до моніторингу, або ні.

До відібраних новин застосовують метод topic modelling, тобто «моделювання тем». Процедура також автоматизована ― пул новин, про які практично нічого не відомо, розподіляються за темами й групами. Як результат, команда має список тем за тиждень. Для перевірки всього процесу моніторять вибірку новин з різних тем ― тут уже за справу беруться не машини, а люди. Деякі теми, близькі по суті, об’єднують ― наприклад, пропагандистські новини про міжнародну політику. Деякі виявляються нерелевантними й до уваги під час моніторингу їх не беруть.

«Іноді може бути багато різних тем, іноді одна поглинає половину інформації ― так було, наприклад, з ковідом. Ми це робимо доволі давно і вже знаємо, чого можна очікувати ― наприклад, про той же коронавірус схожі речі писали місяцями», ― говорить Петро Боднар.

Перечитавши вибірку, команда створює конспект з ключовими моментами та цитатами, звіт за тиждень і переклад англійською. На основі цих даних також створюють дашборд з графіками, де за простим пошуком можна знайти інформацію про пропаганду на задану тему ― наприклад, «Стерненко», «Sea Breeze» або «НАТО». На основі цих даних команда також створює окремі матеріали ― наприклад, уже згадуваний у вступі текст про загострення на фронті та стягування Росією військ до кордону.

«Ми створюємо десятки поточних публікацій. Інформації багацько, тому треба багато сил і часу на те, щоб виокремити найбільш актуальне і важливе», ― говорить Петро Боднар.

Помітити непомітне

«Очевидно, значна частина людей, що переглядають результат нашої роботи ― це довколаекспертне середовище, ― каже Петро Боднар. ― З нашими даними працюють громадські організації, урядові структури, міжнародні партнери України, їх також використовують у студентських роботах. Є певні спалахи активності ― наприклад, цікавилися нашими даними більше, коли відбувалися кампанії щодо вакцин або ж обговорювали План дій щодо членства України в НАТО».

Також дані використовують у звітах і матеріалах Офісу зв’язку українських аналітичних центрів у Брюсселі, видання «Детектор Медіа», Promote Ukraine, міністр закордонних справ Дмитро Кулеба, політолог Андреас Умланд, Вікторас Даукшас, голова аналітичного центру з дезінформації DebunkEU.org.

Петро Боднар каже, що команда не оцінює написаного, а показує ландшафт і дає аудиторії вибір: чи вірити в те, хибність чого доведена. Наприклад, до відвертої брехні завжди додають спростування, до маніпуляції ― контекст.

«Що ж до глобальної користі, то ми робимо дві речі, ― пояснює він: ― по-перше, показуємо картину, бо ніхто не може перечитати самостійно тисячі новин за тиждень, а по-друге, зберігаємо всі ці речі на майбутнє. Так, ми знаємо завдяки цьому, що тему про «біолабораторії США» закидають ще з 2011 року. Першим це почав робити «Український вибір» Медведчука, а подібні маніпуляції були в Грузії та Молдові. Або ж слово «соросята» ― у 2019-2020 роках воно вистрілило, але до того було на маргінальних сайтах. А з’явилося взагалі в 1990-их в одному російському блозі в LiveJournal. Так само ми бачимо кампанії з дискредитації ― наприклад, багато ресурсів кидають на очорнення однієї людини, а решті потім приписують з нею зв’язок — наприклад, так робили з Уляною Супрун».

За допомогою журналістики даних пропаганду можна оприявнити ― буквально. Графіки показують, як лінійно розвиваються кампанії, коли російська пропагандистська машина починає просувати свою повістку. Хоча загалом виміряти абстрактний вплив пропаганди ― це певною мірою непосильне завдання.

«Помітно, що пропагандистська машина докладає сил для того, щоб переконати аудиторію: світ страшний, а ви в ньому маленькі, нікому й нічому не можна вірити, все відносне і небезпечне», ― говорить наостанок Петро Боднар.

Та відомо: побачене «невідоме» стає вже менш страшним ― й оприявнена на графіку пропаганда теж певною мірою втрачає вплив.

Матеріал створений у рамках проєкту Львівського медіафоруму, який співфінансується урядами Чехії, Угорщини, Польщі та Словаччини через Вишеградські гранти від Міжнародного Вишеградського Фонду / International Visegrad Fund. Місія фонду полягає у просуванні ідей щодо сталого регіонального співробітництва в Центральній Європі. Погляди, викладені у цьому матеріалі, належать авторам і не відображають офіційну позицію Міжнародного Вишеградського Фонду.

Головне зображення: Max Muselmann

Автор Оксана Расулова

Джерело: MediaLab

Потрійна травма

Чому редакціям потрібна політика цифрової безпеки