Открытые данные — основное сырье в работе активиста и неисчерпаемый источник информации, помогающий в борьбе с коррупцией. Как правильно ими пользоваться? (Укр.)
Відкриті дані в Україні — це основна сировина в роботі громадських активістів і невичерпне джерело інформації, що допомагає у протидії корупції.
Державні органи публікують дані у великих кількостях.
Здебільшого вони виглядають як таблиці з купою розрізненої інформації, яка не має великої цінності.
Лише після фахової обробки дані отримують справжню цінність і допомагають в антикорупційних розслідуваннях, створенні аналітики та нових інструментів.
Щоб обробляти дані належним чином, потрібні певні фахові навички. Ми хочемо поділитися корисними лайфхаками, які можуть допомогти у вашій діяльності.
Лайфхак №1. Офіційні сервіси — для підтвердження, а не для пошуку.
Працювати з державними реєстрами часто незручно: капча — “я не робот” — при кожному запиті, зависання реєстру, перевантаження сайтів у “гарячі” періоди, як це відбувалося з реєстром електронних декларацій. Державні реєстри справді не пристосовані для великої кількості одночасних запитів.
Приємніше використовувати інструменти, які збирають та “перетравлюють” державні дані. OpenDataBot швидко знаходить базову інформацію про юридичних осіб та судові рішення. YouControl пропонує карту зв’язків між юридичними особами та дає змогу перевірити контрагентів.
OpenDataBot і Youcontrol співпрацюють з журналістами та ГО, надаючи їм безкоштовний доступ до можливостей, за які комерційні установи платять.
Declarations.com.ua дублює дані з реєстру майнових декларацій, але додатково дає можливість повного пошуку. Наприклад, ви можете знайти всіх чиновників із задекларованими біткоїнами або з Ferrari чи Porsche. Для роботи із “сирими” даними на Declarations.com.ua можна скористатися потужним модулем аналітики.
Для остаточного підтвердження потрібно звертатися до офіційних державних реєстрів — у розслідуванні тільки така інформація може виглядати переконливо. Проте розвідувальний пошук за допомогою цих сервісів заощадить ваш час.
Лайфхак №2. Забудьте про Excel, працюйте у Google.
Більшість з нас уперше побачили таблиці й дані в MS Excel. Порівняно з ним Google Sheets має низку суттєвих переваг.
Перша — контроль внесених змін, що убезпечить від фатальних помилок.
Друга — можливість розв’язувати складніші завдання, ніж введення даних і підрахунок сум.
Третя — багато безкоштовних додатків, які розробляє спільнота користувачів. Наприклад, можна автоматично перевести адреси у географічні координати, здійснювати складніші маніпуляції з даними або статистичний аналіз.
Четверта — безкоштовність. Хоча в Україні досі використовують зламане платне програмне забезпечення, “злам” може загрожувати цифровій безпеці користувача. Це точно не те, що потрібно антикорупційним активістам.
При користуванні Google Sheets важливо пам’ятати, що обліковий запис слід надійно захистити. Варто використовувати складний пароль та двофакторну авторизацію. Утім, вони і так необхідні будь-якому антикорупційному активісту.
Лайфхак №3. Pdf — не кінець світу.
Якщо важлива інформація опублікована чи надана у форматі pdf, вона може бути двох типів: текстового та графічного. Текст у документах першого типу можна виділити та скопіювати, навіть якщо форматування не збережеться. У документах другого типу текст не виділяється і не копіюється.
У другому випадку справи погані: доведеться розпізнавати табличку у спеціальних програмах, а потім почистити дані руками. Аби витягнути таблиці з даними у першому випадку, існує багато мережевих сервісів. Просто шукайте extract tables from pdf, і якийсь з інструментів, виданих у результаті пошуку, точно підійде.
Якщо текст копіюється з pdf, він часто вставляється iз зайвими розривами. Щоб їх прибрати, використовуйте автозаміну у MS Word та його аналогах.
Лайфхак №4. Графіка — не тільки для дизайнерів.
Довгий час графіку могли створювати або дизайнери, що вміють робити красиві зображення “вручну”, або програмісти, які використовували код. Зараз з’являються програми, які дозволяють створювати картинки звичайним користувачам.
Безкоштовна офлайн-програма QGis дозволяє створювати інтерактивні мапи, Gephi — візуалізує зв’язки. В останній програмі також можна поглиблювати аналіз, наприклад, знайти найважливішу фігуру у мережі чи підгрупи у зв’язках. До онлайн-сервісів для візуалізації належать Rawgraphs.io, Carto, Plotly, Datawrapper.
Щоб внести фінальні штрихи у графік та брендувати його, використовуйте векторну графіку. Збережіть зображення у форматі svg, відкрийте цей файл у безкоштовній Inkscape або Adobe Illustrator і редагуйте графік: змінюйте колір, шрифти, розміщення елементів, додавайте заголовки, підписи, анотації.
Як і з іншими програмними продуктами, не бійтеся невдач на початку роботи. Краще перегляньте кілька відеоуроків та пошукайте способи вирішення ваших проблем в інтернеті. Тисячі людей до вас це вже робили та поділилися досвідом.
Лайфхак №5. Стежте за відкритими даними.
В Україні з’являються нові набори даних державних органів у гарному вигляді. У серпні реєстр юридичних осіб був доповнений даними власників та кінцевих бенефіціарів підприємств. У вересні був удосконалений сервіс API на сайті Є-Data.
Незабаром даних стане ще більше, зокрема, коли набере чинності нова редакція урядової постанови №835. Оновлена постанова має вдвічі більше наборів даних, які підлягають публікації. Можна також стежити за Telegram-каналом Textura.in.ua, де з’являються новини у сфері відкритих даних та їх візуалізації.
Спілкуйтеся з програмістами, аналітиками та активістами Open Data. На щастя, більшість цих людей, у тому числі ми у програмі “Прозорість і підзвітність у державному управлінні та послугах”, раді співпрацювати.
Думайте, які можливості для ваших розслідувань відкриє кожен новий набір даних. Навіть якщо вам бракує необхідних технічних навичок, ви обов’язково знайдете людей, які готові допомогти у суспільно важливій справі.
Колонка підготовлена за матеріалами та за сприяння агенції “Тексти”