Конвертация файлов doc/xls/pdf со сведениями о доходах чиновников в xml

Упоминание на сайте и/или в соцсетях

Парсинг файлов формата DOC, XLS, PDF, выложенных органами власти в формат XML, отвечающий определенным требованиям, для их дальнейшей ручной обработки оператором. Этот подготовительный этап позволяет в дальнейшем повысить эффективность ручной работы примерно в 10 раз.

пример файлов
Описание стурктуры файла на выходе представлено здесь: https://docs.google.com/document/d/1gekyiyD82dXnh4tsC9gVx8owtvGa8qGMaVKitrh2Euk/edit?usp=sharing

В качестве исходного файла могу предложить несколько вариантов.

Подведомственные учреждения Министерства промышленности и торговли РФ: http://declarator.org/office/view-file/17206/

Министерство строительства и ЖКХ РФ:
http://declarator.org/office/view-file/16467/

Сотрудники Центрального аппарата Минпромторга
http://declarator.org/document/21267/file/17352/2014_Sotrudniki_tsentral%27nogo_apparata.doc

Исходные файлы обсуждаются, если у вас есть тяга к какому-то региону/органу власти. Награда тоже 8)

Помощь нужна
Андрей Жвирблис

Андрей Жвирблис

Об организации / проекте

Трансперенси Интернешнл - Россия

Декларатор — единая база данных о доходах и имуществе российских чиновников. Мы собираем на одной платформе декларации должностных лиц, опубликованные разными органами власти на своих сайтах в разнообразных форматах, и переводим их в машиночитаемый формат. Эта работа предоставляет полезный инструмент для журналистов, общественных организаций, гражданских расследователей, помогает отслеживать случаи необоснованного обогащение публичных должностных лиц, осуществлять общественный контроль за чиновниками.

Проект создан и поддерживается Трансперенси Интернешнл — Россия при периодической помощи партнеров.

Комментарии
  1. Глеб Суворов
    Глеб Суворов /

    Андрей, пожалуйста приложите данные по количеству файлов разных типов и добавьте примеров заполнения файлов, что бы можно было определить наиболее популярные варианты.

  2. Андрей Жвирблис
    Андрей Жвирблис /

    Глеб, спасибо за вашу просьбу.

    К сожалению, точной статистики по количеству файлов разного типа нет. Сейчас на нашем проекте содержится более 30 тысяч файлов, из которых не более 10% были полностью обработаны вручную — следовательно, остальные требуют обработки, желательно с поддержкой в виде запрошенных программных решений. Все эти файлы не совсем разные, в целом их структура укладывается в определенную логику расположения информации (ФИО, должность, недвижимость в собственности и пользовании, транспортные средства, доход и расход), но каждый из них обладает особенностями, которые делают его почти уникальным. Вообще, подготовка статистики по типу файлов и размещению информации в них может быть отдельной, достаточно интересной и полезной задачей.

    Касательно этой, я создал специальный репозиторий на ГитХабе, в которой поместил несколько примеров файлов — как в формате Док, так и Эксель, а также описание структуры файла, как он должен быть в итоговом виде. Буду рад ответить на вопросы желающих заняться этой задачей:
    https://github.com/TI-Russia/declarator

Оставить комментарий
Присоединяйтесь к нам!
Вы заработали 10 очков опыта!