Задача

Конвертация файлов doc/xls/pdf со сведениями о доходах чиновников в xml

11-е апреля 2016Открыто больше 4 лет назад0 откликов1239 просмотров
базы данныхпрограммирование
Упоминание на сайте и/или в соцсетях

Суть задачи

Парсинг файлов формата DOC, XLS, PDF, выложенных органами власти в формат XML, отвечающий определенным требованиям, для их дальнейшей ручной обработки оператором. Этот подготовительный этап позволяет в дальнейшем повысить эффективность ручной работы примерно в 10 раз.

пример файлов
Описание стурктуры файла на выходе представлено здесь: https://docs.google.com/document/d/1gekyiyD82dXnh4tsC9gVx8owtvGa8qGMaVKitrh2Euk/edit?usp=sharing

В качестве исходного файла могу предложить несколько вариантов.

Подведомственные учреждения Министерства промышленности и торговли РФ: http://declarator.org/office/view-file/17206/

Министерство строительства и ЖКХ РФ:
http://declarator.org/office/view-file/16467/

Сотрудники Центрального аппарата Минпромторга
http://declarator.org/document/21267/file/17352/2014_Sotrudniki_tsentral%27nogo_apparata.doc

Исходные файлы обсуждаются, если у вас есть тяга к какому-то региону/органу власти. Награда тоже 8)

Этапы

1Публикация
2Поиск
3В работе
4Закрытие
5Отзывы

Комментарии