Суть задачи
Парсинг файлов формата DOC, XLS, PDF, выложенных органами власти в формат XML, отвечающий определенным требованиям, для их дальнейшей ручной обработки оператором. Этот подготовительный этап позволяет в дальнейшем повысить эффективность ручной работы примерно в 10 раз.
https://github.com/TI-Russia/declarator">пример файлов
Описание стурктуры файла на выходе представлено здесь: https://docs.google.com/document/d/1gekyiyD82dXnh4tsC9gVx8owtvGa8qGMaVKitrh2Euk/edit?usp=sharing
В качестве исходного файла могу предложить несколько вариантов.
Подведомственные учреждения Министерства промышленности и торговли РФ: http://declarator.org/office/view-file/17206/
Министерство строительства и ЖКХ РФ:
http://declarator.org/office/view-file/16467/
Сотрудники Центрального аппарата Минпромторга
http://declarator.org/document/21267/file/17352/2014_Sotrudniki_tsentral%27nogo_apparata.doc
Исходные файлы обсуждаются, если у вас есть тяга к какому-то региону/органу власти. Награда тоже 8)
Комментарии