You are browsing the archive for Boyan Yurukov.

Външно министерство с подвеждащи тарифи за достъп до информация

- November 6, 2012 in външно министерство, данни, достъп до информация, такси, цени

Отскоро Външно министерство е с нов сайт. На него освен информация за пътуващите в чужбина, плащанията на СЕБРА и страници за консулствата има и подробно описание на процедурата за получаване на информация. Интересен е последния параграф, снимка на който виждате горе. В него се описват тарифите, които трябва да се заплатят, за да се получат данни от министерството. В закона за достъп до информация не се споменава нищо за такси освен, че се уточняват допълнително. Подвеждащото в страницата на Външно е, че говорят за заповед на Министерството на финансите от 10.01.2011. Такава заповед няма. Има обаче заповед от 10.01.2001, която ще намерите в линка им. В нея се забелязват няколко съществени цени:
  • електронна поща – 1 МВ – 0,30 лв.; заплаща се всеки започнат мегабайт и се използва за информация, съществуваща в електронен вид;
  • ксерокопие – една страница (А4) – 0,09 лв.
  • устна справка – за 15 минути – 1,50 лв.
… Проблемът с този ценоразпис е, че че е отменен със заповед № ЗМФ-1472 от 29 ноември 2011 г.. В нея се запазват част от цените, но се премахва напълно заплащането при получаване на справка по мейл или устно. Това е много съществена разлика. Абсолютно нормално е при такива искания да се покриват разходите за ксерокс и разпечатване. При мейл и устните справки обаче няма никакви странични разходи. Възможно е тук да става дума за грешка при изготвянето на новия сайт. За жалост не открих нито обществена поръчка, нито съобщение кой го е създал. Надявам се обаче, че този пропуск ще бъде отстранен скоро от министерството. Той им позволява да искат такси за безплатни услуги. Важен ефект е и че виждайки ценоразписа, желаещите да упражнят правото си на достъп може бързо да се откажат. Този пропуск за жалост е симптоматичен в информационните системи на институциите. Масово се пропуска информация за достъпа до информация или се объркват лицензите на сайтовете. Последното е доста интересен казус, защото често министерства, агенции и комисии посочват всичко в сайтовете си като “запазено авторско право”. Това, разбира се, не е правилно. В същото време, е все още масова практика да се отказва достъп до информация в противоречие на закона или просто не отговарят. Повече по темата ще намерите в докладите на ПДИ.

Отворени данни: фирми регистрирани по ДДС

- October 26, 2012 in bulgaria, Business, opendata, vat, българия, ддс, карта, отворени данни, регистрация, фирми

Карта с концентрацията на фирми регистрирани по ДДС

Карта с концентрацията на фирми регистрирани по ДДС

НАП предоставя възможност на всеки да се абонира за актуалния списък на фирмите регистрирани по ДДС. Всеки ден рано сутринта изпращат мейл, в който има линк с код. С този линк може да свалите последната версия на този списък. Има ограничения обаче – може да използвате линка само 5 пъти, не може да намерите исторически данни и ако искате редовно да имате най-новите данни, трябва всеки ден да сваляте по 13 Мб ZIP файл с всички фирми. Както може би знаете, Търговския регистър не е съвсем отворен. Така списъка с фирми регистрирани по ДДС е един от малкото източници за информация за фирмите у нас. В него има информация за БУЛСТАТ-а, името, адреса, кога са регистрирани и кога са отрегистрирани по ДДС. На http://opendata.yurukov.net/business ще намерите тези данни в отворен формат. Освен, че се свалят ежедневно и се оправя кодировката от windows-1251 на UTF-8, извежда се списък с разликите между списъците ден за ден. Така може да се прецени кои фирми са добавени, които изтрити и кои са променени. За целите на статистиката може да разпознаем като променени само тези фирми, които са си запазили БУЛСТАТ-a (т.е. променили са си името или адреса). Пререгистрацията на фирми е трудна да се засече и изисква данни от ТР. Отварянето на този списък от 350000 фирми предоставя интересни възможности. На страницата горе ще намерите три примерни графики. Първата виждате в началото на статията и представлява интерактивна карта, в която размерът на балоните показва броя фирми регистрирани по ДДС в дадения град. Тази карта показва около 93% от фирмите. Другите 7% са разпределени из около 20000 села. Когато увеличите картата, по-големите балони (градове с над 2000 фирми) се превръщат в piechart показващ колко фирми са регистрирани за пръв път през коя година.
Подробни графики с фирмите по години при увеличение на картата

Подробни графики с фирмите по години при увеличение на картата

Втората графика в страницата показва броят добавени, изтрити и променени фирми през всеки изминал ден. Данните се обновяват автоматично всеки ден като процесът започна едва наскоро.
Промени в списъка на фирмите регистрирани по ДДС

Промени в списъка на фирмите регистрирани по ДДС

Третата графика показва регистрациите на фирми разпределени по месеци. Както @NikolaiMinev спомена в Twitter, пикът през 2009-та е заради задължението търговците на цигари да се регистрират по ДДС. Тук е важно да се спомене, че датите упоменати в списъка с фирми показват последната регистрация на фирмата по ДДС. Те не показват кога фирмата е създадена или дали е била с друго име и БУЛСТАТ преди това и също е била в списъка.
Регистрирани фирми по месеци

Регистрирани фирми по месеци

Всички данни може да свалите от страницата http://opendata.yurukov.net/business. Използвайте ги свободно и ни покажете идеите и приложенията, които се направили с тях.

Отворени данни: актовете на съдебната система

- August 10, 2012 in court orders, opendata, актове, мотиви, съд, съдебна система

След поредицата от скандали в съдебната система, решихме да вмесем поне частица яснота. Всеки ден в съдилищата из страната се водят хиляди дела. За жалост данните за тези дела не са достъпни в мрежата, но се оказва, че актовете от тях са публични за повечето съдилища. Затова решихме да свалим всички и да ги предоставим свободно в мрежата за анализ. Макар повечето актове да могат да се намерят на сайта на justice.bg, там може да се намират само по 1000 акта наведнъж и възможността за сложни справки почти липсва. За целта ни трябват всички актове като отворени данни. Към 5-ти август 2012 имаме вече 580049 акта и 607656 документа (някои от тях мотиви). Свалянето на актовете се правеше автоматично, но с такава честота, че да наподобява работа на обикновен потребител. Целта беше да не претоварим сървърите на съдебната система. Така свалянето отне около 3 седмици. На този сайт ще намерите данните в  две части – мета данни и документи. Мета данните съдържат номер и тип на делото, съдия и съдебен състав, тип и дати на актове и мотиви, дали делото е предадено на горна истанция, дали има свързани дела и прочие. Тази информация се съдържа в SQL база данни. В таблици са отделени имената и местоработата на съдии и съдебни състави (общо 3789), като всеки от тях е свързан с издадените актове (общо 1152969 връзки). Тази структура позволява по-лесно изготвяне на справки. Втората част от данните са самите документи. На сървърда на justice.bg те са предимно HTML и DOC файлове с общ размер 21Gb. За да се намали размера им и да са по-лесни за анализ, само текстовата информация беше извлечена като параграфите бяха запазени. Това намали размерът на документите до 10G (~ 2.1Gb zip). В този си вид те са говори за text mining. В архива те са подредени по години и месеци на издаване. Имената им се състоят от номера на акта и a/m в зависимост дали става въпрос за акт или мотив. Например, файлът в 2000/12/430449_a.txt е издаден през декември 2000, отнася се до акт с номер 430449. Тъй като размерът на архива с документи е доста голям, моля пишете ни, за да ви пратим линк. Контактите ни са в страницата на данните. Качеството на данните е друг важен въпрос. Открихме, че някои актове липсват е системата. Пример за това е, че има само два акта на ВАС и ВКС. При ВАС може да се намерят актовете на техния сайт (където е много трудно да се извлекат), но не и в централната система. Мета данните имаха очевидни грешки при 19 акта – предимно дати на издаване. При 80 други акта документите са развалени. Възможно е да има още от тези 600000 документа, при които автоматичният анализ да не е хванал грешки, но нямаме възможност да прегледаме всички. Ако откриете такива, моля пишете ни, за да ги оправим. Данните са актуални към края на юли 2012. Подготвяме механизъм за автоматично ежеседмично обновяване на последните качени актове. В тези случаи ще предоставяме само обновления на базата данни и архива с документи. Ако имате интерес към обновления или искате да анализирате данните, моля пишете ни. Ето няколко графики изготвени от бързи справки в данните.