[okfn-bg] Данни за катастрофите от МВР и КАТ
Boyan Yurukov
yurukov at gmail.com
Sat Sep 15 18:15:15 UTC 2012
Не, не го знам, но ще го разгледам. Знам, че има няколко платформи за
crowdsourcing на различни теми, но ми се стори, че ако напиша свое
приложение ще е по-бързо.
Иначе данните от архивите на МВР са готови. Изчистих доста несъответствия и
сега ги вкарвам в базата данни. Открих и много интересни таблици със
статистика по различни аспекти на катастрофите - по часове на деня, по
причини, по месеци, брой жертви, брой ранени и т.н.
http://dokkpbdp.mvr.bg/Statistics/default.htm
Само статистика е, но ще е интересна за правене на инфографика. Има отново
данни от 2004-та. В този смисъл dataset-а, който изчистих помага само с
това, че представя данните по дни. За жалост имаше много грешки в него и
около 160 изпуснати дни, които възстанових с интерполация. Ще пусна и данни
с графика колко точни са данните и къде има промените. Само трябва да си
събера мислите.
Боян
2012/9/15 Velichka Dimitrova <velichka.dimitrova at okfn.org>
> Здравей,
>
> Мисля че това е много интересна идея, виждам че има няколко важни причини
> и ползи са се отворят тези данни:
>
> - може да се направи статистика за локализиране на най-проблемните
> райони, където най-често стават катастрофи. Мога да си представя, че КАТ си
> знаят горе долу къде стават най-много катастрофи, но едва ли водят
> статистика с гео-данни.
> - може да се направи анализ на данните възоснова факторите, които може
> да са допринесли за катастрофата
>
> Мисля че идеята за crowd-sourcing е супер интересна - аз за съжаление не
> познавам добре София и не мога да допринеса много със задачите за
> локализиране.
>
> Предполагам че познаваш PyBossa - http://pybossa.com/ - твоята програма
> ми напомня на Urban Green Parks..
>
>
> 2012/9/13 Boyan Yurukov <yurukov at gmail.com>
>
>> Здравейте всички,
>>
>> Отново ме хванаха лудите и реших да отворя данните за катастрофите. За
>> целта съм направил един cronjob, който scrape-ва всеки ден една страница на
>> КАТ София. В нея има доста информация за катастрофите в столицата -
>> причини, брой, местоположение, ранени и т.н. Всичко се записва в база
>> данни. Изчаквам да се съберат малко данни, за да уеднаквя категориите за
>> причини и ранени и ще пусна всичко като Excel таблици, SQL dump и KML файл.
>> Ето тук съм писал повече за проекта:
>> http://yurukov.net/blog/2012/09/09/katastrofite-v-sofiq/
>> Един от проблемите на данните е, че адресите на тежките катастрофи са
>> почти невъзможни за геопозициониране с Google услугите. Трябва наръка да се
>> наместват на картата, а за някои - човек да е запознат със София. Затова
>> направих този crowdsourcing инструмент за събиране на предложения къде са
>> адресите:
>> http://opendata.yurukov.net/kat/crowdsource.php
>> Алгоритъма е описан в коментарите, но накратко всеки си дава twitter или
>> собствено име и слага отметки къде според него са адресите на картата.
>> Всяка вечер се изчисляват средните местоположения и се начислява доверие
>> към потребителите в зависимост от това колко близо са до средната точка.
>> Колкото повече доверие има, толкова неговото предложение се зачита. Ако има
>> голямо отклонение между предложенията (средно над 50 метра), получавам мейл
>> и отсъждам. Така се изгражда индекс на доверие към всеки участник в проекта.
>>
>> Разбира се, идва и въпросът защо само София. Причината е, че в повечето
>> други управления на КАТ данните са скрити в свободен текст в ежедневните им
>> бюлетини. При това там често обявяват само "характерни" случаи, а не
>> всички. Затова данните са още по-ненадеждни и трудни за индексиране. Има
>> обаче друг начин - намерих в страницата на МВР ежедневни доклади за
>> катастрофите и жертвите в цяла България. За разлика от тези на КАТ, тук има
>> исторически данни от средата на 2004-та до сега. Свалих всички и ги
>> индексирах. общо 3000 документа. В последните няколко години освен цифри за
>> катастрофите има и описание на блокирани проходи, улици и т.н. Забелязах
>> структура и там и ако успеем да ги scrape-нем, може да направим примерно
>> time-lapse графика за блокираните пътища на България в последните няколко
>> години. За сега съм изкарал само цифрите за катастрофите по дни, месеци,
>> години за страната и по дни за софия тук:
>> *http://opendata.yurukov.net/kat/data/datafiles.zip*
>> *http://opendata.yurukov.net/kat/data/metadata.csv*
>> Цифрите за София в тези данни се различават от тези в базата данни, която
>> описвам в началото на мейла - горните са от КАТ, а тези са от МВР. Има
>> малки разлики в някои дни и може би е заради уточнения или разлика в
>> термините. Ще помогне обаче да получим по-надеждни данни. Открих и доста
>> проблеми с данните за страната и данните ще трябва да се изчистят преди да
>> ги пуснем официално. Някои дни липсват, в края на месеците се забелязва
>> рязък скок, което може да се обясни с напасване на данните с пропуснати
>> катастрофи от някои региони. Ще се опитам да изчистя цифрите и да ги вкарам
>> и тях в една база данни. Ще запазя изходните документи и анализи за
>> справка.
>>
>> Крайната цел накратко е двойна. От една страна с хубави инфографики и
>> карти можем да убедим журналистите и МВР, че данните са полезни и да
>> накараме последните да ги пуснат за цялата страна и по-подробно. Втората
>> цел е да се събуди интереса към crowdsourcing-а като метод за събиране и
>> обработка на данни.
>>
>> Поздрави,
>> Боян
>>
>>
>> --
>> ________________________
>>
>> Boyan Yurukov
>> Twitter: yurukov
>> http://yurukov.net/blog
>> http://lipsva.com
>> http://crime.bg
>>
>> _______________________________________________
>> okfn-bg mailing list
>> okfn-bg at lists.okfn.org
>> http://lists.okfn.org/mailman/listinfo/okfn-bg
>>
>>
>
>
>
>
>
--
________________________
Boyan Yurukov
Twitter: yurukov
http://yurukov.net/blog
http://lipsva.com
http://crime.bg
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-bg/attachments/20120915/ebb3e442/attachment.html>
More information about the okfn-bg
mailing list