[okfn-bg] Данни за катастрофите от МВР и КАТ
Boyan Yurukov
yurukov at gmail.com
Thu Sep 13 11:12:15 UTC 2012
Здравейте всички,
Отново ме хванаха лудите и реших да отворя данните за катастрофите. За
целта съм направил един cronjob, който scrape-ва всеки ден една страница на
КАТ София. В нея има доста информация за катастрофите в столицата -
причини, брой, местоположение, ранени и т.н. Всичко се записва в база
данни. Изчаквам да се съберат малко данни, за да уеднаквя категориите за
причини и ранени и ще пусна всичко като Excel таблици, SQL dump и KML файл.
Ето тук съм писал повече за проекта:
http://yurukov.net/blog/2012/09/09/katastrofite-v-sofiq/
Един от проблемите на данните е, че адресите на тежките катастрофи са почти
невъзможни за геопозициониране с Google услугите. Трябва наръка да се
наместват на картата, а за някои - човек да е запознат със София. Затова
направих този crowdsourcing инструмент за събиране на предложения къде са
адресите:
http://opendata.yurukov.net/kat/crowdsource.php
Алгоритъма е описан в коментарите, но накратко всеки си дава twitter или
собствено име и слага отметки къде според него са адресите на картата.
Всяка вечер се изчисляват средните местоположения и се начислява доверие
към потребителите в зависимост от това колко близо са до средната точка.
Колкото повече доверие има, толкова неговото предложение се зачита. Ако има
голямо отклонение между предложенията (средно над 50 метра), получавам мейл
и отсъждам. Така се изгражда индекс на доверие към всеки участник в проекта.
Разбира се, идва и въпросът защо само София. Причината е, че в повечето
други управления на КАТ данните са скрити в свободен текст в ежедневните им
бюлетини. При това там често обявяват само "характерни" случаи, а не
всички. Затова данните са още по-ненадеждни и трудни за индексиране. Има
обаче друг начин - намерих в страницата на МВР ежедневни доклади за
катастрофите и жертвите в цяла България. За разлика от тези на КАТ, тук има
исторически данни от средата на 2004-та до сега. Свалих всички и ги
индексирах. общо 3000 документа. В последните няколко години освен цифри за
катастрофите има и описание на блокирани проходи, улици и т.н. Забелязах
структура и там и ако успеем да ги scrape-нем, може да направим примерно
time-lapse графика за блокираните пътища на България в последните няколко
години. За сега съм изкарал само цифрите за катастрофите по дни, месеци,
години за страната и по дни за софия тук:
*http://opendata.yurukov.net/kat/data/datafiles.zip*
*http://opendata.yurukov.net/kat/data/metadata.csv*
Цифрите за София в тези данни се различават от тези в базата данни, която
описвам в началото на мейла - горните са от КАТ, а тези са от МВР. Има
малки разлики в някои дни и може би е заради уточнения или разлика в
термините. Ще помогне обаче да получим по-надеждни данни. Открих и доста
проблеми с данните за страната и данните ще трябва да се изчистят преди да
ги пуснем официално. Някои дни липсват, в края на месеците се забелязва
рязък скок, което може да се обясни с напасване на данните с пропуснати
катастрофи от някои региони. Ще се опитам да изчистя цифрите и да ги вкарам
и тях в една база данни. Ще запазя изходните документи и анализи за
справка.
Крайната цел накратко е двойна. От една страна с хубави инфографики и карти
можем да убедим журналистите и МВР, че данните са полезни и да накараме
последните да ги пуснат за цялата страна и по-подробно. Втората цел е да се
събуди интереса към crowdsourcing-а като метод за събиране и обработка на
данни.
Поздрави,
Боян
--
________________________
Boyan Yurukov
Twitter: yurukov
http://yurukov.net/blog
http://lipsva.com
http://crime.bg
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-bg/attachments/20120913/c5b89a8b/attachment-0001.html>
More information about the okfn-bg
mailing list