[okfn-bg] Данни за катастрофите от МВР и КАТ
Velichka Dimitrova
velichka.dimitrova at okfn.org
Sat Sep 15 16:50:42 UTC 2012
Здравей,
Мисля че това е много интересна идея, виждам че има няколко важни причини и
ползи са се отворят тези данни:
- може да се направи статистика за локализиране на най-проблемните
райони, където най-често стават катастрофи. Мога да си представя, че КАТ си
знаят горе долу къде стават най-много катастрофи, но едва ли водят
статистика с гео-данни.
- може да се направи анализ на данните възоснова факторите, които може
да са допринесли за катастрофата
Мисля че идеята за crowd-sourcing е супер интересна - аз за съжаление не
познавам добре София и не мога да допринеса много със задачите за
локализиране.
Предполагам че познаваш PyBossa - http://pybossa.com/ - твоята програма ми
напомня на Urban Green Parks..
2012/9/13 Boyan Yurukov <yurukov at gmail.com>
> Здравейте всички,
>
> Отново ме хванаха лудите и реших да отворя данните за катастрофите. За
> целта съм направил един cronjob, който scrape-ва всеки ден една страница на
> КАТ София. В нея има доста информация за катастрофите в столицата -
> причини, брой, местоположение, ранени и т.н. Всичко се записва в база
> данни. Изчаквам да се съберат малко данни, за да уеднаквя категориите за
> причини и ранени и ще пусна всичко като Excel таблици, SQL dump и KML файл.
> Ето тук съм писал повече за проекта:
> http://yurukov.net/blog/2012/09/09/katastrofite-v-sofiq/
> Един от проблемите на данните е, че адресите на тежките катастрофи са
> почти невъзможни за геопозициониране с Google услугите. Трябва наръка да се
> наместват на картата, а за някои - човек да е запознат със София. Затова
> направих този crowdsourcing инструмент за събиране на предложения къде са
> адресите:
> http://opendata.yurukov.net/kat/crowdsource.php
> Алгоритъма е описан в коментарите, но накратко всеки си дава twitter или
> собствено име и слага отметки къде според него са адресите на картата.
> Всяка вечер се изчисляват средните местоположения и се начислява доверие
> към потребителите в зависимост от това колко близо са до средната точка.
> Колкото повече доверие има, толкова неговото предложение се зачита. Ако има
> голямо отклонение между предложенията (средно над 50 метра), получавам мейл
> и отсъждам. Така се изгражда индекс на доверие към всеки участник в проекта.
>
> Разбира се, идва и въпросът защо само София. Причината е, че в повечето
> други управления на КАТ данните са скрити в свободен текст в ежедневните им
> бюлетини. При това там често обявяват само "характерни" случаи, а не
> всички. Затова данните са още по-ненадеждни и трудни за индексиране. Има
> обаче друг начин - намерих в страницата на МВР ежедневни доклади за
> катастрофите и жертвите в цяла България. За разлика от тези на КАТ, тук има
> исторически данни от средата на 2004-та до сега. Свалих всички и ги
> индексирах. общо 3000 документа. В последните няколко години освен цифри за
> катастрофите има и описание на блокирани проходи, улици и т.н. Забелязах
> структура и там и ако успеем да ги scrape-нем, може да направим примерно
> time-lapse графика за блокираните пътища на България в последните няколко
> години. За сега съм изкарал само цифрите за катастрофите по дни, месеци,
> години за страната и по дни за софия тук:
> *http://opendata.yurukov.net/kat/data/datafiles.zip*
> *http://opendata.yurukov.net/kat/data/metadata.csv*
> Цифрите за София в тези данни се различават от тези в базата данни, която
> описвам в началото на мейла - горните са от КАТ, а тези са от МВР. Има
> малки разлики в някои дни и може би е заради уточнения или разлика в
> термините. Ще помогне обаче да получим по-надеждни данни. Открих и доста
> проблеми с данните за страната и данните ще трябва да се изчистят преди да
> ги пуснем официално. Някои дни липсват, в края на месеците се забелязва
> рязък скок, което може да се обясни с напасване на данните с пропуснати
> катастрофи от някои региони. Ще се опитам да изчистя цифрите и да ги вкарам
> и тях в една база данни. Ще запазя изходните документи и анализи за
> справка.
>
> Крайната цел накратко е двойна. От една страна с хубави инфографики и
> карти можем да убедим журналистите и МВР, че данните са полезни и да
> накараме последните да ги пуснат за цялата страна и по-подробно. Втората
> цел е да се събуди интереса към crowdsourcing-а като метод за събиране и
> обработка на данни.
>
> Поздрави,
> Боян
>
>
> --
> ________________________
>
> Boyan Yurukov
> Twitter: yurukov
> http://yurukov.net/blog
> http://lipsva.com
> http://crime.bg
>
> _______________________________________________
> okfn-bg mailing list
> okfn-bg at lists.okfn.org
> http://lists.okfn.org/mailman/listinfo/okfn-bg
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-bg/attachments/20120915/d5ec8c06/attachment.html>
More information about the okfn-bg
mailing list