2024-05-29 14:48:06 +02:00
\documentclass [12pt] { article}
2024-06-06 04:03:54 +02:00
\usepackage { float}
\usepackage [T1] { fontenc}
\usepackage [polish] { babel}
2024-05-29 14:48:06 +02:00
\usepackage [utf8] { inputenc}
\usepackage { amsmath}
\usepackage { graphicx}
2024-05-30 15:11:37 +02:00
\usepackage { hyperref}
2024-06-05 22:05:16 +02:00
\usepackage { listings}
\usepackage { color}
2024-06-06 04:03:54 +02:00
\usepackage { booktabs}
2024-06-05 22:05:16 +02:00
\definecolor { codebg} { rgb} { 0.95,0.95,0.95}
\definecolor { codeframe} { rgb} { 0.8,0.8,0.8}
\lstset {
backgroundcolor=\color { codebg} ,
frame=single,
frameround=tttt,
rulecolor=\color { codeframe} ,
basicstyle=\ttfamily ,
columns=fullflexible,
breaklines=true
}
2024-05-29 14:48:06 +02:00
\title { Analiza statystyczna przyznawania funduszy UE gminom}
\author { Krzysztof Rudnicki, Michał Sar}
\date { \today }
\begin { document}
\maketitle
\tableofcontents
\begin { abstract}
2024-06-06 04:03:54 +02:00
Artykuł skupia się na sprawdzeniu jakie dane gminy najbardziej wpływają na pozyskiwanie przez nią funduszy UE
2024-05-29 14:48:06 +02:00
\end { abstract}
\section { Wstęp}
2024-05-30 15:11:37 +02:00
\paragraph { Kontekst}
2024-06-06 04:03:54 +02:00
W 2024 mija 20 lat od wstąpienia Polski do Unii Europejskiej \cite { 1} .
2024-05-30 15:11:37 +02:00
Od tamtej pory bilans Polski w stosunku do Brukseli wynosi 175 miliardów euro na
plus dla Polski \cite { 2} W samym 2023 roku Polska otrzymała z UE prawie 3.5 miliarda
złotych, wpłacająć niecały miliard złotych \cite { 3} W naszej pracy ponawiamy analizę
statystyczną wykonaną sprzed 7 lat, na nowych danych, od początku roku 2014 do końca
roku 2023
\paragraph { Cel}
Celem pracy jest sprawdzenie jakie dane na temat gminy najbardziej korelują z liczbą
przyznanych funduszy Unii Europejskiej danej gminy
\paragraph { Hipoteza}
2024-06-06 04:03:54 +02:00
Gęstość zaludnienia jest \textbf { najważniejszym} czynnikiem wpływającym na
przyznanie środków unijnych
2024-05-30 15:11:37 +02:00
\paragraph { Metoda badawcza}
2024-05-29 14:48:06 +02:00
\begin { enumerate}
\item Zebrać dane UE
\item Zebrać dane gmin
\item Połączyć dane po numerze TERYT
\item Przeanalizować dane
\item Wyświetlić wyniki
\end { enumerate}
2024-05-30 15:11:37 +02:00
\paragraph { Wyniki}
2024-05-29 14:48:06 +02:00
\section { Omówienie rozdziałów}
2024-05-30 15:11:37 +02:00
Na początku artykułu przedstawiamy czemu wybraliśmy taki temat, co chcemy osiągnąć
naszą pracą, w jaki sposób chcemy to osiągnąć i jaki rezultat ostatecznie udało nam się
pokazać \\
Następnie opisujemy istniejącą literaturę na temat środków Unijnych z którą się
zapoznaliśmy i przedstawiamy w czym różni się nasza praca od istniejących \\
Potem tłumaczymy nasz proces badawczy, w jaki sposób zbieraliśmy i łączyliśmy dane,
jak je analizowaliśmy i jak przedstawialiśmy wyniki \\
2024-05-29 14:48:06 +02:00
Kontynując, pokazujemy co otrzymaliśmy ostatecznie w wyniku naszej pracy \\
2024-05-30 15:11:37 +02:00
Przedostatni rozdział zajmuje się dyskusją wyników, przedstawiamy co udało nam się
osiągnać i dlaczego, czego nie udało nam się osiągnąć i dlaczego oraz przede wszystkim
konfrontujemy wynik z naszą hipotezą \\
2024-05-29 14:48:06 +02:00
Na końcu podsumowujemy całą pracę i przedstawiamy spis literatury z której korzystaliśmy
\section { Opis literatury}
2024-05-30 15:11:37 +02:00
\paragraph { Decision trees: from efficient prediction to responsible AI}
Artykuł poświęcony jest omówieniu drzew decyzyjnych, rozpoczyna od zdefiniowania czym
drzewo decyzyjne jest, jakie są jego unikalne cechy, gdzie jest stosowane, jakie ma wady
i potencjalne zagrożenia oraz jak można je zminimalizować \cite { 4} \\
Wybraliśmy ten artykuł gdyż opisuje jedną z głównych metod którą zamierzamy stosować w
naszym procesise badawczym do przeanalizowania danych
\paragraph { Application of Successful EU Funds Absorption Models to Sustainable Regional Development}
Artykuł wykorzystał ankiety pytając 244 osób o to jak
efektywnie wykorzystywane były fundusze UE w Polsce, Słowenii,
Węgrzech i Chorwacji. Artykuł podkreśla znaczenie możliwości
technicznych, administracyjnych, koordynacji pomiędzy
instytucjami i dobrymi mechanizmami nadzorowania funduszy
europejskich jako kluczowe dla skutecznego wykorzystywania
funduszy unijnych. \cite { 5} \\
Artykuł przydał się nam w ocenie jakie parametry pozytywnie wpływają na korzystanie z funduszy UE i jakie moglibyśmy śledzić w naszym modelu.
W naszym artykule zamiast ankiet wykorzystujemy dostępne już dane, a wyniki staramy się stworzyć przy użyciu modeli statystycznych. Dodatkowo zajmujemy się przedstawieniem jakie parametry wpływają na przyznanie środków UE a nie na to w jaki sposób można te środki skutecznie wykorzystywać
\paragraph { It’ s not about the money. EU funds, local opportunities, and Euroscepticism} )
Artykuł opisuje jak pieniądze z Unii Europejskiej wpływają na eurosceptycyzm w danym kraju na podstawie Walii w kontekście referendum "Brexit".
Badanie wykorzystuje metodę Regression discontinuity design (RDD), wybrano Walię z uwagi na różnicę w ilości pieniędzy przekazanych poszczególnym rejonom.
Autorzy wykazali że sama ilość pieniędzy przekazana danemu
regionowi nie zwiększa znacznie poparcia dla
Unii Europejskiej, natomiast duże nakłady powiązane z
widoczną, namacalną poprawą na lokalnym rynku wpływają
pozytywnie na postrzeganie Unii Europejskiej w lokalnych
społecznościach \cite { 6} \\
Nasz artykuł koncentruje się na tym co wpływa na przyznanie funduszy unijnych a nie na samą reakcje na ich przyznanie
2024-05-29 14:48:06 +02:00
\section { Proces badawczy}
2024-05-30 15:11:37 +02:00
Proces badawczy podzieliliśmy na 3 zasadnicze etapy, zebranie danych, przeanalizowanie ich i zaprezentowanie wyników
\paragraph { Zbieranie danych}
Wszystkie dane pobieraliśmy ze strony GUS-u \\
\href { https://bdl.stat.gov.pl/bdl/start} { https://bdl.stat.gov.pl/bdl/start} \\
Dane wybieraliśmy z zakładki "Popularne podgrupy", następnie wybieraliśmy wszystkie lata które nas
interesowały (od 2014 do 2023 roku włącznie), po przejściu dalej wybieraliśmy wszystkie gminy,
finalnie otrzymując tablicę którą pobieraliśmy do formatu csv \\
2024-06-06 04:03:54 +02:00
\begin { figure} [H]
\caption { Strona GUS z zaznaczonymi popularnymi podgrupami}
2024-06-05 22:05:16 +02:00
\centering
\includegraphics [width=1.0\textwidth] { gus}
\end { figure}
2024-06-06 04:03:54 +02:00
\begin { figure} [H]
\caption { Strona GUS z zaznaczonymi latami i powierzchnią}
2024-06-05 22:05:16 +02:00
\centering
\includegraphics [width=1.0\textwidth] { dane3}
\end { figure}
2024-06-06 04:03:54 +02:00
\begin { figure} [H]
\caption { Strona GUS z zaznaczonymi powiatami}
2024-06-05 22:05:16 +02:00
\centering
\includegraphics [width=1.0\textwidth] { dane4}
\end { figure}
2024-06-06 04:03:54 +02:00
\begin { figure} [H]
\caption { Dane o powierzchni z możliwością eksportu do CSV}
2024-06-05 22:05:16 +02:00
\centering
\includegraphics [width=1.0\textwidth] { dane5}
\end { figure}
2024-05-30 15:11:37 +02:00
\paragraph { Przygotowywanie danych}
2024-06-06 03:10:19 +02:00
Dane musieliśmy przeprocesować przed ich wykorzystaniem, usuwaliśmy wiersze:
\begin { itemize}
\item Zawierające nie pełny numer teryt
\item Zawierające wartości Null albo puste
\end { itemize}
Wybraliśmy w sumie 100 parametrów na podstawie których ocenialiśmy wpływ na dotacje z UE, można podzielić je na grupy
2024-06-05 22:05:16 +02:00
\begin { enumerate}
2024-06-06 03:10:19 +02:00
\item Finansowe (dochody, wpływy, podatki)
\item Ludność (całkowita, na płec, wiek przed/po/produkcyjny, gęstość zaludneinai)
\item Województwo
\item Wymeldowania i zameldowania
\item Turystyka
\item Bezrobocie
\item Typ gminy
\item Odległość od Warszawy lub centrum decyzyjnego
2024-06-05 22:05:16 +02:00
\end { enumerate}
2024-06-06 03:10:19 +02:00
Dzieliliśmy dane o dofinansowaniu UE na podstawie programów:
2024-06-05 22:05:16 +02:00
\begin { itemize}
2024-06-06 03:10:19 +02:00
\item Program Operacyjny Infrastruktura i Środowisko 2014-2020
\item Program Operacyjny Inteligentny Rozwój
\item Program Operacyjny Polska Cyfrowa
\item Program Operacyjny Wiedza Edukacja Rozwój
\item Program Operacyjny Polska Wschodnia
2024-06-05 22:05:16 +02:00
\end { itemize}
2024-05-30 15:11:37 +02:00
\paragraph { Analiza danych}
2024-06-06 03:10:19 +02:00
Wykorzystaliśmy model drzew decyzyjnych regresyjnych wykorzystujących "Recursive Feature Elimination" (RFE) \\
Trenowaliśmy model na głębokościach od 3 do 28 i na "featureach" od 2 do 20 \\
W ten sposób szukaliśmy najlepszego modelu, takiego który wykazywał najmniejszy błąd MSE \\
Najlepsze parametry uzyskaliśmy dla głębokości 20 i featurach w liczbie 13
\begin { lstlisting}
max_ depth: 20, n_ features: 13, mse_ train: 89643306022.6, mse_ test: 879912454221.0 <-
\end { lstlisting}
2024-06-05 22:05:16 +02:00
2024-05-30 15:11:37 +02:00
\paragraph { Przedstawienie wyników}
2024-06-06 03:10:19 +02:00
Wyniki przedstawiliśmy na grafach wykorzystując pythonową bibliotekę matplotlib
2024-05-29 14:48:06 +02:00
\section { Wyniki}
2024-06-06 04:03:54 +02:00
\begin { figure} [H]
\caption { Błąd dla danych treningowych jako funkcja głębokości i liczby featerów}
2024-06-06 03:10:19 +02:00
\centering
\includegraphics [width=1.0\textwidth] { output.png}
\end { figure}
2024-06-06 04:03:54 +02:00
\begin { figure} [H]
\caption { Błąd dla danych testowych jako funkcja głębokości i liczby featerów}
2024-06-06 03:10:19 +02:00
\centering
\includegraphics [width=1.0\textwidth] { output2.png}
\end { figure}
2024-06-06 04:03:54 +02:00
\begin { figure} [H]
\caption { Funkcja predykcji modelu co do wielkości finansowania porównana do prawdziwego finansowania, czerwieńsze kolory odpowiadają większej gęstości zaludnienia}
2024-06-06 03:10:19 +02:00
\centering
\includegraphics [width=1.0\textwidth] { output3.png}
\end { figure}
2024-06-06 04:03:54 +02:00
Parametry poniżej miały największy związake z wysokością wpływów z Unii Europejskiej do gminy
2024-05-29 14:48:06 +02:00
2024-06-06 04:03:54 +02:00
\begin { table} [H]
\centering
\begin { tabular} { lr}
\toprule
\textbf { Value} & \textbf { Category} \\
\midrule
0.3853 & Dochody podatek od nieruchomości \\
0.2161 & Dochody podatek od środków transportowych \\
0.0911 & Powierzchnia \\
0.0670 & Wynagrodzenie ogółem \\
0.0581 & Dochody podatek PCC \\
0.0424 & Dochody razem \\
0.0292 & Dochody z majątku \\
0.0286 & Dochody podatek od spadków \\
0.0277 & Dochody podatek rolny \\
0.0225 & Dochody podatek od działalności gospodarczej \\
0.0156 & Wynagrodzenie w relacji do średniej \\
0.0107 & Dochody podatek odrębne ustawy \\
0.0057 & Dochody podatek leśny \\
\bottomrule
\end { tabular}
\caption { Najistotniejsze dane gminy wpływające na przyznanie funduszów UE}
\end { table}
2024-05-29 14:48:06 +02:00
\section { Dyskusja}
2024-06-06 04:03:54 +02:00
\paragraph { Sukcesy}
Udało nam się zebrać dane z GUS-u i połączyć je z danymi o inwestycjach Unii Europejskich, stworzyliśmy model który na podstawie
przygotowanych przez nas danych spróbował wykazac jakie parametry gminy najbardziej wpływały na przyznanie środków unijnych
\paragraph { Weryfikacja hipotezy}
Nasza hipoteza zgodnie z wynikami które uzyskaliśmy okazała się \textbf { fałszywa} , nasz model za najważniejszą daną o gminie wpływającą
na przyznanie środków z Unii Europejskiej uznał \textbf { Dochód z podatków od nieruchomości} a nie gęstość zaludnienia
\paragraph { Niskie wartości korelacji}
Niestety wartości powiązania danych o gminie i wpływów z UE w naszym modelu mają niskie wartości,
najwyższe rzędu 0.4 po czym drastycznie spadające do poziomu 0.01, 0.005 \\
\paragraph { Brak możliwości predykcji}
Nasz model \textbf { nie nadaje się} do wykorzystania w celu przewidywania wpływów inwestycji z UE do gminy w przyszłości,
wynika to z dynamicznie zmieniającej się sytuacji geopolitycznej, w ostatnich latach zdecydowany wpływ na działania Unii Europejskiej miały
takie wydarzenia jak pandemia Covid-19 lub wojna w Ukrainie, niemożliwe do przewidzenia wydarzenia na arenie międzynarodowej sprawiają że
predykcja przyszłych zachowań tak dużych instytucji jak Unia Europejska jest dla naszego modelu zadaniem nie osiagalnym
2024-05-29 14:48:06 +02:00
\section { Konkluzja}
2024-06-06 04:03:54 +02:00
Analiza obaliła nasza hipotezę że gęstość zaludnienia odgrywa największą rolę i zamiast tego wskazuje na dochód z podatków od nieruchomości.
Nasz model, mimo że zidentyfikował pewne zależności, charakteryzuje się niskimi wartościami korelacji i ograniczoną zdolnością do przewidywania przyszłych funduszy.
Aby poprawić dokładność przyszłych analiz, sugerujemy wykorzystanie innych technik modelowania (gradient boosting, sieci neuronowe)
oraz dodatkowych zmiennych, takich jak zmiany polityczne, ekonomiczne i społeczne. Rozważenie tych dynamicznych czynników może lepiej
odzwierciedlić skomplikowane procesy decyzyjne w Unii Europejskiej i zwiększyć trafność prognozowania przyznawania funduszy.
2024-05-29 14:48:06 +02:00
2024-06-06 04:03:54 +02:00
\bibliographystyle { plain} % or any other style you prefer
\bibliography { references} % 'references' should be the name of your .bib file without the extension
2024-05-29 14:48:06 +02:00
\end { document}