Revista de Matema´tica: Teor´ıa y Aplicaciones 2011 18(2) : 325–342 cimpa – ucr issn: 1409-2433 modelo geoestad´ıstico espacio-temporal del crimen en el salvador: ana´lisis estructural y predictivo geostatistical spatio-time model of crime in el salvador: structural and predictive analysis Welman Rosa Alvarado∗ Received: 23 Feb 2010; Revised: 10 Jun 2011; Accepted: 24 Jun 2011 ∗FEDECREDITO, 25 Av. Norte y 23 Calle Poniente, Edificio Macario Armando Rosales Rosa, San Salvador, El Salvador. E-Mail: welman 16@hotmail.com 325 326 w. rosa Resumen En la actualidad, estudiar un feno´meno espacial y espacio-tem- poral requiere de la bu´squeda de herramientas estad´ısticas que per- mitan analizar la dependencia de espacio, tiempo e interacciones. La ciencia que aborda este tipo de temas es la denominada Geoes- tad´ıstica cuya finalidad es predecir feno´menos espaciales. Esta cien- cia es considerada el pilar para la modelizacio´n de feno´menos que involucran las interacciones de espacio y tiempo. En los u´ltimos 10 an˜os la geoestad´ıstica ha tenido gran aplicacio´n en a´reas como la geolog´ıa, la edafolog´ıa, tratamiento de ima´genes, la epidemiologia, la agronomı´a, la ecolog´ıa, economı´a, etc. En esta investigacio´n se aplica para construir un mapa predictivo de la criminalidad en El Salvador; para ello, se estudia la variabilidad conjunta del espacio y tiempo para predecir o generar escenarios delincuenciales: focalizar a´reas geogra´ficas de inseguridad, determinar grupos vulnerables a sufrir hechos delictivos, incentivar la formulacio´n de pol´ıticas pu´blicas y facilitar la toma de decisiones en el tema de inseguridad. Palabras clave: Geoestad´ıstica; Espacio-Temporal; No-Separable; Crimen; Estructural; Variabilidad; Autocorrelacio´n. Abstract Today, to study a geospatial and spatio-temporal phenomena requires searching statistical tools that enable the analysis of the de- pendency of space, time and interactions. The science that studies this kind of subjects is the Geoestatics which the goal is to predict spatial phenomenon. This science is considered the base for model- ing phenomena that involves interactions between space and time. In the past 10 years, the Geostatistic had seen a great development in areas like the geology, soils, remote sensing, epidemiology, agri- culture, ecology, economy, etc. In this research, the geostatistic had been apply to build a predictive map about crime in El Salvador; for that the variability of space and time together is studied to generate crime scenarios: crime hot spots are determined, crime vulnerable groups are identified, to improve political decisions and facilitate to decision makers about the insecurity in the country. Keywords: Geostatistics; Spatio-Time; Non-Separable; Crime; Struc- tural; Variability; Autocorrelation. Mathematics Subject Classification: 86A32. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 modelo geoestad´ıstico del crimen en el salvador 327 1 Introduccio´n En los u´ltimos an˜os la comunidad cient´ıfica ha venido da´ndole un intere´s primordial en la modelizacio´n geoestad´ıstica de feno´menos, construyendo nuevas familias de estructuras espacio-temporales va´lidas para un mayor tratamiento a muchas disciplinas como medioambiente, epidemiologia, geolog´ıa, medicina o geof´ısica en el estudio de la variabilidad espacial y espacio-temporal. Gran parte de este esfuerzo viene encaminado en la bu´squeda de nuevas herramientas que permiten estudiar feno´menos donde se incluya interacciones entre el espacio y tiempo para estudiar la variabili- dad de un feno´meno de una forma separada. Uno de esos esfuerzos ha sido posible gracias a las primeras aproximaciones en la construccio´n de cova- rianzas espacio-temporales (Kyriakidis y Journel, 1999) que se basan en la extensio´n natural de me´todos espaciales o temporales y una dimensio´n espacio-temporal. Por otro lado, en lo que respecta a la construccio´n de modelos donde involucre el ana´lisis de variabilidad con tipo de estruc- turas espacio-temporal, De Cesare´ et al. (2001) llevo´ esa extensio´n hacia un contexto no separable, es decir, construir modelos basados en cova- rianzas espacio-temporales estacionarias en las que asumen isotrop´ıa en espacio y tiempo. El objetivo de esta investigacio´n es aplicar la geoestad´ıstica espacio- temporal al crimen en El Salvador para estudiar la variabilidad conjunta entre el espacio y tiempo; modelar el feno´meno a partir del estimador Cokriging y otro mediante el modelo de covarianza espacial y espacio- temporal v´ıa producto suma (De Iaco, Myers y Posa, 2001) para generar un escenario delictual del homicidio en el pa´ıs. 2 Manejo del proceso espacial y espacio-temporal La geoestad´ıstica es una rama de la estad´ıstica que trata de feno´menos espaciales. Su objetivo es la estimacio´n, prediccio´n y simulacio´n de dichos feno´menos. Esta rama ofrece una forma de describir la continuidad espa- cial, que es un rasgo distintivo esencial de muchos feno´menos naturales, y proporciona adaptaciones de las te´cnicas cla´sicas de regresio´n para tomar ventaja de esta continuidad (Berlanga, 1970). Actualmente, la geoestad´ıstica es un conjunto de te´cnicas usadas para analizar y predecir valores de una propiedad distribuida en espacio y tiempo. En contraposicio´n con la estad´ıstica cla´sica, tales valores no se consideran independientes, por el contrario se supone de manera impl´ıcita Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 328 w. rosa que esta´n correlacionados unos con otros, es decir, que existe una depen- dencia espacial. En todo trabajo o estudio geoestad´ıstico tiene que llevarse a cabo en tres fases: a) Ana´lisis Exploratorio de Datos Espaciales: aqu´ı se estudian los datos muestrales sin tener en cuenta su distribucio´n geogra´fica. Ser´ıa una etapa de aplicacio´n de la estad´ıstica. Se comprueba la consis- tencia de los datos geogra´ficos y se identifica la distribucio´n de los que provienen. b) Ana´lisis Estructural: esta etapa se encarga de la caracterizacio´n de la estructura espacial y espacio-temporal de una propiedad o feno´meno regionalizado. Es el proceso en el marco del cual se ob- tiene un modelo geoestad´ıstico para la funcio´n aleatoria que se es- tudia. En pocas palabras consiste en estimar y modelar una funcio´n que refleje la correlacio´n espacial y espacio-temporal de la varia- ble regionalizada a partir de la adopcio´n razonada de la hipo´tesis ma´s adecuada acerca de su variabilidad. Esta variabilidad se rea- liza mediante un ana´lisis de patro´n de localizaciones de la poblacio´n objeto de estudio, que permite definir el tipo de estructura espacial y espacio-temporal (en su caso) que organiza al conjunto de loca- lizaciones; y un ana´lisis de dependencia o autocorrelacio´n espacial y espacio-temporal de la distribucio´n, que permite medir el grado de similitud de una variable regionalizada de tipo cuantitativa entre puntos o eventos vecinos sobre un a´rea muestral de estudio. c) Prediccio´n: Estimacio´n de la variable en los puntos muestrales, con- siderando la estructura de correlacio´n espacial relacionada e inte- grando la informacio´n obtenida de forma directa en los puntos mues- trales, as´ı como la como la conseguida indirectamente en forma de tendencias conocidas. En dicho proceso de estudio geoestad´ıstico es importante tambie´n, el cono- cer el tipo de dato geogra´fico para su tratamiento. Generalmente son dos tipos de datos geogra´ficos, un tipo de dato coordenado que consiste en un punto o evento georreferenciado y un dato geoestad´ıstico o campo escalar que significa la intensidad o frecuencia en una zona geogra´fica. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 modelo geoestad´ıstico del crimen en el salvador 329 2.1 Ana´lisis estructural y correlacio´n A continuacio´n se presentan algunos estad´ısticos existentes en la teor´ıa geoestad´ıstica para el ana´lisis estructural y correlacio´n: a) Ana´lisis estructural con dato coordenado: I´ndice del vecino ma´s pro´ximo NNI = d(NN)/d(ran) (Clark y Evans, 1954), es un cociente de dos medidas que compara la distancia entre los puntos ma´s cercanos y la media distancia aleatoria. Si el ı´ndice resulta ser igual a 1, indica que la distribucio´n se ajusta a una de Poisson; si resulta ser mayor que 1, existe tendencia a la dispersio´n y si es menor que 1, existe tendencia a la agregacio´n. b) Ana´lisis estructural con dato mixto coordenado y geoes- tad´ıstico y/o campo escalar: La funcio´nK de Ripley (Ripley, 1976; Bailey y Gattrell, 1995), es un operador que permite establecer el tipo, la intensidad y el rango del patro´n espacial a trave´s del ana´lisis de las distancias existentes entre todos los puntos. Este estad´ıstico contrasta la hipo´tesis de aleato- riedad (esta hipo´tesis bajo el supuesto de Completa Aleatorizacio´n Espacial es igual a pir2, entonces, si: K > pir2 indica agregacio´n, K < pir2 indica uniformidad y K = pir2, el proceso muestra aleato- riedad. c) Correlacio´n: La correlacio´n se establece mediante el ana´lisis de co´mo una regio´n cuantitativa (intensidad, frecuencia) var´ıa de acuerdo con los ejes de coordenadas X e Y , que miden la localizacio´n de cada uno de los valores de dicha localidad y que son variables independientes. En ese sentido, la descripcio´n de la correlacio´n so´lo es posible si se analiza el feno´meno con el tipo de dato geoestad´ıstico y/o campo escalar. El Test I de Moran (Anselin, L. 1995), establece el tipo, la intensidad y el rango de patro´n espacial, midiendo el grado de autocorrelacio´n de una distribucio´n, y su interpretacio´n es la siguiente: si el I es mayor a 0, y con tendencia a +1, la autocorrelacio´n sera´ positiva; si el I es igual a 0, entonces no existe autocorrelacio´n; y si el I resulta ser negativo, con tendencia a -1, la autocorrelacio´n sera´ negativa. d) Semivariograma Una herramienta que cuantifica la semivarianza que existe en una distribucio´n, midiendo el grado de correlacio´n existente entre los valores de la variable en cada punto y distancia entre ellos. El Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 330 w. rosa propo´sito primordial del semivariograma, integrado en las te´cnicas geoestad´ısticas, va ma´s alla´ de la determinacio´n de la correlacio´n, esto porque al cuantificar la relacio´n de una variable medida en una serie de puntos, puede conocer/predecir esa misma variable medida en puntos situados a distancias conocidas, pero que no han sido muestreados. El variograma se define como la media aritme´tica de todos los cuadrados de las diferencias entre pares de valores experi- mentales separados por una distancia h. La funcio´n γ(h) se deno- mina semivariograma y su expresio´n es la siguiente: γ(h) = (1/2Np(h)) ∑Np(h) i=1 [Z(xi − Z(xi + h)]2, donde Np(h) es el nu´mero de pares a la distancia h, h es el incremento, Z(xi) son los valores experimentales y xi localizaciones donde son medidos los valores Z(xi). Esta funcio´n de semivariograma tiene una serie de componentes que permiten describir ciertos aspectos de la variabilidad espacial y espacio-temporal (en su caso) de la poblacio´n objeto de estudio como la meseta/umbral, efecto pepita y rango. El primero mide la discontinuidad en el origen; el segundo, mide el valor ma´ximo de variabilidad (sill); y el u´ltimo, mide el a´rea de influencia de la correlacio´n (alcance o rango). En la literatura existe una serie de modelos teo´ricos admisibles o autorizados de semivariograma que se usan en la pra´ctica, algunos de ellos son: el modelo esfe´rico, exponencial y gaussiano (J. Berlanga and J. Obrego´n (1970)). 2.2 Prediccio´n espacial y espacio-temporal Dentro del contexto de la Geoestad´ıstica se conoce con el nombre de kri- ging a una familia de algoritmos de regresio´n por minimos cuadrados ge- neralizados que, a partir de un conjunto de observaciones Z(xi, ti)i∈1,...,n, proporcionan el predictor lineal o´ptimo para la variable Z en una nueva posicio´n (x0, t0). Por lo general, a estos algoritmos se les conoce con el nombre de kriging en reconocimiento del trabajo realizado en este campo por Danie Krige (1950). Estos me´todos de Kriging han sido ampliamente estudiados y aplicados en el contexto de la estad´ıstica espacial, y espacio- temporal. Segu´n la forma del estimador (Mart´ın A. Diaz, 1969) el es- timador lineal con valores esperados conocidos llamado Kriging Simple, tiene la forma de Zˆ(x0, t0) = ∑n i=1 αiZ(xi, ti) + (1 − ∑n i=1 αi)m. Este estimador siempre sera´ insesgado, por lo tanto no necesitaremos imponer Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 modelo geoestad´ıstico del crimen en el salvador 331 la restriccio´n de que ∑n i=1 αi = 1. Modelando una regionalizacio´n espacio-temporal Consideremos a D un dominio en el espacio, y a T un dominio en el tiempo con D ⊆ Rd y T ⊆ R1. Sin pe´rdida de generalidad, asumamos que d = 2; as´ı tenemos que R2 es de dos dimensiones (horizontal) en espacio. Y la variable aleatoria (RV ) Z(u, t) una variable que puede tomar una serie de valores (realizaciones) en cualquier lugar en el espacio u ∈ D y el instante de tiempo t ∈ T , de acuerdo a una distribucio´n de probabili- dad. Una funcio´n aleatoria espacio temporal (RF ) Z(u, t), (u, t) ∈ D × T esta´ definida como un conjunto generalmente dependientes RV s Z(u, t), una para cada lugar en el espacio u ∈ D y un instante de tiempo t ∈ T . Una realizacio´n de la funcio´n aleatoria RF Z(u, t) (donde u = (x, y, z)) es una coleccio´n de las realizaciones de sus componentes RV s. Esta funcio´n aleatoria o campo aleatorio Z(u, t) es estrictamente estacionario si su dis- tribucio´n de probabilidad es invariante ante traslaciones (h, τ) ∈ D × T , es decir, si dados dos vectores cualesquiera RV s Z(u1, t1), . . . , Z(uN , tT ) y Z(u1 + h, t1 + τ), . . . , Z(uN + h, tT + τ) tienen la misma funcio´n de dis- tribucio´n multivariante, cualquier traslacio´n del vector (h, τ) ∈ D × T , es decir, una estacionariedad de´bil o intr´ınseca. Una condicio´n menos exi- gente que la estacionariedad estricta, es la estacionariedad de segundo orden o estacionario en sentido amplio si se cumple que E[Z(u, t)] = m(u, t) = m (cte) ∀(u, t) ∈ D × T y la funcio´n de covarianza espacio- tiempo Cz(u, t;u ′ , t ′ ) se supone que depende so´lo de los retardos de la distribucio´n espacial y temporal h = u − u′ y τ = t − t′ , es decir, E[Z(u, t)−m][Z(u′ , t′)−m] = Cz(h; τ). Existen dos importantes puntos de vistas conceptuales para el mode- lado de distribuciones espacio-temporal a trave´s de herramientas estad´ısti- cas para incluir una dimensio´n temporal. Primero, exige estudiarlo desde un punto de vista espacio temporal mediante un modelo u´nico RF Z(u, t), por lo general se descompone en dos componentes: una componente para modelar la tendencia mediante la media de la variabilidad espaciotemporal del proceso Z(u, t), y un componente residual estacionario que modele la mayor frecuencia de las fluctuaciones en torno a la tendencia en el espacio y tiempo. Segundo, exige estudiarlo desde un punto de vista espacio tem- poral mediante un modelo que contenga mu´ltiples vectores RFs o vectores de TS. Dos subclases de modelos que puedan analizar el espacio temporal del proceso. La primera subclase que trate el espaciotemporal RF Z(u, t) como una coleccio´n de un finito nu´mero de T de correlacio´n espacio tem- Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 332 w. rosa poral RFs Z(u), mientras que los modelos en la segunda subclase vea la RF Z(u, t) como una coleccio´n de un finito numero N de correlacio´n espacial TS Z(t). Modelos de covarianza espacio-temporal Los primeros intentos en construir funciones de covarianza espacio tem- poral, hicieron uso de los modelos separables con suposiciones demasiados simplistas sobre la naturaleza de la variabilidad espacio-temporal, ya sea combinando la covarianza espacial y temporal de una manera de suma o producto. Esta construccio´n de modelos separables ignora las interac- ciones espacio-temporales, y afirman que la covarianza espacio-temporal presenta una completa independencia. Pocos procesos observados se com- portan de esta manera, y un esfuerzo considerable se ha hecho en la bu´squeda de alternativas de representaciones no separables. El desarrollo de las funciones de covarianzas espacio temporal comenzo´ con los modelos me´tricos, donde la funcio´n de covarianza se expresaba en te´rminos de una combinacio´n lineal de los retardos espaciales y temporales. Posteriormente se propuso el modelo producto, expresando la covarianza espacio temporal como producto de las varianzas individuales espacial y temporal (Cressie and Huang 1999). Finalmente, se introdujo el modelo lineal, donde las covarianzas espacio temporal se expresan como suma de las varianzas tanto para el componente espacial como temporal. Cressie y Huang desarrollaron un conjunto de funciones de covarianzas espacio temporal no separable va´lido a trave´s de la transformada de Fourier de la funcio´n de covarianza unidimensional (Cressie y Huang 1999). Gneiting desarrollo´ este enfoque para una representacio´n de Fourier libre (Genit- ing 2001). Estos acontecimientos dieron un paso importante en la geoes- tad´ıstica espacio-temporal, pero no fue hasta la contribucio´n de De Iaco que esta forma de estacionariedad, de funciones covarianza no separables se generalizo´ para su aplicacio´n (De Iaco, Myers y Posa 2003). El modelo de covarianza producto-suma de De Iaco (2001) permite la combinacio´n lineal de estructuras de covarianza arbitrariamente complejas (incluyendo zona de anisotrop´ıa y geome´trica) en el espacio y tiempo, con una completa interaccio´n. La representacio´n del modelo producto- suma que incorpora Cressie y Huang ofrece nuevas familias de funciones de covarianza. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 modelo geoestad´ıstico del crimen en el salvador 333 Modelo Lineal de corregionalizacio´n: variograma producto-suma espacio temporal Estudiar un feno´meno donde involucre una distribucio´n multivariante es- pacio-temporal, por ejemplo, varias variables podr´ıan medirse en localiza- ciones o lugares dados y para diferentes momentos o intantes de tiempo. En an˜os recientes muchos autores han venido estudiando el Modelo Lin- eal de Corregionalizacion (LCM) para un ana´lisis geoestadistico multiva- riante en el contexto espacial, este modelo no se ha utilizado para procesos espacio-temporales. Pero el esfuerzo a sido encaminado a que el vario- grama marginal para aun modelo espacio-temporal pueda ser extendido al caso multivariante. En particular el LCM es extendido para aplicaciones espacio temporal, donde el variograma ba´sico espacio temporal es mode- lado como un modelo producto-suma (De Iaco, Myers, y Posa, 2001). En este caso, cada uno de los variogramas en el MLC esta´ escrito en te´rminos de marginales en el espacio-tiempo y pueden ser fa´cilmente obtenidas. Sin embargo, un modelo espacio-temporal mas general con MLC, como el que integra el modelo producto y el producto-suma pueden ser usados. Sea (RF ) {Z(u, t), (u, t) ∈ D × T} una funcio´n aleatoria espacio-tem- poral estacionaria de segundo orden, donde D representa el espacio n- dimensioanl y T representa la dimensio´n del tiempo. La funcio´n C(h, τ) definida anteriormente debe ser definida positiva, a fin de que su co- varainza sea va´lida, es decir, en el marco de la prediccio´n krigeada, el ca´lculo de la inversa de la matriz de covarianza, necesaria para la ob- tencio´n del mejor predictor lineal e insesgado. Esto es, para cualquier (r1; q1), . . . , (rm; qm), cualquier valor real a1, ..., am, y cualquier intero pos- itivo m C debe satisfacer que m∑ i=1 m∑ j=1 C(ri − rj; qi − qj) ≥ 0. De Cesare (2001) introduce el desarrollo de modelos de covarianza producto-suma ver De Iaco, Myers, y Posa, 2001): C(h, τ) = k1Cx(h)Ct(τ) + k2Cx(h) + k3Ct(τ) donde Cx y Ct son respectivamente los modelos de covarianza espacial y temporal validos. As´ı, la condicio´n para que estas covarianzas sean va´lidas es k1 > 0, k2 ≥ 0 y k3 ≥ 0. En te´rminos de semivariograma usando estacionariedad, la expresio´n anterior puede ser expresada por γ(h, τ) = (k2 + k1Ct(0))γx(h) + (k3 + k1Cx(0))γt(τ)− k1γ(h)γt(τ) Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 334 w. rosa donde γx y γt son los modelos de semivariograma espacial y temporal, mientras que Cx(0) y Ct(0) son los valores sill. De Cesare (2001) definio´ las relaciones entre el espacio-temporal y los semivariogramas marginales como: γ(h, 0) = (k2 + k1Ct(0))γx(h) = kxγx(h) γ(0, τ) = (k3 + k1Cx(0))γt(τ) = ktγt(τ) Combinando γ(h, τ), γ(h, 0) y γ(0, τ) con C(0, 0) = k1Cx(0)Ct(0)+ k2Cx(0)+ k3Ct(0) resolvemos para k1, k2 y k3: k1 = kxCx(0) + ktCt(0)− C(0, 0) Cx(0)Ct(0) k2 = C(0, 0)− ktCt(0) Cx(0) k3 = C(0, 0)− kxCx(0) Ct(0) k = k1 kxkt = kxCx(0) + ktCt(0) kxCx(0)× ktCt(0) donde kxCx(0)ktCt(0) y C(0, 0) son los valores sill de γ(h, 0), γ(0, t) y γ(h, t). Segu´n De Iaco, la condicio´n de definicio´n de positividad se garan- tiza cuando 0 < k ≤ 1max{sill(γ(h,0)sill(γ(0,τ))} . 3 Planteamiento del problema geoestad´ıstico Se tienen las intensidades de homicidios en los 262 municipios de El Sal- vador del an˜o 2003 y 2008 y se dispone de dos tipos de datos (coordenado y campo escalar) para darle solucio´n al problema. Entonces, la confi- guracio´n de los homicidios ocurridos en el pa´ıs es la siguiente: cada he- cho delictivo es georeferenciado a partir del punto coordenado (segu´n la proyeccio´n geogra´fica que se este´ utilizando), estas coordenadas espaciales se dan como (x, y). Las intensidades sera´n el conjunto de esos eventos de homicidios ocurridos en todo el territorio de El Salvador, tomando como punto geogra´fico el centroide para cada municipio o lo que es lo mismo un dato de tipo campo escalar. En ese sentido, para predecir un valor no muestreado en la zona geogra´fica o municipio en particular, por ejemplo, el municipio con coordenada x = −89.1254, y = 14.1542. La ecuacio´n Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 modelo geoestad´ıstico del crimen en el salvador 335 tomara´ la forma de Z(s) = µ+ (s) donde s = (x, y) es la localidad, ejem- plo, un homicidio ocurrido en el municipio “z” con ubicacio´n geogra´fica s = (−89.1254, 14.1542); y Z(s) es el valor que toma la localidad, ejemplo, la intensidad de homicidios ocurridos en un municipio “z” igual a 50, su expresio´n queda as´ı: Z(−89.1254, 14.1542) = 50. El predictor toma la forma como una suma de pesos de las observaciones o datos, as´ı: Zˆ(s0) = ∑N i=1 λiZ(si). Donde Z(si) es el valor medido en el municipio i-e´simo, por ejemplo, Z(−89.1254, 14.1542) = 50, λi es el peso desconocido para el valor medido en el municipio i-e´simo, s0 es la prediccio´n del municipio, por ejemplo, (−89.1142, 14.4587), y N = 262 el nu´mero de observaciones o valores medidos. El problema es: Predecir espacialmente y espacio-temporalmente (en su caso) un valor muestreado o no observado en el a´rea de estudio, por ejemplo, predecir una intensidad de homicidios en una regio´n en donde no se ha observado ningu´n evento en la ocurrencia del homicidio. 4 Metodolog´ıa y herramientas Metodolog´ıa La metodolog´ıa que se utilizo´ fue la siguiente: Fase 1: Ana´lisis Estructural Espacial y Espacio-Temporal: aqu´ı se hizo uso del ana´lisis de segundo orden para determinar la caracterizacio´n de la estructura del feno´meno del crimen en El Salvador. Esto me- diante el ana´lisis del vecino ma´s pro´ximo (considerando el dato co- ordenado), el estad´ıstico K de Repley (considerando el tipo mixto de dato), el ana´lisis de correlacio´n con los Test de I de Moran para contrastar la hipo´tesis de aleatoriedad en el proceso estoca´stico del feno´meno del crimen, y finalmente, el estudio de la funcio´n de semi- variograma. Fase 2: Prediccio´n o Simulacio´n Geoestad´ıstica Espacial y Espacio-Tem- poral: se realizo´ una interpolar del feno´meno del homicidio tanto espacial como espacio-temporal. Para la creacio´n del escenario de- lictual se utilizo´ el estimador Cokriging en un contexto espacio- temporal. En lo que respecta al escenario delictual del homicidio para el an˜o 2009 en El Salvador fue necesario realizar una simulacio´n secuencial gaussiana geoestad´ıstica espacio-temporal considerando Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 336 w. rosa el modelo lineal de corregionalizacio´n basado en el modelo de cova- rianza no separable producto-suma De Cesare (2001). Herramientas En lo que respecta al ana´lisis exploratorio de datos espacio-temporal, es- timacio´n de para´metros del semivariograma y generacio´n del escenario delictual del homicidio se utilizaron: -lenguaje de programacio´n R con pa- quetes maptools, spdep, rgdal, geoR, sp, foreing, RColorBrewer y classInt. Por otro lado, para la transformacio´n anamorfosis/tipo gaussiano (in- dispensable para la simulacio´n secuencial gaussiana) se utilizaron los pa- quetes Gslib, Nscore, Backtr y gaussim; y para el escenario espacio- temporal considerando el enfoque cokriging se utilizo´ el paquete AR- CGIS9.2. 5 Ana´lisis de resultados Descripcio´n de datos y proyeccio´n geogra´fica Para la aplicacio´n se utilizaron las intensidades de homicidios ocurridos en El Salvador en el per´ıodo de 2003 hasta 2008 de los 262 municipios. La in- tensidad fue georreferenciada mediante el punto centroide correspondiente a la forma geogra´fica de cada municipio. Esta informacio´n fue llevada al Sistema de Informacio´n Geogra´fico para darle su respectivo tratamiento de la informacio´n. Este procesamiento de informacio´n fue realizado por separado: uno dirigido a datos de tipo coordenados y otro de tipo geoes- tad´ıstico. En el primer tipo de datos no fue necesario el realizar una trans- formacio´n de proyeccio´n geogra´fica, trabaja´ndose de esta manera con la proyeccio´n NAD27 (Norte Ame´rica Datum 1927). Para el segundo tipo de dato si fue necesario realizar una transformacio´n de proyeccio´n geogra´fica, convirtiendo la proyeccio´n NAD27 a una proyeccio´n UTM (zona 16 Norte) con Datum WGS1984. 5.1 Distribucio´n de los datos En la Figura 1 se muestra la distribucio´n de los datos de las intensidades de homicidios ocurridos en El Salvador, y tal como se observa, el promedio de homicidios durante los seis an˜os fue de 13.96. Las mayores intensidades se observan en los municipios de San Salvador, ubicado en la zona cen- tral del pa´ıs, Santa Ana, en la zona occidental, Sonsonate y Acajutla, Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 modelo geoestad´ıstico del crimen en el salvador 337 en la zona sur-occidente y San Miguel, ubicado en la zona oriental del pa´ıs. Al analizar esta distribucio´n territorial, el feno´meno presenta una variabilidad en cuanto a la ocurrencia del homicidio en municipios cuando se alejan de la mayor intensidad promedio de homicidios, provocando as´ı una heterogeneidad geogra´fica. Esto se observa en los gra´ficos de dis- tribucio´n de tales intensidades vista desde una zona Este (East) y una zona Norte (North). En estos dos tipos de gra´ficos esta´ bien evidenciada la concentracio´n de homicidios territorialmente, es decir, los municipios que se encuentran dentro de la franja o paleta de color rojo, su intensidad es mayor en la ocurrencia del homicidio, mientras que los municipios que experimentan menor intensidad en la ocurrencia del homicidio su color es menos intenso. Se observa adema´s el histograma de los datos, y efec- tivamente, su distribucio´n se corre hacia la izquierda, generando de esta manera una distribucio´n asime´trica en los datos. Figura 1: Distribucion de los datos. 5.2 Ana´lisis estructural y correlacio´n Como el objetivo nuestro es generar un escenario delictual del homicidio en El Salvador, se necesita grandemente de un ana´lisis estructural que pueda por medio de ello saber si el proceso estoca´stico espacio-temporal del crimen en el pa´ıs presenta un patro´n de tipo agregado y de dependen- Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 338 w. rosa cia o autocorrelacio´n espacio-temporal. Esto para tener evidencia de la existencia de grupos de municipios que presentan una baja, media y alta intensidad en la ocurrencia del homicidio. En el Cuadro 1 se muestra el ı´ndice del vecino ma´s pro´ximo (NNI) y el test de I de Moran. Se puede inferir a partir del ana´lisis del vecino ma´s pro´ximo que el feno´meno del crimen en El Salvador presenta un patro´n no aleatorizado, es decir, existen la evidencia de conformacio´n de grupos. Tambie´n, al analizar el ı´ndice de Moran con un nivel de significancia del 5% se rechaza la hipo´tesis nula (hipo´tesis de aleatoriedad), infiriendo de esta manera que hay presencia de dependencia o autocorrelacio´n espacial en la distribucio´n de homicidios en El Salvador. Mencionar adema´s que se obtuvieron resultados similares en cuanto al estad´ıstico de K de Repley, donde se rechazo´ de igual manera la hipo´tesis de aleatoriedad. En la Figura 2 se muestra la clasificacio´n espacial de la intensidad de homicidios ocurridos en El Salvador durante el an˜o de 2003 hasta 2008 y el estad´ıstico de autocorrelacio´n de I de Moran visto desde una perspectiva espacio-temporal (gra´fico Scatterplot). Tal como se observa, el indicador de local de autocorrelacio´n espacial es significativo, ya que tiene un valor de 0.54, infiriendo de esta manera que el feno´meno presenta una depen- dencia espacial y con tendencia al agrupamiento. Al analizar el mapa de clasificacio´n se mira que el grupo que presenta una mayor intensidad esta´n distribuidos en el primer cuadrante del gra´fico del estad´ıstico de I de Moran, y as´ı sucesivamente en el resto de cuadrantes del plano cartesiano. An˜o NN Evidencia de I´ndice de Dependencia Index Cluster Moran Espacial 2003 — 0.057892 S´ı 2004 0.347 S´ı 0.06856 S´ı 2005 0.314 S´ı 0.081236 S´ı 2006 0.347 S´ı 0.077652 S´ı 2007 0.332 S´ı 0.075466 S´ı 2008 0.367 S´ı 0.075605 S´ı Tabla 1: Ana´lisis del vecino ma´s pro´ximo y test de Moran. 5.3 Semiovariograma La generacio´n de un escenario delictual del homicidio en El Salvador para el an˜o 2009 se realizo´ a partir de dos enfoques: un enfoque mediante el es- Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 modelo geoestad´ıstico del crimen en el salvador 339 Figura 2: Clasificacio´n espacial del homicidio en El Salvador. timador Cokriging y otro mediante el Modelo Lineal de Corregionalizacio´n Producto-Suma. En la Figura 3 se muestra el ca´lculo del semivariograma y los para´metros de los modelos teo´ricos: esfe´rico, exponencial y gaussiano. En tal resul- tado se tiene que al analizar estos tres modelos, los ma´s ido´neos son el modelo exponencial y esfe´rico, uno por la mayor variabilidad explicada en los datos de homicidios y otro por no presentar una discontinuidad o efecto pepita nulo (ver para´metro de ecuacio´n correspondiente). Segu´n las estimaciones de la funcio´n de semivariograma, se observa que el modelo esfe´rico no sobrepasa el 50% del valor de la meseta. Con esto, se llega a la conclusio´n que para estimar las intensidades de homicidios se utilizara´ cualquiera de los dos modelos, aunque el que se utilizara´ sera´ el modelo esfe´rico por no haber experimentado un efecto pepita nulo. Figura 3: Semivariograma y modelos teo´rios. En la Figura 4 se presenta el ca´lculo de la funcio´n de covarianza no separable v´ıa modelo lineal de corregionalizacio´n producto-suma. Se mues- Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 340 w. rosa tra la estimacio´n del modelo de covarianza va´lido, y tal como se observa en grafico de semivariograma, la separacio´n espacial, su autocorrelacio´n es evidente en cuanto comparamos las intensidades de homicidios a medida que la distancia se incrementa, mostrando de esta manera una estaciona- riedad espacial en los datos. El modelo que ajusta a los datos de homicidios es el exponencial. Por otro lado, se observa un efecto pepita o nugget para la parte temporal. Figura 4: Semivariograma y modelo de covarianza no separable v´ıa producto-suma. 5.4 Prediccio´n y simulacio´n geoestad´ıstica La generacio´n de un escenario delictual se realizo´ mediante el enfoque de Cokriging y una simulacio´n geoestad´ıstica espacio-temporal (basado en una simulacio´n secuencial gaussiana). En lo que respecta a la simulacio´n se tuvo que realizar una transformacio´n anamorfosis a la funcio´n aleato- ria (considerada la intensidad de homicidios en El Salvador durante los seis an˜os) como un requisito indispensable para este tipo de simulacio´n v´ıa modelo de covarianza no separable producto-suma (School of GeoSciences, Institute of Atmosheric and Environmental Science, University of Edin- burgh, UK). De manera que las estimaciones o simulaciones obtenidas se tuvieron que transformar nuevamente para volverlas a su escala original utilizando la transformacio´n inversa gaussiana. En la Figura 5 se muestra el escenario delictivo de homicidio en El Sal- vador, al lado derecho se presenta el escenario de homicidios para el an˜o 2009 (enfoque Cokriging) y al lado izquierdo el escenario de homicidios generado a partir del modelo lineal de corregionalizacio´n v´ıa producto- suma (considerando el promedio de 100 simulaciones o realizaciones de las intensidades de homicidos). Tal como se observa en dichos mapas, el escenario muestra claramente las concentraciones de homicidios en las Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 modelo geoestad´ıstico del crimen en el salvador 341 zonas que se hab´ıan identificado en la clasificacio´n espacial contrastado con el estad´ıstico de I de Moran (ver figura 2). Son cinco concentraciones las que esta´n distribuidas territorialmente en el pa´ıs, donde la mayor in- cidencia esta´ siendo ma´s influenciada en la parte central y occidente del pa´ıs, dejando una concentracio´n en lo que respecta a la zona oriental. En la zona occidental los municipios ma´s violentos son Acajutla, Sonsonate y Santa Ana. Por otro lado, en la zona central los municipios ma´s violentos son San Salvador, Mejicanos, Ayutuxtepeque, San Marcos, San Martin, Soyapango, entre otros aledan˜os a ellos. Finalmente, la zona oriental los municipios que presentan una mayor intensidad en la ocurrencia del homi- cidio son las cabeceras departamentales de San Miguel y La Unio´n. Figura 5: Escenario delictual de homicidios: enfoques Cokriging y MLC. 6 Conclusiones El feno´meno del crimen en El Salvador en cuanto al ana´lisis estructural se constato´ que presenta una estructura de tipo agregada y una dependen- cia espacial positiva muy fuerte. Se ha logrado identificar por medio del ana´lisis de segundo orden que´ zonas son las ma´s violentas, esto mediante el ana´lisis del estad´ıstico de I de Moran como una herramienta para la clasificacio´n espacio-temporal. La prediccio´n fue posible realizarla por el hecho de haber detectado una variabilidad espacial y espacio-temporal del crimen muy fuerte, esto mediante el gra´fico de la funcio´n de semivariograma. Estimando as´ı el feno´meno a partir del modelo teo´rico esfe´rico en el enfoque Cokriging y una simulacio´n secuencial gaussiana v´ıa modelo de covarianza no separa- ble producto-suma. Teniendo como resultado un escenario delictual del Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011 342 w. rosa homicidio para el an˜o 2009. Referencias [1] Anselin, L. (1995) “Local indicators of spatial association - LISA”, Geographical Analysis 27(2): 93–115. [2] Castillejo, M. (2007) Teor´ıa Geoestad´ıstica aplicada al analisis de la Variabilidad Espacial Arqueolo´gica Intra-Site. Tesis Doctoral, Univer- sitat Auto`noma de Barcelona. [3] Cressie, N.; Wikle, C. (2002) “Space-time Kalman filter”, in: A. El- Shaarawi & W.W. Piegorsch (Eds.) Encyclopedia of Environmetrics , Volume 4: 2045–2049. [4] De la Cruz Rot, M. (2006) “Introduccio´n al ana´lisis de datos mapeados o algunas de las (muchas) cosas que puedo hacer si tengo coordenadas”, Ecosistemas 15(3): 19–23, [5] Dı´az, M.A. (2002) Geoestad´ıstica Aplicada. Instituto de Geof´ısica, UNAM, Me´xico, 131 pa´gs. [6] Gneiting, T.; Genton, M.G.; Guttorp, P. (1999) “Geostatistical space- time models, stationarity, separability and full symmetry”, Technical Report No. 475, Department of Statistics, University of Washington, Seattle. [7] Huang, H.C.; Mart´ınez, F.; Mateu, J.; Montes, F. (2007) “Model comparison and selection for stationary space-time models”, Compu- tational Statistics & Data Analysis 51(9): 4577–4596. [8] Berlanga, J.; Obrego´n, J. (1970) Geoestad´ıstica, apuntes: 44–115. [9] Kyriakidis, P.C.; Journel, A.G. (1999) “Geostatistical space-time mod- els: a review”, Mathematical Geology 31(6): 651–684. [10] De Iaco, S.; Myers, D.E.; Posa, D. (2003) “The linear coregionaliza- tion model y the product-sum space-time variogram”, Mathematical Geology 35(1): 25–38 Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 18(2): 325–342, July 2011