Ejem, levante la mano el que alguna vez quiso hacer algo con los continuos. (Yo tenía un método, pero a los revisores no les gustó mucho...)
Aquí Marcos toca el tema de la escala. Hay una escala en la que se registran los datos, y una en la que se calculan los costos. Multiplicando por una constante, las escalas de registro y de costos pueden hacerse coincidir, y es lo que se entiende por analizar los datos "como vienen". (Los datos vienen en m, cm, mm, etc.)
Todo esto tendría sentido si hubiera escalas "naturales" evidentes en los datos, por ejemplo la escala lineal. Sin embargo, hay otras escalas (logarítmica, lognormal [Limpert et al. 2001], cuadráticas, etc.). Mucha gente opina que estas escalas son tanto o más naturales que la escala lineal. Por ejemplo, en una escala logarítmica de base 10 , el costo entre 1 y 10 sería igual al costo entre 10 y 100.
Esto no es sólo retórica. Uno podría medir número de escamas sobre una línea, o sobre unidad de superficie (densidad). Estos dos registros sugerirían escalas lineales y cuadráticas, respectivamente. Otro ejemplo: en vez de registrar la longitud de una estructura se podría medir el peso o el volumen (escala cúbica).
Al cambiar la escala cambian los costos relativos (pero no las optimizaciones para un árbol dado: Maddison and Slatkin, 1990) y pueden cambiar los árboles óptimos. Cuáles son los argumentos para justificar la elección de una escala determinada para calcular costos?
Como aproximación teórica, yo creo que la escala tiene que justificarse de acuerdo a lo que se hereda y evoluciona. Según el caso, la base genética del carácter en cuestión puede trabajar sobre una densidad de estructuras repetidas, un tamaño, un volumen, o una combinación de estos u otros parámetros.
Como aproximación pragmática, dado que es raro que conozcamos las bases genéticas de un carácter para una especie, mucho más raro para varias especies en un dataset, y muchísimo más raro que sepamos nada de nada si estamos usando esos caracteres de porquería, podemos hacernos a la idea de que estamos aplicando un método groseramente aproximado y usar alguna escala sencilla, cualquiera. Y tal vez probar con un par de escalas más, y avisarle al lector "ojo que los resultados dependen de la elección de escala".
Muchos saludos,
Martín
Limpert E, Stahel WA and Abbt M, 2001. Lognormal distributions across the sciences: keys and clues. Bioscience 51 (5), 341-352. http://www.inf.ethz.ch/personal/gut/lognormal/bioscience.pdf
Maddison, W. and Slatkin. 1990. Parsimony reconstructions of ancestral states do not depend on the relative distances between linearly-ordered character states. Syst. Zool. 39:175-178.
At 02:45 PM 8/31/2006, you wrote:
Hola gente. Evidentemente después de la "I Reunión Argentina de Caracterescontinuística y Biogeografía", realizada en Trelew, muchos quedamos con la pregunta: "¿será que los caracteres continuos realmente sirven para algo?".
Independencia y rangos aparte, me gustaría agregar algo que quizás (también) merezca la pena discutir (si, debo admitirlo, yo también busqué una solución empírica a la pregunta anterior) con respecto a caracteres merísticos.
El tema es: cuando discretizamos un carácter merístico en unos pocos estados, en general tenemos en cuenta (in o subconcientemente) la distribución de los recuentos observados, algo que en general no se considera al tratar a estos caracteres como continuos.
Por ejemplo, si vemos que un grupo de bichos tienen 1 diente, otro grupo 2, y el resto un número variable entre 5 y 50, lo más probable es que hagamos: {001 dientes (0)_1_diente (1)_2_dientes (2)_5_o_más_dientes; En ese caso tendríamos un paso entre 1 diente y 2, y un paso entre 2 y (pongamos) 10 dientes.
Si, en cambio, consideramos a este carácter como continuo, con un "peso total" de 2, tendríamos que un paso entre 1 y 2 dientes valdría sólo 0.04, igual que un paso entre 49 y 50 dientes.
Entonces, se me ocurrió que tiene que ser importante, además de estandarizar los valores mínimo y máximo de los caracteres continuos, para que sean comparables con los "discretos", transformar de alguna manera los datos para ajustarlos a una distribución "más normal". Al menos si estamos interesados en que el tratamiento de estos caracteres sea igual que el del resto (porque al final los discretos son sólo "discretos", y su definición de estados no es muy diferente a la de 1 2 (5 o más)).
Ahora bien, la idea era usar los datos tal como venían, ¿no?. Por ahí me parece que para que estos datos sean comparables (entre sí y con los "discretos") hay que transformarlos tanto que ya no vale la pena usarlos como continuos... y que siguen siendo un uuuuultimo recurso, si nuestro ojo discretizador falla, o trabajamos con bichos de porquería que no tienen caracteres, o peor aún, con fósiles (o alguna combinación de estas cosas, como le sucede a Nacho).
Saludos a todos.
Marcos.
Martín J. Ramírez
División Aracnología
Museo Argentino de Ciencias Naturales
Av. Angel Gallardo 470
C1405DJR Buenos Aires
Argentina
tel +54 11 4982-8370 int. 169
fax +54 11 4982-4494