¿Cuántos puntos de datos en un gráfico de líneas de tendencia son mejores?

Esta es una pregunta difícil. Hasta donde yo sé, la agrupación óptima de un histograma sigue siendo un problema sin resolver. Creo que hay algunos que afirman haberlo resuelto, pero debo admitir que soy un poco escéptico.

Lo que está buscando es una forma de resumir los datos mientras pierde la cantidad mínima de información. Si bien no puedo responder esto directamente, puedo darle algunas cosas para considerar.

Si la medida puede expresarse como una variable dicotómica (o una variable categórica), el valor de la información (IV) puede ayudar con esta elección. IV alto significa que el binning es bueno, IV bajo significa que es malo. IV se usa para determinar la eficacia del binning en el modelado de crédito donde la medida para cada bin es la probabilidad de incumplimiento. Por lo general, se usa para la reducción variable, así como la medida de binning. Las variables con un IV, después del binning, de menos del 5% se desechan y las mayores del 5% se tienen en consideración, pero esto es una regla general.

Si los datos son datos de intervalo o de relación, entonces el binning es como ajustar una función lineal separada por partes sobre intervalos uniformes. Puede mirar una medida de R cuadrado o R ajustado para ayudarlo con su elección. Claramente, si el número de contenedores es igual al número de observaciones, esto sería 1. Resumir agregando observaciones adyacentes en intervalos uniformes causaría que la estadística caiga por debajo de 1.

El lugar en el que traza la línea con la agregación dependerá de cómo equilibre la información contenida en el resumen con la simplificación de los datos. No estoy seguro de que pueda haber una “mejor práctica” aquí, ya que dependerá en gran medida de los datos considerados y del conocimiento del dominio del analista.

Esto depende en parte de lo que esté midiendo y de si es continuo o categórico. Asumiré aquí que es continuo.

Dejaría muchos puntos y los desmayaría. Puede ser necesario inquietarlos. Luego agregaría líneas de suavizado de un tipo u otro.

También deconstruiría las series de tiempo en diferentes componentes. Exactamente cuáles son esos componentes dependería de los datos, pero a menudo 3 o 4 componentes son buenos. Por ejemplo, si tuviera datos por hora durante varios años sobre la temperatura del aire, tendría un componente diario, un componente estacional, un componente de tendencia y un componente de ruido.