Esta es una pregunta difícil. Hasta donde yo sé, la agrupación óptima de un histograma sigue siendo un problema sin resolver. Creo que hay algunos que afirman haberlo resuelto, pero debo admitir que soy un poco escéptico.
Lo que está buscando es una forma de resumir los datos mientras pierde la cantidad mínima de información. Si bien no puedo responder esto directamente, puedo darle algunas cosas para considerar.
Si la medida puede expresarse como una variable dicotómica (o una variable categórica), el valor de la información (IV) puede ayudar con esta elección. IV alto significa que el binning es bueno, IV bajo significa que es malo. IV se usa para determinar la eficacia del binning en el modelado de crédito donde la medida para cada bin es la probabilidad de incumplimiento. Por lo general, se usa para la reducción variable, así como la medida de binning. Las variables con un IV, después del binning, de menos del 5% se desechan y las mayores del 5% se tienen en consideración, pero esto es una regla general.
Si los datos son datos de intervalo o de relación, entonces el binning es como ajustar una función lineal separada por partes sobre intervalos uniformes. Puede mirar una medida de R cuadrado o R ajustado para ayudarlo con su elección. Claramente, si el número de contenedores es igual al número de observaciones, esto sería 1. Resumir agregando observaciones adyacentes en intervalos uniformes causaría que la estadística caiga por debajo de 1.
- ¿Cuál es el arte más moderno en este momento?
- ¿Debo cambiar mi departamento después de servirlo durante 10 años? ¿Debo correr el riesgo?
- A medida que aumente el ateísmo, el agnosticismo y el deísmo, ¿la religión finalmente dejará de existir?
- Con la aparición de las tecnologías de Big Data (por ejemplo, Hadoop, NoSQL, DB en memoria, etc.), ¿morirán las tecnologías de almacenamiento de datos / minería de datos / ETL?
- ¿La reacción social en masa reacciona lentamente ante las nuevas y seguras tendencias prácticas que de todos modos se implementarán en un determinado momento?
El lugar en el que traza la línea con la agregación dependerá de cómo equilibre la información contenida en el resumen con la simplificación de los datos. No estoy seguro de que pueda haber una “mejor práctica” aquí, ya que dependerá en gran medida de los datos considerados y del conocimiento del dominio del analista.