CatBoost: El nuevo algoritmo de aprendizaje automático de Yandex

Algoritmo de aprendizaje automático CatBoost.

Algoritmo de aprendizaje automático CatBoost.

Yandex
El gigante ruso de Internet Yandex ha lanzado CatBoost, un servicio de aprendizaje automático de código abierto. El algoritmo ya ha sido integrado por la Organización Europea para la Investigación Nuclear, con la idea analizar datos del Gran Colisionador de Hadrones, la instalación experimental más sofisticada del mundo.

El “aprendizaje automático” ayuda a tomar decisiones mediante el análisis de datos y se puede utilizar en muchas áreas diferentes, incluyendo la elección de música y el reconocimiento facial. Yandex, una de las principales empresas tecnológicas de Rusia, ha desarrollado un avanzado algoritmo de aprendizaje automático, CatBoost, que está disponible gratuitamente para desarrolladores de todo el mundo.

"Esta es la primera muestra de tecnología rusa de aprendizaje automático de código abierto", afirmó Mijaíl Bilenko, jefe de Yandex de inteligencia de artificial.

 ¿Qué tienen que ver los gatos con todo esto?
 
El “Cat” del nombre CatBoost no se refiere a un "gato" común. De hecho, significa "impulso categórico": el algoritmo funciona no sólo con números sino también con muchas otras "categorías" de datos, como audio, texto o imágenes, incluyendo datos históricos.

 "CatBoost se basa en el aumento de gradiente, una tecnología de aprendizaje automático que funciona muy bien con datos de diferentes fuentes", afirmó Anna-Veronika Dorogush, jefe de desarrollo de sistemas de aprendizaje de máquina en Yandex.
 
El algoritmo, por ejemplo, es ideal para la predicción del tiempo, donde es importante analizar una combinación de datos históricos, modelos y datos meteorológicos. Yandex ya está usando CatBoost como parte de su servicio de pronóstico del tiempo, para mejorar la precisión.
 
Contribución al aprendizaje automático
 
Según Yandex, el algoritmo demostró ser eficaz en diferentes industrias, incluyendo la banca y la producción. CatBoost ayudó a un cliente a mejorar la calidad de su acero.
 
"La mayoría de los algoritmos de aprendizaje de máquina funcionan sólo con datos numéricos, como altura, peso o temperatura", explicó Dorogush. Otros datos, como tipos de nubes o edificios, tenía que ser "traducidos" a números antes de que los desarrolladores pudieran usarlo. Pero a veces la información se pierde en el proceso, y esto afecta el resultado final.
 
"Hemos hecho de CatBoost una fuente abierta para dar a los científicos de todo el mundo una herramienta sencilla y precisa", dijo Bilenko. "Esa es nuestra contribución al desarrollo del aprendizaje automático".