Primero de todo, decir que con los matemáticos que tenemos por el foro, vergüenza me daría que un biólogo tenga que abrir estos temas. Pero entremos en materia.
Parece ser que poniendo a jugar a AlphaTensor con el cálculo de multiplicaciones matriciales ha conseguido descubrir nuevos atajos que nos permitirían hallar la matriz resultante reduciendo el número de operaciones necesarios para llegar a dicho resultado.
La cuestión es que la solución no parece ser universal, sino que encuentra un sistema para cada uno de los tamaños de matrices y dependiendo del tipo de multiplicación el margen de mejora varía:
Left: column (n, m, p) refers to the problem of multiplying n × m with m × p matrices. The complexity is measured by the number of scalar multiplications (or equivalently, the number of terms in the decomposition of the tensor). ‘Best rank known’ refers to the best known upper bound on the tensor rank (before this paper), whereas ‘AlphaTensor rank’ reports the rank upper bounds obtained with our method, in modular arithmetic (ℤ2) and standard arithmetic. In all cases, AlphaTensor discovers algorithms that match or improve over known state of the art (improvements are shown in red). See Extended Data Figs. 1 and 2 for examples of algorithms found with AlphaTensor. Right: results (for arithmetic in ℝ) of applying AlphaTensor-discovered algorithms on larger tensors. Each red dot represents a tensor size, with a subset of them labelled. See Extended Data Table 1 for the results in table form. State-of-the-art results are obtained from the list in ref.
La multiplicación de matrices es uno de los cálculos fundamentales en infinidad de procesos actuales, desde las propias físicas de objetos en animación hasta los propios sistemas de inteligencia artificial que basan su entrenamiento en propagar la información a base de realizar este tipo de multiplicaciones.
a,b, Speed-ups (%) of the AlphaTensor-discovered algorithms tailored for a GPU (a) and a TPU (b), optimized for a matrix multiplication of size 8,192 × 8,192. Speed-ups are measured relative to standard (for example, cuBLAS for the GPU) matrix multiplication on the same hardware. Speed-ups are reported for various matrix sizes (despite optimizing the algorithm only on one matrix size). We also report the speed-up of the Strassen-square algorithm. The median speed-up is reported over 200 runs. The standard deviation over runs is <0.4 percentage points (see Supplementary Information for more details). c, Speed-up of both algorithms (tailored to a GPU and a TPU) benchmarked on both devices.
Si fuera matemático supongo que podría daros más detalles, para los novatillos tenemos artículo en la vanguardia:
https://www.lavanguardia.com/vida/20221007/8557564/ia-deepmind-halla-nueva-forma-multiplicar-matrices-acelerar-calculos.html
Y para los más expertos, el paper original que acaba de publicarse este mismo mes:
https://www.nature.com/articles/s41586-022-05172-4