Une nouvelle étape pour l’informatique [Partie 2]: Le Biologique

Xavier Vasques
11 min readNov 13, 2021
Photo by Annamária Borsos

Retrouvez le premier chapitre et le troisième parlant respectivement des systèmes binaires et quantiques.

Une molécule d’ADN est destinée par nature à stocker de l’information génétique grâce aux quatre bases azotées qui composent une molécule d’ADN (A, C, T, et G). Il est aujourd’hui possible de transcrire des données numériques en un nouveau code génétique. Le séquençage ADN permet ensuite de lire l’information stockée. L’encodage est lui automatisé via un logiciel. Une molécule d’ADN estcomposée de 3 milliards de nucléotides (base azotée). Une équipe à récemment publié dans le journal Science la capacité de stocker un système d’exploitation, un film français de 1895 (L’Arrivée d’un train à La Ciotat par Louis Lumière), un article scientifique, une photo, un virus et une carte cadeau de 50$ dans des brins d’ADN, et de récupérer les données sans erreurs. Dans un gramme d’ADN, 215 pétaoctets de données peuvent être stockés. Il serait possible de stocker toutes les données créées par les humains dans une seule pièce. De plus, l’ADN peut théoriquement conserver des données en parfait état pendant une durée extrêmement longue. Dans des conditions idéales, on estime que l’ADN pourrait encore être déchiffré après plusieurs millions d’années grâce aux « gènes de longévité ». L’ADN peut résister aux conditions météorologiques les plus extrêmes. Ce n’est pas encore pour demain, car il existe encore de nombreux défis comme par exemple les coûts élevés et les délais de traitement qui peuvent être extrêmement longs.

Inspirés par les neurosciences et combinant la biologie et l’information, les systèmes de deep learning ont été conçus pour atteindre et même dépasser les performances humaines sur de nombreuses tâches. Ces systèmes peuvent par exemple utiliser des réseaux neuronaux pour créer des modèles. Ces modèles sont formés en apprenant à partir de grands ensembles de données. L’expression IA en tant que telle apparaît en 1956. Plusieurs chercheurs américains, dont John McCarthy, Marvin Minsky, Claude Shannon et Nathan Rochester d’IBM, très en pointe dans des recherches qui utilisent des ordinateurs pour autre chose que des calculs scientifiques, se sont réunis à l’université de Dartmouth, aux États-Unis. Trois ans après le séminaire de Dartmouth, les deux pères de l’IA, McCarthy et Minsky, fondent le laboratoire d’IA au MIT. Il y a eu beaucoup d’investissement, une trop grande ambition, imiter le cerveau humain, et beaucoup d’espoir non concrétisé à l’époque. Les promesses n’ont pas été tenues. Une approche plus pragmatique est apparue dans les années 70 et 80 avec l’émergence du machine learning et la réapparition des réseaux de neurones à la fin des années 80. Cette approche plus pragmatique, l’augmentation de la puissance de calcul et de la quantité de données a permis qu’aujourd’hui l’IA s’invite dans tous les domaines, c’est un sujet transversal. L’utilisation massive d’IA pose quelques défis comme le besoin de labéliser les données à notre disposition. Le problème avec l’automatisation c’est qu’elle demande beaucoup de travail manuel. L’IA a besoin d’éducation. Cela est fait par des dizaines de milliers de travailleurs autour du monde ce qui ne ressemble pas vraiment à ce que l’on pourrait appeler une vision futuriste. Un autre défi c’est le besoin en puissance de calcul. L’IA a besoin d’être entrainée et pour cela l’IA est de plus en plus gourmande en moyens de calculs. L’entrainement demande un doublement des capacités de calcul tous les 3.5 mois (10).

Source: AI and Compute, OpenAI, https://openai.com/blog/ai-and-compute/#fn1

Plusieurs approches sont aujourd’hui utilisées et envisagées. Comme pour le supercalculateur Summit, le calcul de certaines charges de travail est déporté vers des accélérateurs comme les GPUs. Il en existe d’autres comme les FPGAs (Field Programmable Gate Arrays ou “réseaux logiques programmables) qui peuvent réaliser la ou les fonctions numériques voulues. L’intérêt est qu’une même puce peut être utilisée dans de nombreux systèmes électroniques différents.

Le progrès dans le domaine des neurosciences va permettre de désigner des processeurs directement inspirés du cerveau. La façon que notre cerveau transmet l’information n’est pas binaire. Et c’est grâce à Santiago Ramón y Cajal (1852–1934), histologiste et neuroscientifique espagnol, prix Nobel de physiologie ou médecine en 1906 avec Camillo Golgi que nous connaissons mieux l’architecture du système nerveux. Les neurones sont des entités cellulaires séparées par de fins espaces, les synapses, et non des fibres d’un réseau ininterrompu (11). L’axone d’un neurone transmet des influx nerveux, des potentiels d’actions, à des cellules cibles. La prochaine étape en ce qui concerne le développement de nouveaux types de processeurs spécialisés pour l’IA et inspirés par le cerveau c’est de penser différemment la manière dont on calcul aujourd’hui. Aujourd’hui un des problèmes majeurs de la performance c’est le mouvement des données entre les différents composants de l’architecture de von Neumann : processeur, mémoire, stockage. Il est donc impératif d’ajouter des accélérateurs analogiques. Ce qui domine aujourd’hui les calculs numériques et notamment les calculs de deep learning est la multiplication en virgule flottante. Une des méthodes envisagées comme un moyen efficace de gagner en puissance est de revenir en arrière en réduisant la précision également appelée calcul approximatif. Par exemple, les moteurs de précision 16 bits sont plus de 4x plus petits que les moteurs de précision 32 bits. Ce gain augmente les performances et l’efficacité énergétique. En termes simples, dans le calcul approximatif, nous pouvons faire un compromis en échangeant la précision numérique contre l’efficacité du calcul. Certaines conditions sont néanmoins nécessaires comme développer en parallèle des améliorations algorithmiques pour garantir une isoprécision (1). Dans le cadre d’algorithmes ML/DL, IBM a récemment démontré le succès de cette approche avec des nombres en virgules flottantes à 8 bits, en utilisant de nouvelles techniques pour maintenir la précision des calculs de gradients et la mise à jour des poids pendant la rétropropagation (12) (13). De même pour l’inférence d’un modèle issu de l’entrainement d’algorithme de deep learning, l’utilisation unique de l’arithmétique entière sur 4 ou 2 bits de précision atteint une précision comparable à une gamme de modèles de réseaux de neurones et ensembles de données populaires (14). Cette progression conduira à une augmentation spectaculaire de la capacité de calcul pour les algorithmes de deep learning au cours de la prochaine décennie.

Les accélérateurs analogiques sont une autre voie évitant le goulot d’étranglement de l’architecture de von Neumann (15) (16). L’approche analogique utilise des unités de traitement résistives programmables (RPUs) non volatiles qui peuvent encoder les poids d’un réseau neuronal. Des calculs comme la multiplication matricielle ou vectorielle ou les opérations des éléments matricielles peuvent être effectués en parallèle et en temps constant, sans mouvement des poids (1). Dans une architecture de puce analogique, le réseau IA est alors représenté par des tableaux liés entre eux. Des fonctions d’activation non linéaires sont insérées dans la connexion entre les tableaux et peuvent être effectuées soit dans l’espace numérique, soit en analogique. Les poids étant stationnaires, le trafic de données est considérablement réduit, ce qui atténue le goulot d’étranglement de von Neumann. Cependant, contrairement aux solutions numériques, l’IA analogique sera plus sensible aux propriétés des matériaux et intrinsèquement plus sensible au bruit et à la variabilité. Ces facteurs doivent être traités par des solutions architecturales, des nouveaux circuits et algorithmes. Par exemple, les mémoires non volatiles (NVM) analogues (17) peuvent efficacement accélérer les algorithmes de « backpropagation ». En combinant le stockage à long terme dans des dispositifs de mémoire à changement de phase (PCM), la mise à jour quasi linéaire des condensateurs CMOS conventionnels et des nouvelles techniques pour éliminer la variabilité d’un appareil à l’autre, des résultats significatifs ont commencé à émerger pour le calcul de DNNs (Deep Neural Network) (18) (19) (20). Ces expériences ont utilisé une approche mixte matérielle logicielle, combinant des simulations logicielles d’éléments de système faciles à modéliser avec précision (tels que des appareils CMOS) avec une implémentation matérielle complète des composants PCM. La recherche s’est également lancée dans une quête afin de construire une puce directement inspirée du cerveau (21). Dans un article publié dans Science (22), IBM et ses partenaires universitaires ont mis au point un processeur appelé SyNAPSE qui est composé d’un million de neurones. La puce ne consomme que 70 milliwatts et est capable d’effectuer 46 milliards d’opérations synaptiques par seconde, par watt, littéralement un superordinateur synaptique tenant dans une paume de main. Nous sommes passés des neurosciences aux superordinateurs, à une nouvelle architecture informatique, à un nouveau langage de programmation, à des algorithmes, à des applications et maintenant à une nouvelle puce qui s’appelle TrueNorth (23). TrueNorth c’est un circuit intégré CMOS neuromorphique produit par IBM en 2014. Il s’agit d’un réseau de processeur « manycore », avec 4096 cœurs, chacun ayant 256 neurones simulés programmables pour un total d’un peu plus d’un million de neurones. À son tour, chaque neurone possède 256 synapses programmables permettant le transport des signaux. Par conséquent, le nombre total de synapses programmables est légèrement supérieur à 268 millions. Le nombre de transistors de base est de 5,4 milliards. Étant donné que la mémoire, le calcul et la communication sont gérés dans chacun des 4096 cœurs neurosynaptiques, TrueNorth contourne le goulot d’étranglement de l’architecture von Neumann et est très économe en énergie. Il a une densité de puissance de 1/10 000 des microprocesseurs conventionnels.

Source : https://www.research.ibm.com/articles/brain-chip.shtml

Retrouvez le premier chapitre et le troisième parlant respectivement des systèmes binaires et quantiques.

References

1. The Future of Computing: Bits + Neurons + Qubits. Green, Dario Gil and William M. J. arXiv:1911.08446 [physics.pop-ph].

2. ECRAM as Scalable Synaptic Cell for High-Speed, Low-Power Neuromorphic Computing. Jianshi Tang, Douglas Bishop, Seyoung Kim, Matt Copel, Tayfun Gokmen, Teodor Todorov, SangHoon Shin,Ko-Tao Lee, Paul Solomon, Kevin Chan, Wilfried Haensch, John Rozen. IEEE-IEDM (2018).

3. Neuromorphic computing using non-volatile memory. G. W. Burr, R. M. Shelby, A. Sebastian, S. Kim, S. Kim and e. al. 2016, Advances in Physics: X, Vol. vol. 2, pp. pp. 89–124.

4. TrueNorth: Accelerating From Zero to 64 Million Neurons in 10 Years. al, M. V. DeBole et. no. 5, May 2019, Computer, Vol. vol. 52, pp. pp. 20–29.

5. A Symbolic Analysis of Relay and Switching Circuits. Shannon, Claude E. s.l. : Massachusetts Institute of Technology, Dept. of Electrical Engineering, 1940.

6. A Mathematical Theory of Communication. Shannon, Claude E. p. 379–423 and 623–656, s.l. : Bell System Technical Journal, 1948, Vol. vol. 27.

7. The Mathematical Theory of Communication. Claude E. Shannon, Warren Weaver. Urbana, Illinois : The University of Illinois Press, 1949.

8. Molecular digital data storage using DNA. Luis Ceze, Jeff Nivala, Karin Strauss. s.l. : Nat Rev Genet , 2019, Vol. 20.

9. IBM Z mainframe capabilities. [En ligne] https://www.ibm.com/it-infrastructure/z/capabilities?cm_mmc=OSocial_Twitter-_-Systems_Systems+-+Cross-_-WW_WW-_-Zstats-87percent&linkId=72022252&fbclid=IwAR3gti8qo5F5APjqjMoKFS3LmS0WwiKqZ6fejABlK3w6t7QJLW69CP0ZpM8.

10. Peng, Tony. AI Doubling Its Compute Every 3.5 Months. [En ligne] https://syncedreview.com/2018/05/17/ai-doubling-its-compute-every-3-5-months/.

11. The discovery of dendritic spines by Cajal. Yuste, Rafael. s.l. : Front Neuroanat, 2015.

12. Gradient-based learning applied to document recognition. Y. LeCun, L. Bottou, Y. Bengio and P. Haffner. 1998, Proceedings of the IEEE, Vol. vol. 86, pp. pp. 2278–2324.

13. Deep learning with limited numerical precision. S. Gupta, A. Agrawal, K. Gopalkrishnan and P. Narayanan. 2015, International Conference on Machine Learning.

14. PACT: PARAMETERIZED CLIPPING ACTIVATION FOR QUANTIZED NEURAL NETWORKS. Jungwook Choi, Zhuo Wang, Swagath Venkataramani, Pierce I-Jen Chuang, Vijayalakshmi Srinivasan, Kailash Gopalakrishnan. 17 Jul 2018, arXiv:1805.06085v2 [cs.CV] .

15. The next generation of deep learning hardware: Analog computing. W. Haensch, T. Gokmen and R. Puri. 2018, Proceedings of the IEEE, Vol. vol. 107, , pp. pp. 108–122.

16. Equivalent- accuracy accelerated neural-network training using analogue memory. S. Ambrogio, P. Narayanan, H. Tsai, R. Shelby, I. Boybat and e. al. 2018, Nature, Vol. vol. 558, pp. pp. 60–67.

17. Weight programming in DNN analog hardware accelerators in the presence of NVM variability. C. Mackin, H. Tsai, S. Ambrogio, P. Narayanan, A. Chen and G. W. Burr. 2019, Advanced Electronic Materials, Vol. vol. 5, p. p. 1900026.

18. Neuromorphic computing using non-volatile memory. G. W. Burr, R. M. Shelby, A. Sebastian, S. Kim, S. Kim and e. al. 2016, Advances in Physics: X, Vol. vol. 2, pp. pp. 89–124.

19. Multilevel-Cell Phase-Change Memory: A Viable Technology. 6(1), 87–100, 2016., IEEE J. Emerging and Selected Topics in Circuits and Systems .

20. Recent Progress in Phase-Change Memory Technology. G.W. Burr, M.J. Brightsky, A. Sebastian, H.-Y. Cheng, J.-W. Wu, S. Kim, N.E. Sosa. N. Papandreou, H.-L. Lung, H. Pozidis, E. Eleftheriou, C.H. Lam. IEEE J. Emerging and Selected Topics in Circuits and Systems, Vol. 6(2), 146–162, 2016.

21. Neuromorphic computing with multi-memristive synapses. Irem Boybat, Manuel Le Gallo, S. R. Nandakumar, Timoleon Moraitis, Thomas Parnell, Tomas Tuma, Bipin Rajendran, Yusuf Leblebici, Abu Sebastian & Evangelos Eleftheriou. s.l. : Nature Communications , 2018, Vol. 9.

22. A million spiking-neuron integrated circuit with scalable communication network and interface. al., Paul A. Merolla et. Issue 6197, pp. 668–673, s.l. : Science, 2014, Vol. Vol. 345, .

23. TrueNorth: Accelerating From Zero to 64 Million Neurons in 10 Years. al., Michael V. DeBole et. pp. 20–28, s.l. : IEEE Computer, 2019, Vol. 52.

24. Feynman, Richard. s.l. : International Journal of Theoretical Physics, 1982, Vol. Vol 21, Nos. 6/7, 1982.

25. Nay, Chris. IBM Opens Quantum Computation Center in New York; Brings World’s Largest Fleet of Quantum Computing Systems Online, Unveils New 53-Qubit Quantum System for Broad Use. [En ligne] https://newsroom.ibm.com/2019-09-18-IBM-Opens-Quantum-Computation-Center-in-New-York-Brings-Worlds-Largest-Fleet-of-Quantum-Computing-Systems-Online-Unveils-New-53-Qubit-Quantum-System-for-Broad-Use.

26. Validating quantum computers using randomized model circuits. Andrew W. Cross, Lev S. Bishop, Sarah Sheldon, Paul D. Nation, and Jay M. Gambetta. s.l. : arXiv:1811.12926v2 [quant-ph], 2019.

27. Hardware-efficient variational quantum eigensolver for small molecules and quantum magnets. Abhinav Kandala, Antonio Mezzacapo, Kristan Temme, Maika Takita, Markus Brink, Jerry M. Chow & Jay M. Gambetta. pages242–246, s.l. : Nature , 2017, Vol. volume 549, .

28. Computational Investigations of the Lithium Superoxide Dimer Rearrangement on Noisy Quantum Devices. Qi Gao, Hajime Nakamura, Tanvi P. Gujarati, Gavin O. Jones, Julia E. Rice, Stephen P. Wood, Marco Pistoia, Jeannette M. Garcia, Naoki Yamamoto. s.l. : arXiv:1906.10675 [quant-ph], 2019.

29. Quantum risk analysis. Stefan Woerner, Daniel J. Egger. s.l. : npj Quantum Information , 2019, Vol. volume 5.

30. Quantum Generative Adversarial Networks for Learning and Loading Random Distributions. Christa Zoufal, Aurélien Lucchi, Stefan Woerner. s.l. : arXiv:1904.00043 [quant-ph].

31. Amplitude estimation without phase estimation. Yohichi Suzuki, Shumpei Uno, Rudy Raymond, Tomoki Tanaka, Tamiya Onodera, Naoki Yamamoto. s.l. : Quantum Information Processing, 19, 75, 2020.

32. Credit Risk Analysis using Quantum Computers. Daniel J. Egger, Ricardo Gacía Gutiérrez, Jordi Cahué Mestre, Stefan Woerner. s.l. : arXiv:1907.03044 [quant-ph].

33. Option Pricing using Quantum Computers. Nikitas Stamatopoulos, Daniel J. Egger, Yue Sun, Christa Zoufal, Raban Iten, Ning Shen, Stefan Woerner. s.l. : arXiv:1905.02666 [quant-ph].

34. Improving Variational Quantum Optimization using CVaR. Panagiotis Kl. Barkoutsos, Giacomo Nannicini, Anton Robert, Ivano Tavernelli, Stefan Woerner. s.l. : arXiv:1907.04769 [quant-ph].

35. Supervised learning with quantum-enhanced feature spaces. Vojtěch Havlíček, Antonio D. Córcoles, Kristan Temme, Aram W. Harrow, Abhinav Kandala, Jerry M. Chow & Jay M. Gambetta. pages 209–212, s.l. : Nature , 2019, Vol. volume 567.

36. Analysis and synthesis of feature map for kernel-based quantum classifier. Yudai Suzuki, Hiroshi Yano, Qi Gao, Shumpei Uno, Tomoki Tanaka, Manato Akiyama, Naoki Yamamoto. s.l. : arXiv:1906.10467 [quant-ph].

37. Quantum Chemistry Simulations of Dominant Products in Lithium-Sulfur Batteries. Julia E. Rice, Tanvi P. Gujarati, Tyler Y. Takeshita, Joe Latone, Mario Motta, Andreas Hintennach, Jeannette M. Garcia. s.l. : arXiv:2001.01120 [physics.chem-ph], 2020.

38. [En ligne] https://www.research.ibm.com/frontiers/ibm-q.html.

39. [En ligne] https://news.exxonmobil.com/press-release/exxonmobil-and-ibm-advance-energy-sector-application-quantum-computing.

40. https://spectrum.ieee.org/tech-history/cyberspace/celebrating-claude-shannon

41. https://newsroom.ibm.com/2019-09-12-IBM-Unveils-z15-With-Industry-First-Data-Privacy-Capabilities

42. https://newsroom.ibm.com/Gordon-Bell-Prize-Winners-Embrace-Summit-to-Advance-COVID-19-Research

43. https://fr.newsroom.ibm.com/announcements?item=123479

--

--

Xavier Vasques

CTO and Distinguished Data Scientist, IBM Technology, France Head of Clinical Neurosciences Research Laboratory, France