China Races Ahead in TOP500 Supercomputer List, Ending US Supremacy

A new Chinese supercomputer, the Sunway TaihuLight, captured the number one spot on the latest TOP500 list of supercomputers released on Monday morning at the ISC High Performance conference (ISC) being held in Frankfurt, Germany.  With a Linpack mark of 93 petaflops, the system outperforms the former TOP500 champ, Tianhe-2, by a factor of three. The machine is powered by a new ShenWei processor and custom interconnect, both of which were developed locally, ending any remaining speculation that China would have to rely on Western technology to compete effectively in the upper echelons of supercomputing.


TaihuLight is currently up and running at the National Supercomputing Center in the city of Wuxi, a manufacturing and technology hub, a two-hour drive west of Shanghai. The system will be used for various research and engineering work, in areas such as climate, weather & earth systems modeling, life science research, advanced manufacturing, and data analytics. Center director Prof. Dr. Guangwen Yang, will formally introduce the system on Tuesday afternoon, in a session at ISC.

“As the first number one system of China that is completely based on homegrown processors, the Sunway TaihuLight system demonstrates the significant progress that China has made in the domain of designing and manufacturing large-scale computation systems,” Yang told TOP500 News.

The supercomputer was developed by the National Research Center of Parallel Computer Engineering & Technology (NRCPC), the same organization that designed TaihuLight’s predecessor, the Sunway BlueLight system, which is installed at the National Supercomputing Center in Jinan. BlueLight is a 796-teraflop supercomputer, which was deployed in 2011.

BlueLight is powered by an older version of the ShenWei processor, a third-generation 16-core chip, known as the SW1600, which tops out at about 140 gigaflops. In the five years since that system came online, NRCPC developed a much more powerful processor, the SW26010, a 260-core chip that can crank out just over 3 teraflops. TaihuLight has a single SW26010 in each of its 40,960 nodes, which adds up 125 peak petaflops across the entire machine (more than 10 million cores). Linpack, of course, is going to leave some FLOPS on the table, but 93 petaflops represents a respectable 74 percent yield of peak performance.

At 3 teraflops, the new ShenWei silicon is on par with Intel’s “Knights Landing” Xeon Phi, another manycore design, but one with a much more public history. In a bit of related irony, it was the US embargo of high-end processors, such as the Xeon Phi, imposed on a number of Chinese supercomputing centers in April 2015, which precipitated a more concerted effort in that country to develop and manufacture such chips domestically. The embargo probably didn’t impact the TaihuLight timeline, since it was already set to get the new ShenWei parts. But it was widely thought that Tianhe-2 was in line to get an upgrade using Xeon Phi processors, which would have likely raised its performance into 100-petaflop territory well before the Wuxi system came online.

Like its earlier incarnations, this latest ShenWei is a 64-bit RISC processor, with SIMD instruction support and out-of-order execution. Its underlying architecture is somewhat of a mystery, although it’s been speculated that the design was derived from the DEC Alpha architecture. The instruction set is specified simply as ShenWei-64.

The processor is divided into four core groups, each with 64 computing processing elements (CPE) and a management processing element (MPE). Each core group also includes a memory controller delivering an aggregate memory bandwidth of 136.5 GB/second on each socket. As one might expect of a manycore design, it runs at a relatively modest 1.45 GHz and supports just a single execution thread per core. The chip was manufactured at the National High Performance Integrated Circuit Design Center, in Shanghai. The process technology node has not been revealed.

Memory-wise, each node contains 32 GB, adding up to a little over 1.3 PB for the whole machine. While that seems like a lot, it’s not much memory considering the number of cores it must feed. The much smaller 10-petaflop K supercomputer at RIKEN, for example, is outfitted with 1.4 PB of memory, and most of the other large systems on TOP500 list have much better bytes-to-FLOPS ratios than that of TaihuLight. It also relies on the older DDR3 technology, which is slower and more power-hungry than the newer DDR4 memory.

The system is also rather light on cache. In fact, it really doesn’t have any in the L1-L2-L3 sense. Each core is allocated 12 KB of instruction cache, along with 64 KB of local scratchpad. And that’s it. The scratchpad can be used like a level 1 cache to some degree, but without the L2 and L3 levels to buttress it, there’s not a whole lot of capability to speed up memory accesses.

From a power standpoint though, TaihuLight is quite good. It draws 15.3 megawatts (MW) running Linpack, which, somewhat surprisingly, is less power than its 33-petaflop cousin, Tianhe-2, which uses 17.8 MW. TaihuLight’s energy-efficiency of 6 gigaflops/watt is excellent, which will certainly earn it a place in the upper reaches of the Green500 list. Keep in mind though, if the system had a more reasonable amount of memory for its size, it would draw significantly more power and its energy efficiency would suffer accordingly.

The interconnect, simply known as the Sunway Network, is also a homegrown affair. It’s noteworthy that the older Sunlight BlueLight machine employed QDR InfiniBand for the system network. The TaihuLight one, however, is based on PCIe 3.0 technology, and provides 16 GB/second of node-to-node peak bandwidth, with a latency of around 1 microsecond. Running MPI communications over it slows that down to about 12 GB/second. Such performance is pretty much on par with EDR InfiniBand or even 100G Ethernet, although the latency seems a tad high (it depends on exactly what’s being measured, of course). In any case, it looks like the design team opted for simplicity here, rather than breakneck speeds using exotic technology.

Likewise, for the operating system. The Sunway Raise OS, as it’s called, uses standard Linux as the base, along with the necessary tweaks to make it work with the custom TaihuLight architecture. Other parts of the system software are also pretty standard – compilers for C/C++ and Fortran, along with the associated math libraries. All, of course, required ports to the custom ShenWei architecture and instruction set, but presumably much of that development work had already been done for the previous-generation processors.

According to TOP500 author Jack Dongarra, three scientific simulation codes run on TaihuLight have been chosen as Gordon Bell Prize finalists, two of which have managed to reach a sustained performance of 30 to 40 petaflops. The award is bestowed each year on the most noteworthy HPC application, based on “peak performance or special achievements in scalability and time-to-solution on important science and engineering problems.”

In a paper written by Dongarra and published on June 20, he describes these applications and also provides a deep dive into the TaihuLight architecture (upon which much of the information in this article was based). The paper also offers some interesting comparisons to other supercomputers. While Dongarra does have reservations about some elements of the new machine’s design, he concludes: “The fact that there are sizeable applications and Gordon Bell contender applications running on the system is impressive and shows that the system is capable of running real applications and [is] not just a stunt machine.”

Michael Feldman

June 20, 2016

Top 500


Thanks to Foxhound!



20 thoughts on “China Races Ahead in TOP500 Supercomputer List, Ending US Supremacy

  1. et si les hyper super calculateurs du monde vont se mettre à dialoguer entre eux et se dire : en en à mare des humains ?. dit :

    et alors de la je comprend ce que veux faire savoir aux humains les hawkins sur l’extreme dangerosité de l’ia .

    1. « …et alors de la je comprend ce que veux faire savoir … »
      Eh l’ami, c’est un vieux sujet qui date de presque un an et demi, en informatique …c’est une eternité. Depuis de l’eau a coulé sous les ponts.
      Heureusement tu m’as fait penser que la prochaine liste, qui est en générale publiée en novembre ne va plus tarder. Je vais la surveiller de prés.

  2. Les élites se font la guerre. Oui Roc, ils envoient surtout les peuples se battre.
    Pendant ce temps ils réfléchissent à la meilleure solution pour éradiquer leur problème.
    Les peuples font une allégeance obligatoire à leurs dirigeants.
    Les dirigeants se déclarent des guerres.
    Les dirigeants envoient leur peuple se battre.
    Après la guerre les dirigeants refont des affaires entre eux;
    Et le soldat devient ouvrier de ces gens.
    Le recyclage est une longue histoire.
    Comme dirait un proverbe de chez moi: « Avec les bras des autres je te déplace la Tour Effel. »

  3. Faire un assemblage massivement parallèle de vielle technologie augmentée est effectivement à la portée de la Chine.
    Elle vient certes de franchir un cap et d’assurer son autonomie en matière de calcul scientifique.
    Néanmoins, sur le plan du décryptage massif et simultané de communications militaires en situation chaude,
    rien n’est moins sur.
    Le Xeon Phi est spécifiquement étudié pour cela (interconnectivité manycore intégrée, mémoire cache énorme de 16GO , unités de calcul vectoriel
    massives et instructions spécifiques (AVX-512), en clair un coprocesseur intégré -les librairies ne sont pas fournies-).
    Supporté par la clientèle Intel, son cout dérisoire va pouvoir garnir les km2 de la ferme du chiffre US.
    Les chinois prennent de fait 10 ans de retard.
    A noter que si les américains placent la confrontation sur le plan matériel, c’est qu’ils ont probablement perdu sur le terrain
    des idées. Les chinois ont il les mathématiciens (russes?) pour gagner la bataille cryptographique ? (REP Alan Turing)

  4. Il faut que chaque nation reste à sa place et s’occupe de son territoire.
    Chacun s’arme en fonction des possibilités de l’industrie de son pays.
    Chacun produit ce dont il à besoin.
    Limiter les échanges et uniquement à des fins civil.
    Que les ouvriers arrêtent de rouler en Audi et ai des moyens de communication digne d’un premier ministre. 🙂
    La fin des chemises cintrées et du gel crado dans des cheveux en pétard.

      1. c’est volontairement « neuneu » mon commentaire précédent, il est curieux que cela vous est échappé.
        Le fond reste néanmoins un vœu de paix.
        Ne plus le dire est pire que de plus rien faire.

        1. les guerres entre les peuples sont très rares , ce sont toujours les élites qui veulent, se déclarent et font la guerre .

  5. La chine a TOUJOURS fabriqué du matériel électronique. Que l’on retrouve dans des appareils de très grande marque. Elle possède d’ailleurs un des principaux gisement mondiaux de minerai rare qui permet aux appareil GSM de fonctionner.
    Des décennies de décrédibilisassions ont façonné nos représentations.
    De plus l’inondation de gadgets merdique « made in RPC » sur l’Europe est venue renforcer cette dépréciation.
    Peut-être qu’une information massive et continuelle par le biais de l’acculture télévisuelle, (comme on peut en être gavé par des programmes outre-Atlantique), nous donnerai l’illusion que tout cela est normal.
    La chine (comme tout autre pays industrialisés) a produit et produit encore des daubes, mais elle produit aussi des choses de très haute facture.

    1. « La chine a TOUJOURS fabriqué du matériel électronique. »

      Certes. Personne n’a dit où prétendu le contraire, cependant la RPC n’a jamais produit un tel matériel et aussi sophistiqué. Je pense dailleurs qu’aucun pays au monde depuis 1945 n’a à ce jour réalisé cet exploit, c’est à dire battre les Etats Unis dans leur propre domaine. Ce que vous ne réalisez pas, c’est que c’est un tournant. Depuis le XVI° siècle c’était les puissances européennes puis aprés occidentale qui ont été les principaux poles d’innovations et de fabrications de bien manufacturés, en fait c’ était un monopole industriel et technologique, aujourd’hui, cette période prend fin, et on mesure tous les jours l’impact.
      C’est pas un tant sois peu les calculateurs qui sont importants dans cette news, ce qu’il l’est c’est le fait que pour la première fois, des pays non occidentaux prennent l’ascendant, sans avoir besoin des occidentaux.
      La Russie en beneficiera, de même que tous les proches alliés chinois, y compris et sans doute l’Iran. Et c’est la première fois que les occidentaux seront à la traine et donc devront faire des concessions de taille. Dans la mesure où c’est le début de nouveaux process de fabrications et d’innovations encore plus révolutionnaires en extreme orient. Le rapport des forces s’inverse.
      Par ailleurs un autre élément determinant entre en jeu, c’est le fait que la Chine a le monopole du commerce des terres rares, ce qui de facto la place en position de force.
      On y reviendra prochainement.

      1. c’est le fait que la Chine a le monopole du commerce des terres rares, ce qui de facto la place en position de force.
        en fait les terre rares sont des métaux et ne sont pas si rares que cela il y en a beaucoup de par le monde . si la chine en est le principale producteur c’est essentiellement dû au fait que c’est métaux sont très polluant a produire et que les autorités de pékin ne sont pas très regardante a ce sujet .

        1. « les terres ne sont pas si rare que cela. » Je ne sais pas en ce qui concerne les terres mais en ce qui concerne l’extraction la chine produit 95% des minerais rares.
          La pollution n’est pas un critère, c’est le cout de l’extraction qui est le critère premier.
          Congo, Australie, Etats Unis, Chine et Russie, voilà les gisements connu à ce jour.

        1. Non, ce n’est pas un nouveau monde, c’est la transformation de celui ci.
          Les oligarques actuels ne lâcheront pas l’affaire comme ça. Si le détricotage de l’actuel monde est en marche, la nouvelle structure (si tenté que l’observation amène à constater une nouvelle structure) se fera pour l’intérêt de quelques uns au détriment du plus grand nombre.
          Nous connaissons le paramétrage d’avance et nous y participons tous les jours, (économies) et pour les plus conscients, à notre corps défendant.
          Il n’y a qu’a se rappeler ce qu’est devenue l’Urss après son changement.
          Les grands dirigeants du parti n’ont pas pratiqués leur autolyse.
          Ils sont toujours là.
          Tant que la soupe est servie peu importe son origine.
          Les oripeaux sont interchangeables.

  6. S’il fallait se souvenir d’une nouvelle durant la decennie 2010’s, cette news doit être coulée dans le marbre tant elle est importante et aura un trés trés lourd impact géostratégique à terme. Désormais c’est une évidence la Chine ne fabrique plus que des chaussettes, des caleçons, et autres souliers et pantalons de basse qualité.
    C’est la première fois que l’Occident est battu sur son propre terrain le High-Tech. Ca nous promet un bouleversement sans précédent à court terme.
    Que la Chine soit en tête dans ce classement -je le suis depuis 2008- rien de plus normal, puisqu’elle assemblait des composants US -Intel, et nvidia- et en faisait des supercalculateurs performants. Un mini seisme est arrivé en 2011 lorsque la Chine avait conçu un calculateur Tianhe avec un processeur Shenwei s’était placé déja à la 11° place. C’était une performance appréciable. Et là avec des composants à 100 % chinois ils se placent à la première place et avec une puissance tripple par rapport à se second calculateur occidental.
    Dans les années qui viennent la Chine devrait mettre en place des radars, des satelittes, des missiles qui n’auront plus rien à envier à ceux des occidentaux. Deja ils sont sur le point de déployer les premiers satelittes qui vont utiliser du quantique. Et les premiers calculateurs quantiques ne devraient plus trop tarder.
    A présent c’est le centre de gravité du monde de l’innovation qui se déplace en Asie.
    Ce qui va se passer à présent, les américains vont tout faire pour courser la Chine, cependant leur système scolaire morribond, leur économie en dépression ne leur permettra pas. Par ailleurs leur situation financière fera qu’ils devront faire des choix catastrophique. Ainsi ils ne pourront plus attirer les cerveaux asiatiques, et russes comme dans la decennie 90’s. C’est à ce moment là que les occidentaux vont parier sur le joker indien.
    Nous vivons une époque absolument incroyable, tout est entrain d’être bouleverser et infiniement plus rapidement que ce qu’on pensait.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

%d blogueurs aiment cette page :