Dix-sept ans de super-informatique et autres problèmes en sismologie

par Jon Claerbout, Stanford University
Réunion du Conseil National de Recherches sur le Calcul Haute Performance en Sismologie
2 Octobre 1994, Après le dîner


  • D’où je viens
  • Se mettre au travail
  • Transfert de technologie et reproductibilité de la recherche
  • World Wide Web, Mosaic et HTML
  • Théorie géophysique inverse
  • Langage informatique C ++
  • Conclusion

D’où je viens

J’ai fait mes débuts en sismologie en 1960 dans la détection nucléaire. C’était un moment glorieux pour l’analyse du signal et la théorie de l’information avec Wiener et Levinson au MIT et à la FFT de Cooley-Tukey, et j’avais une énergie jeune et un gros budget sur un châssis principal de classe mondiale. Le problème était que cette théorie ne faisait vraiment rien de grand sur les téléséismes.

Vous avez peut-être plus confiance en la physique qu’en théorie de l’information. Quand les étudiants viennent me voir tous excités par les ondes S, je dois leur dire que pour une raison quelconque, nous ne voyons pas les ondes S en sismologie par réflexion. J’ai 1000 bandes magnétiques que nous pouvons rechercher. La physique semble donc nous échouer aussi.

D’autres étudiants viennent me voir sur l’anisotropie. Pour faire court, il est difficile de faire des mesures convaincantes d’anisotropie à partir de données sismiques de surface.

Plus tard dans la soirée, je pourrais vous dire que l’inversion ne fonctionne pas non plus. Eh bien, je ne veux pas dire que cela ne peut pas fonctionner, juste que lorsque vous obtenez enfin quelque chose au travail, cela ne sort pas beaucoup comme vous vous y attendiez et il y a eu énormément de déceptions en cours de route. Vous finissez souvent par dire: « L’inversion ne fonctionne pas sur des données de cette qualité ».

À l’époque glorieuse de l’analyse du signal sur les téléséismes à 1 Hz, j’ai découvert un théorème étonnant. Vous avez besoin d’un milieu en couches et d’ondes scalaires fortement incidentes. Le théorème dit qu ‘ »un côté de l’autocorrélation du sismogramme de tremblement de terre est le sismogramme de réflexion. Un théorème enchanteur parce que théoriquement vous pouvez convertir le sismogramme de réflexion en coefficients de réflexion en prédisant et en supprimant toutes les réflexions multiples.

Ce théorème a également échoué dans la pratique. Je pense qu’il échoue principalement parce que la terre n’est généralement pas un milieu en couches pour les fréquences supérieures à 1 Hz.

J’ai abandonné la sismologie et j’ai fait mon doctorat. au MIT dans les effets électromagnétiques des ondes de gravité atmosphérique.

Ce qui m’a ramené à la sismologie, c’est de consulter à Chevron et d’apprendre sur la migration des sismogrammes. C’était incroyable. C’est étonnant. Vous pouvez voir des synclinaux, des anticlinaux, des pincements et des failles, de belles failles où parfois la longueur du glissement sur la faille est évidente. Plus tard, lorsque nous avons obtenu la sismologie 3D, nous avons vu que le bruit n’était pas du bruit, c’était vraiment des méandres de rivière enterrés, et ces méandres sont beaux et personne ne doute de l’interprétation. Parfois, nos images sont presque aussi claires que les images médicales. La différence entre le découragement avec les sismogrammes d’explosion nucléaire et l’excitation avec les sismogrammes d’exploration semble résulter du nombre et de l’emplacement des sources et des récepteurs.

En 1967, j’ai trouvé la sismologie d’exploration si charmante que même avec des prix du pétrole à 3-4 $ / baril, j’ai décidé de redevenir sismologue. J’ai sauté dans toutes mes énergies et après quelques années, j’ai trouvé une équation d’onde unidirectionnelle et une méthode d’imagerie de migration à différences finies qui a été développée et vendue par de nombreuses sociétés de géophysique. En ai-je tiré quelque chose? Oui, j’ai obtenu le consortium industriel connu sous le nom de Stanford Exploration Project, SEP, qui paie aujourd’hui mes 15 doctorats. étudiants, et je n’ai pas écrit une autre proposition depuis 1973. Au fil des ans, j’ai guidé une quarantaine de doctorants dont la plupart se sont lancés dans l’industrie.

Aujourd’hui, nous effectuons la plupart de nos travaux de routine sur les postes de travail et avant cela, nous avions un VAX et j’ai d’abord acheté un ordinateur, un PDP-11 en 1976, pour lequel nous avions la première licence UNIX sur le campus de Stanford. Mon premier super ordinateur était un FPS-AP-120B que nous avons conservé pendant sept ans, 1977-1985. Nous avons eu une mauvaise première année avec l’AP. J’ai toujours été au courant des défauts matériels et logiciels, et cette année-là, j’ai appris les défauts de documentation en essayant de connecter cette machine à UNIX. Plus tard, nous avons passé de nombreuses années formidables avec des étudiants qui se sont attaqués avec enthousiasme au micro-code et au chainer de fonctions vectorielles et nous avons fait un travail d’imagerie de la terre très fin. Au cours des dernières années, j’ai voulu jongler avec l’AP, mais tous les étudiants étaient contre moi. L’été dernier, 10 ans après le départ de notre AP-120B, j’ai trouvé l’un de mes anciens élèves et je lui ai demandé: « Est-ce que j’avais raison sur l’AP, ou les étudiants avaient-ils raison? » Il m’a dit que j’avais raison. Il a dit: « à l’époque, nous aimions ça, nous étions occupés, nous avions l’impression d’accomplir quelque chose ». Maintenant, bien sûr, tout ce code ne vaut rien.

Mon deuxième super ordinateur était un Convex. Cela a aussi duré 7 ans. Comme l’AP, nous l’avons obtenu très tôt. Nous avons eu le premier dans l’industrie pétrolière, nous avons presque fait vendre le premier, après que la National Security Agency a acheté les dix premiers environ. Lorsque nous avons acheté ce modèle très tôt, nous ne considérions pas cette société Convex inconnue comme un gros pari car nous avions environ 7 références convaincantes. Il a surperformé notre VAX par un facteur d’environ 12 et nous avons pensé que l’entreprise était sûre d’être en affaires pendant longtemps. Une autre bonne chose, en plus d’exécuter des ponts poussiéreux, le Convex avait UNIX maintenu par le vendeur. Whoopee! C’était vraiment génial d’oublier de maintenir UNIX nous-mêmes.

Aujourd’hui, nous avons un Thinking Machines CM-5. Nous aurions pu avoir un super ordinateur gratuit d’un autre fournisseur si nous avions été prêts à en accepter un qui obligeait nos programmeurs à transmettre les messages. Mais nous avons pensé que la transmission de messages aurait ralenti la plupart de nos recherches. En revanche, nous avons aimé l’idée de coder en parallèle Fortran. Plus de la moitié de mes étudiants apprennent et utilisent volontairement le Fortran parallèle. Un vendeur particulièrement pressé a obtenu de nous un simple programme de référence Fortran 77, des ondes scalaires dans un milieu homogène par des différences finies explicites. Après une semaine ou deux, son entreprise a exécuté le programme à une vitesse record, mais ils n’ont pas obtenu la bonne réponse. Aujourd’hui, il y a une grande initiative SEG-DOE et d’après ce que j’entends, quatre superordinateurs différents ont donné quatre réponses différentes pour les quatre premiers mois d’effort. Leur test était fondamentalement le même programme simple en 3-D mais avec une vitesse variable. Les super-ordinateurs qui passent le message ne sont pas pour ceux d’entre nous qui luttent pour innover. Ils sont destinés à des équipes hautement professionnelles se concentrant sur une tâche qu’ils prévoient d’exécuter sans changement pendant de nombreuses années.

Se mettre au travail

Maintenant que vous savez tous quelque chose de mes expériences et de mes préjugés, permettez-moi d’aborder certains des objectifs de cette conférence.

Je pense que le calcul parallèle arrivera à son propre rythme et nous, les sismologues, n’avons rien à faire à ce sujet. Lorsqu’il sera prêt, nous l’utiliserons. Nous avons de plus gros problèmes dont je voudrais vous parler, et ce sont des choses sur lesquelles nous pouvons faire quelque chose et ce sont des choses que nous devons faire ensemble. Je pense que le principal problème est de savoir comment voulons-nous travailler les uns avec les autres?

Il y a quatre ou cinq ans, mon téléphone a sonné et c’est le professeur XX qui s’est lancé dans une grande tirade au sujet du professeur YY, dont le travail, dit-il, était attrayant avec des implications fascinantes pour les sciences de la terre, d’énormes subventions, d’excellents emplois pour les étudiants diplômés, le seul problème était , après de nombreuses années d’essais, le professeur YY (et toute son institution) n’ont pas pu reproduire les travaux du professeur XX. « N’était-ce pas un grand scandale? » Quelqu’un m’a demandé. J’y ai réfléchi un moment et j’ai dit: « Oui, mais j’ai un scandale beaucoup plus important beaucoup plus près de chez moi. Je suis diplômé en doctorat au rythme de deux par an depuis de nombreuses années et je ne pense pas pouvoir reproduire la plupart de ce travail non plus.  » Les gens pourraient dire: « Claerbout, chèvre chauve chauve aux cheveux blancs, naturellement vous ne pouvez pas reproduire ce travail », mais je réponds que les étudiants ne peuvent pas non plus facilement se reproduire les uns les autres, et souvent un an plus tard, ils ne peuvent même pas reproduire leur propre travail!

Lorsque nous, au SEP, faisons un travail exceptionnellement bon, je demande souvent aux sponsors: « Avez-vous essayé notre dernier et meilleur processus X? » La réponse du sponsor est souvent: «Eh bien, nous pensons qu’il nous faudrait 3-4 mois pour rattraper votre retard et nous n’avons tout simplement pas le temps ni la main-d’œuvre.

Toute cette expérience me dit que la reproductibilité de la recherche est un problème humain profond et je ne m’attendais pas à ce qu’il y ait une solution technologique simple. La reproductibilité est un problème particulièrement gênant pour moi avec des étudiants diplômés qui obtiennent leur diplôme si souvent. Il faut généralement plus d’un an pour que le suivant rattrape le précédent. La reproductibilité de la recherche m’a également tourmenté en essayant d’écrire de beaux manuels qui comprenaient la théorie, le code, les données et les résultats.

À mon grand étonnement, quelques mois plus tard, j’ai résolu le problème de la reproductibilité de la recherche! C’était il y a environ 3 ans. Nous l’avons vraiment résolu et je vais vous dire comment nous l’avons fait. La solution est née de mes efforts pour réaliser le transfert de technologie.

Transfert de technologie et reproductibilité de la recherche

L’idée de base de la reproductibilité de la recherche est qu’à chaque légende de figure dans un document imprimé, nous devons attacher un pointeur au script de commande et au répertoire informatique où cette figure est créée. Une raison courante de non reproductibilité est que les gens perdent cet emplacement. La façon dont nous mettons cela en pratique est que nous avons fait un mappage entre une structure de répertoire et un document. Chaque figure a un nom. L’auteur crée la structure du répertoire, y compris une cible de makefile pour ce nom de figure. L’auteur utilise également des conventions de dénomination de fichier afin que le fichier de tracé final et tous les fichiers intermédiaires soient facilement identifiés et supprimables par les règles de makefile. Après le nettoyage, nous ne voyons que les programmes originaux, les fichiers de paramètres et les données. Après la construction, nous voyons des fichiers intermédiaires et des fichiers de tracé.

En génie, un article publié est une annonce de bourse, mais le document électronique peut être la bourse elle-même. Il y a quarante ans, les données étaient des « marques de crayon sur papier » et la théorie était quelques symboles grecs. Ensuite, les documents papier étaient adéquats. Pas plus. Maintenant, nous avons besoin de documents électroniques.

Il existe de nombreux détails de mise en œuvre que différentes personnes feraient différemment. Par exemple, au SEP, nous voyons le document imprimé sur un écran et chaque légende de figure a un menu pour graver et reconstruire cette figure, etc. Nous trouvons que cette discipline est un petit fardeau supplémentaire pour le chercheur, mais après l’avoir compris, la plupart d’entre eux comme maintenir leur travail de cette façon. C’est beaucoup plus facile que d’apprendre quelque chose comme LaTeX.

Nous sommes allés plus loin et avons maintenant mis de nombreux documents sur CD-ROM. Nous faisons notre 9e distribution de CD-ROM cette semaine. Les rapports vont aux sponsors. Livres et thèses grand public. Un CD-ROM contient 600 mégaoctets et mon manuel est d’environ 1 mégaoctet de texte, donc un CD-ROM, qui peut être fabriqué pour un dollar, contiendra toutes les touches que vous pouvez taper dans une vie. Je pense que nos CD-ROM sont très réussis pour nous permettant de mettre les nouveaux étudiants au courant très rapidement. Le CD-ROM est cependant décevant en tant que support de publication pour les ordinateurs UNIX. Tout d’abord, il n’y a jamais eu de forte demande de thèses et de rapports de recherche. Ensuite, les fabricants ne nous ont pas fourni l’outil de base que Macintosh donne à ses développeurs. Vous ne pouvez pas simplement insérer un disque compact dans une machine UNIX et cliquer sur une icône. Vous devez être superutilisateur. Vous devez effectuer des opérations fastidieuses avec des arborescences de liens. Les fabricants UNIX ont laissé tomber la balle sur CD-ROM, donc je pense que le véritable avenir de la publication universitaire est dans les réseaux. Dommage cependant, car il faut très longtemps pour transmettre un CD-ROM de 600 Mo sur presque tous les réseaux.

OK, parlons donc de travailler ensemble en utilisant des réseaux. La plupart d’entre nous connaissent le courrier électronique et le FTP (protocole de transfert de fichiers).

World Wide Web, Mosaic et HTML

Avez-vous entendu parler du World Wide Web, de la mosaïque et du HTML (Hyper Text Markup Language) développé au CERN (le centre européen de physique) et au NCSA (Illinois Super Computer Center)? Permettez-moi de décrire cela. Je suis à peine débutant mais je constate que de nombreux groupes ont fait d’énormes progrès. Imaginez le répertoire personnel de chaque personne avec une page de texte dans ce langage de balisage spécial. Vous préparez cela avec n’importe quel éditeur de texte et avec quelques instructions. En utilisant le programme Mosaic, vous visualisez ce document sur votre écran. Vous voyez des mots colorés et soulignés. Vous cliquez dessus. En cliquant sur, vous accédez à un autre emplacement de votre propre document ou à un autre document de votre ordinateur ou de l’ordinateur de quelqu’un d’autre. Vous pouvez faire un bouton-poussoir dans votre document pour accéder à d’autres documents tels que la page d’accueil de l’Université de Stanford ou celle de la GSA (Geological Society of America). Pour ce faire, il vous suffit de connaître uniquement son adresse. À partir de ces documents, vous pouvez accéder à de nombreux documents hypertextes dans le monde (et remplir votre carnet d’adresses au fur et à mesure). D’autres personnes peuvent accéder à votre page d’accueil si vous leur donnez votre adresse. Maintenant, beaucoup de gens créent ces documents HTML. Nous devons admettre que GSA est en avance sur AGU et SEG. L’océanographie a bien développé HTML. La sismologie semble désorganisée. J’ai oublié de dire que ces documents HTML peuvent inclure des images en couleur et beaucoup le font. De nombreuses institutions font des premières pages très attrayantes. Hewlett-Packard vous donne un bon guide de leurs produits. Si vous n’avez pas encore commencé à surfer sur les réseaux, vous avez un frisson à venir. Nous commençons tout juste dans mon groupe. Vous pouvez zoomer et lire nos biographies et appuyer sur un bouton et voir nos portraits. Nous prévoyons de mettre en place des programmes de cours. Avez-vous déjà vu un catalogue d’université où un professeur doit entasser sa description de cours en quelques lignes dans une étroite colonne de texte? Avec l’émergence du HTML, ces mauvais vieux jours passent vite. Les étudiants potentiels se plaignent du manque de détails dans nos pages d’accueil. J’ai deux manuels qui sont maintenant épuisés. C’est une tragédie personnelle pour un auteur lorsque l’éditeur dit: « Nous n’en vendons que 50 par an et maintenant nous avons épuisé nos stocks, nous ne ferons donc plus de tirage. » Je prévois [terminé le 12 octobre] de mettre mes manuels épuisés sur le net, gratuitement, annoncés sur le World Wide Web. Un document HTML peut être votre publicité personnelle dans le monde, sans frais pour vous, avec autant de détails que vous le souhaitez, que les gens peuvent rechercher plus facilement que dans un annuaire téléphonique. Je suis certain que ce média va exploser en popularité.

Nous n’avons pas besoin d’une grande imagination pour voir que nous pourrions éventuellement utiliser des réseaux pour diffuser la recherche REPRODUCTIBLE. En d’autres termes, vous appuyez sur un bouton de votre ordinateur et il saisit un répertoire de création de chiffres de mon ordinateur. Voulons-nous cela suffisamment pour commencer à y travailler? Si oui, notre communauté devrait commencer à définir une norme pour un document reproductible. La définition de Stanford n’est qu’un début. Le SEP ne peut pas établir de norme sans que d’autres groupes présentent leurs besoins et leurs idées contradictoires. J’ai rêvé que j’étais le directeur de NSF et que j’aurais besoin que la recherche financée par l’État soit reproductible de cette façon.

Je n’ai pas mentionné de bases de données. Celles-ci sont généralement trop volumineuses pour la mise en réseau, mais HTML devrait être utilisé pour annoncer l’existence de bases de données et en distribuer des échantillons.

Théorie géophysique inverse

L’inversion est un autre domaine dans lequel nous devrions pouvoir coopérer bien mieux que ce que nous faisons aujourd’hui. J’aurais pu dire plus tôt que l’inversion ne fonctionne pas. Eh bien, j’aurais dû dire que nous avons certainement beaucoup de déceptions lorsque nous entreprenons ce genre d’activité. Les manuels (y compris le mien) contiennent un nombre décourageant d’exemples de bonne qualité.

Il y a vingt ans, j’ai commencé à travailler dans l’imagerie sismique, il y a une dizaine d’années, j’ai commencé à comprendre la relation entre l’imagerie sismique industrielle et la théorie géophysique inverse. Je vais l’expliquer maintenant en quelques mots. Une image sismique fait environ un million de pixels, environ mille par mille. L’espace modèle a un million de paramètres. Le traitement standard des données industrielles peut être considéré comme une approximation de l’opérateur inverse par l’adjoint, la transposition matricielle. Armés de ces connaissances, vous pourriez vous attendre à ce que beaucoup d’entre nous aient fait fortune, révolutionnant l’industrie de l’imagerie sismique en introduisant l’inversion. De toute évidence, cela ne s’est pas produit, et je n’ai pas de mal à trouver des améliorations, même modestes. Les chercheurs peuvent amener des programmes d’inversion élaborés à un succès apparent, mais il n’est pas facile de transmettre ces processus aux consommateurs.

Certaines des difficultés de l’inversion sont inhérentes à la bête, divisant par zéro ou proposant d’une manière ou d’une autre une covariance de modèle et un schéma fiable d’itération non linéaire. Néanmoins, je pense que certaines des difficultés de l’inversion peuvent être surmontées en travaillant ensemble de manière plus efficace et j’essaierai d’expliquer comment.

Langage informatique C ++

Un problème avec Fortran est qu’il semble exiger que le praticien soit un expert en sismologie ainsi qu’un expert en théorie de l’optimisation. La combinaison est trop difficile pour presque tout le monde. Certaines personnes ont trouvé un soulagement partiel en utilisant largement Mathematica et Matlab. J’applaudis ces efforts mais je pense que nous avons besoin d’un lien plus flexible entre la sismologie et la méthodologie d’optimisation non linéaire. Ce dont nous avons besoin, c’est d’un moyen pour les sismologues de travailler avec ces autres experts numériques sans que les deux groupes aient besoin d’en savoir beaucoup sur ce que fait l’autre groupe. La séquence d’appel sur un programme FFT est un exemple d’interface entre un spécialiste du numérique et un sismologue où aucun des deux n’a besoin de connaître l’autre. L’interface d’inversion est beaucoup plus compliquée qu’une simple séquence d’appel Fortran.

C’est exactement le problème abordé par les langages orientés objet modernes tels que C ++. «L’information cache», ils l’appellent. Ce que le sismologue doit faire, c’est former toutes les parties atomiques des opérateurs et indiquer comment les opérateurs sont construits comme des chaînes de parties atomiques ou comme des opérateurs partitionnés. Ce que l’infrastructure de bibliothèque C ++ doit faire, c’est fournir les opérateurs adjoints en inversant les chaînes, en convertissant les opérateurs de colonne en opérateurs de ligne. Ce que le spécialiste numérique devrait faire, c’est fournir des schémas d’optimisation dans certains de ces langages masquant les informations tels que C ++. Mon groupe est aux prises avec cela depuis 2-3 ans et nous avons récemment entamé une coopération avec le groupe de Bill Symes à l’Université Rice. Nous ne trouvons pas cela facile, mais nous avons une foi profonde dans cette direction.

Ma vision de l’avenir est que le Fortran parallèle conviendra aux personnes qui font de la modélisation avancée et qui traitent les données par des méthodes assez standardisées, mais pour ceux d’entre nous qui luttent avec le développement d’algorithmes et l’inversion, quelque chose comme C ++ sera meilleur, mais seulement après avoir d’abord développer le cadre de base. Quelqu’un veut-il aider?

Conclusion

En conclusion, je pense que nous, les sismologues, devrions discuter du concept de recherche reproductible en relation avec le réseautage. Notre communauté devrait commencer à définir une norme pour un document reproductible. La définition de Stanford SEP n’est qu’un début.

En terminant, je remercie les organisateurs de nous avoir réunis et j’espère que nous pourrons travailler plus étroitement ensemble à l’avenir.


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *