Compilation C++ avec LLVM et clang

Générer du code C++ dynamiquement depuis Lua

L'objectif de ce tutoriel d'Emmanuel Roche est de vous apprendre à générer du code C++ dynamiquement depuis Lua.

Pour réagir au contenu de ce tutoriel, un espace de dialogue vous est proposé sur le forum. 4 commentaires

Article lu fois.

Les deux auteur et traducteur

Emmanuel ROCHE

Traducteur : Thierry Jeanneret

L'article

Publié le 26 juin 2020

Version PDF Version hors-ligne

ePub, Azw et Mobi

Liens sociaux

I. Introduction▲

Ces derniers temps, j’ai généré passablement d’interfaces pour Lua (principalement pour des expériences de génération de maillages avec OpenCascade, ce qui est en passant très marrant/intéressant, mais qui n’est pas le sujet ici…). Et une chose qui m’a ennuyé à la fin était : je veux bien utiliser Lua pour générer une configuration ou exécuter des calculs préliminaires, mais je n’aimerais pas l’utiliser pour une boucle de mise à jour continue dans un moteur de jeu par exemple (en fait j’ai essayé ça il y a longtemps et même avec LuaJIT vous vous heurtez vite à des limites de performance).

Plutôt, je veux que ma boucle de mise à jour soit en C++ pur, mais alors vous perdez une bonne partie des avantages du scripting, car vous devez avoir quelque part ce code de mise à jour prêt à fonctionner d’une manière ou d’une autre dans votre monde C++. Vous pouvez bien sûr songer à un système de « boucle générique » dans laquelle vous injecteriez des séquences « d’opérations », mais il reste toujours le même problème : quelque part vous devez avoir défini des classes ou des fonctions C++ représentant ces opérations si vous voulez les appeler.

À partir de là, j’ai commencé mon voyage à la recherche de la manière de générer du code C++ dynamiquement (depuis Lua) : si je peux faire cela, ma « passe de configuration Lua » pourra aussi être utilisée pour configurer et construire une fonction de boucle C++ qui sera spécifique à chaque expérience que je veux réaliser, tout en permettant de maintenir une performance maximale.

Alors, c’est parti !

II. Compilateur Tiny C▲

La première chose que j’ai trouvée fut le projet Tiny C (Tiny C Compiler project), qui semble absolument impressionnant ! Voici un exemple de ce que vous pouvez faire avec la bibliothèque libtcc par exemple (ceci est le code source du fichier officiel libtcc_test.c) :

Cacher/Afficher le codeSélectionnez

/*
 * Simple Test program for libtcc
 *
 * libtcc can be useful to use tcc as a "backend" for a code generator.
 */
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
 
#include "libtcc.h"
 
/* this function is called by the generated code */
int add(int a, int b)
{
    return a + b;
}
 
/* this strinc is referenced by the generated code */
const char hello[] = "Hello World!";
 
char my_program[] =
"#include <tcclib.h>\n" /* include the "Simple libc header for TCC" */
"extern int add(int a, int b);\n"
"#ifdef _WIN32\n" /* dynamically linked data needs 'dllimport' */
" __attribute__((dllimport))\n"
"#endif\n"
"extern const char hello[];\n"
"int fib(int n)\n"
"{\n"
"    if (n <= 2)\n"
"        return 1;\n"
"    else\n"
"        return fib(n-1) + fib(n-2);\n"
"}\n"
"\n"
"int foo(int n)\n"
"{\n"
"    printf(\"%s\\n\", hello);\n"
"    printf(\"fib(%d) = %d\\n\", n, fib(n));\n"
"    printf(\"add(%d, %d) = %d\\n\", n, 2 * n, add(n, 2 * n));\n"
"    return 0;\n"
"}\n";
 
int main(int argc, char **argv)
{
    TCCState *s;
    int i;
    int (*func)(int);
 
    s = tcc_new();
    if (!s) {
        fprintf(stderr, "Could not create tcc state\n");
        exit(1);
    }
 
    /* if tcclib.h and libtcc1.a are not installed, where can we find them */
    for (i = 1; i < argc; ++i) {
        char *a = argv[i];
        if (a[0] == '-') {
            if (a[1] == 'B')
                tcc_set_lib_path(s, a+2);
            else if (a[1] == 'I')
                tcc_add_include_path(s, a+2);
            else if (a[1] == 'L')
                tcc_add_library_path(s, a+2);
        }
    }
 
    /* MUST BE CALLED before any compilation */
    tcc_set_output_type(s, TCC_OUTPUT_MEMORY);
 
    if (tcc_compile_string(s, my_program) == -1)
        return 1;
 
    /* as a test, we add symbols that the compiled program can use.
       You may also open a dll with tcc_add_dll() and use symbols from that */
    tcc_add_symbol(s, "add", add);
    tcc_add_symbol(s, "hello", hello);
 
    /* relocate the code */
    if (tcc_relocate(s, TCC_RELOCATE_AUTO) < 0)
        return 1;
 
    /* get entry symbol */
    func = tcc_get_symbol(s, "foo");
    if (!func)
        return 1;
 
    /* run the code */
    func(32);
 
    /* delete the state */
    tcc_delete(s);
 
    return 0;
}

Vous voyez donc que vous pouvez compiler du code C, le mélanger avec des symboles déjà définis dans votre processus courant, récupérer vos nouvelles fonctions C, etc. C’est magnifique, mais… malheureusement, ce n’était pas suffisant pour remplir le contrat dans mon cas ????. La plupart des modules que j’ai définis ou construits sont en C++, pas en C : pour y accéder avec ce type de code généré dynamiquement, je devrais fournir une interface C pour toutes les fonctions/classes auxquelles je pourrais « vouloir accéder dynamiquement un jour »… Et ça ressemble exactement à la limitation initiale mentionnée plus haut : je ne veux pas avoir à préparer un code intermédiaire spécial pour tous les éléments C++ auxquels je peux vouloir accéder ! Générer les interfaces Lua est déjà assez douloureux Image non disponible !

J’ai donc décidé de continuer à chercher une autre solution qui serait plus « compatible avec C++ ». Et c’est alors que j’ai trouvé cet article : Compiler du code C++ en mémoire avec Clang.

A priori, je ne voulais pas réellement aller par là, car Clang me semblait être un monstre géant, je pensais donc qu’il allait être très douloureux de mettre cette option sur les rails. Mais à la fin, j’ai réalisé qu’il n’y a de toute façon pas tant de choix sur ce sujet et j’ai donc décidé que je devrais l’essayer et voir où cela me mènerait.

III. Compiler LLVM et Clang▲

Pour les étapes de compilation, j’ai utilisé les pages suivantes comme référence :

Getting Started: Building and Running Clang (en anglais uniquement) ;
Building LLVM with Cmake (en anglais uniquement).

Je suis sous Windows 10 et j’utilise Visual Studio 2017 comme compilateur de base, les instructions suivantes peuvent donc ne pas fonctionner pour vous si vous êtes sur une plateforme différente.

Comme mentionné sur la page référencée juste au-dessus (Getting Started…), vous devez d’abord vous assurer que votre entrée de configuration Git core.autocrlf est bien mise à false. Notez que vous pouvez obtenir toutes les valeurs de votre configuration Git par :

git config --list

Ensuite, la première étape réelle indispensable est évidemment d’obtenir les sources, mais c’est vraiment simple : git clone https://github.com/llvm/llvm-project.git.

Puis je crée un petit script batch pour exécuter la compilation, car je veux en encapsuler tous les détails :

Sélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.

REM cf. https://clang.llvm.org/get_started.html
    REM and cf. https://www.llvm.org/docs/CMake.html

    set flavor=%~1
    echo Building %dep_llvm% on %flavor%

    set bdir=%NV_DEPS_DIR%\build\%dep_llvm%
    mkdir "%bdir%\build"

    cd /d "%bdir%\build"
    echo LLVM/Clang build dir is: %cd%

    set idir=%NV_DEPS_DIR%\%flavor%\%dep_llvm%

    REM Python 2.7 or higher is required:
    set PREV_PATH=%PATH%
    set PATH=%NV_TOOLS_DIR%\%tool_python2%\bin;%PATH%

    REM %CMAKE% -G "NMake Makefiles" -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=%idir% -DLLVM_ENABLE_PROJECTS=clang -A x64 -Thost=x64 ..\llvm
    %CMAKE% -G "NMake Makefiles" -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=%idir% -DLLVM_ENABLE_PROJECTS=clang ..\llvm

    REM %JOM% /K /S /j 8 /NOLOGO
    REM %JOM% install
    nmake
    nmake install
    
    set PATH=%PREV_PATH%
    echo Done building LLVM/Clang.

Dans le script batch ci-dessus, la valeur “flavor” que j’utilise pour le moment est la chaîne “msvc64”. Ensuite, tout ce que je fais se résume fondamentalement à créer le répertoire de construction dédié, puis j’appelle CMake pour générer les fichiers de compilation (j’évite habituellement la compilation depuis l’EDI, je préfère donc le générateur de Makefiles NMAKE).

Finalement, j’appelle nmake et nmake install pour achever le job.

Python 2.7 est requis pour que l’étape de configuration de CMake fonctionne ici, je l’ai donc ajouté dans le PATH avant d’appeler Cmake.

Le générateur de Makefiles pour NMAKE ne supporte pas les arguments -A x64 ou ?Thost=x64 sur sa ligne de commande, je les ai donc enlevés… mais ça ne semblait pas être un problème pour moi (je suis sur une machine Windows x64 et je ne cible de toute façon que des architectures x64).

J’ai d’abord essayé la compilation en utilisant JOM plutôt que NMAKE, mais ça ne semblait pas marcher directement pour moi ????. JOM persistait à ne rien compiler du tout… Je suis donc passé à NMAKE, sans trop y réfléchir, celui-là fonctionne bien, mais bon sang… qu’il est leeeeeeennt ! ???? La compilation a pris environ 8 h pour moi. Un jour, si j’en ai l’opportunité, j’aimerais réessayer JOM je pense.

Et… étonnamment, après avoir attendu un trrrrèèèèèssss loooonnnnngggg temps, la compilation s’est terminée correctement ! Cette partie était clairement plus facile que je ne l’attendais :????!

IV. Construire un compilateur Just-In-Time en bibliothèque partagée▲

Lorsque j’ai eu les binaires/bibliothèques de LLVM/Clang compilés et installés dans un répertoire approprié, j’ai commencé l’intégration dans mon propre projet, en essayant de construire une bibliothèque partagée dédiée qui encapsulerait la génération dynamique de code C++. J’ai nommé le module nvLLVM et j’ai commencé avec comme base l’article de Matthieu Brucher mentionné plus haut.

Voici les deux fichiers d’en-tête principaux que j’ai créés pour ce module :

d’abord le fichier llvm_common.h, qui sert d’interface d’exportation me permettant de retrouver ma fonction de test plus tard :

Sélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.

#ifndef LLVM_COMMON_
#define LLVM_COMMON_
 
#if defined(_MSC_VER) || defined(__CYGWIN__) || defined(__MINGW32__) || defined(__BCPLUSPLUS__) || defined(__MWERKS__)
#if defined(NV_LIB_STATIC)
#define NVLLVM_EXPORT
#elif defined(NVLLVM_LIB)
#define NVLLVM_EXPORT __declspec(dllexport)
#else
#define NVLLVM_EXPORT __declspec(dllimport)
#endif
#else
#define NVLLVM_EXPORT
#endif
 
#if defined(_WIN32) && !defined(_WIN32_WINNT)
#define _WIN32_WINNT 0x0602
#endif
 
#include <string>
 
NVLLVM_EXPORT void runClang(const std::string& file);
 
#endif

Puis l’en-tête llvm_precomp.h, qui contient la plupart des en-têtes requis par LLVM/Clang pour construire notre fonction de test :

Sélectionnez

#ifndef LLVM_PRECOMP_
#define LLVM_PRECOMP_
 
#include <llvm_common.h>
 
// cf. https://docs.microsoft.com/fr-fr/cpp/preprocessor/warning?view=vs-2019
#pragma warning( push )
#pragma warning( disable : 4244 ) // 'initializing': conversion from '_Ty' to '_Ty1', possible loss of data
#pragma warning( disable : 4624 ) // destructor was implicitly defined as deleted
#pragma warning( disable : 4141 ) // 'inline': used more than once
#pragma warning( disable : 4291 ) // no matching operator delete found; memory will not be freed if initialization throws an exception
 
#include <sstream>
#include <llvm/InitializePasses.h>
#include <llvm/ExecutionEngine/ExecutionEngine.h>
#include <llvm/ExecutionEngine/MCJIT.h>
#include <llvm/ExecutionEngine/SectionMemoryManager.h>
#include <llvm/IR/DataLayout.h>
#include <llvm/IR/LLVMContext.h>
#include <llvm/IR/PassManager.h>
#include <llvm/Passes/PassBuilder.h>
#include <llvm/Support/MemoryBuffer.h>
#include <llvm/Support/TargetSelect.h>
#include <llvm/Support/TargetRegistry.h>
#include <llvm/Support/Host.h>
#include <llvm/Support/raw_ostream.h>
 
#include "llvm/ExecutionEngine/JITSymbol.h"
#include "llvm/ExecutionEngine/Orc/CompileUtils.h"
#include "llvm/ExecutionEngine/Orc/Core.h"
#include "llvm/ExecutionEngine/Orc/ExecutionUtils.h"
#include "llvm/ExecutionEngine/Orc/IRCompileLayer.h"
#include "llvm/ExecutionEngine/Orc/JITTargetMachineBuilder.h"
#include "llvm/ExecutionEngine/Orc/RTDyldObjectLinkingLayer.h"
 
#include <clang/Basic/DiagnosticOptions.h>
#include <clang/Basic/Diagnostic.h>
#include <clang/Basic/FileManager.h>
#include <clang/Basic/FileSystemOptions.h>
#include <clang/Basic/LangOptions.h>
#include <MemoryBufferCache.h>
// #include <clang/Basic/MemoryBufferCache.h>
#include <clang/Basic/SourceManager.h>
#include <clang/Basic/TargetInfo.h>
#include <clang/CodeGen/CodeGenAction.h>
#include <clang/Frontend/CompilerInstance.h>
#include <clang/Frontend/CompilerInvocation.h>
#include <clang/Frontend/TextDiagnosticPrinter.h>
#include <clang/Lex/HeaderSearch.h>
#include <clang/Lex/HeaderSearchOptions.h>
#include <clang/Lex/Preprocessor.h>
#include <clang/Lex/PreprocessorOptions.h>
#include <clang/Parse/ParseAST.h>
#include <clang/Sema/Sema.h>
#include <clang/AST/ASTContext.h>
#include <clang/AST/ASTConsumer.h>
 
#pragma warning( pop )
 
#endif

J’ai fait quelques changements à ce niveau en comparaison de la version fournie par Matthieu Brucher :

j’ai désactivé un tas d’avertissements du compilateur Visual Studio 2017 (rien de trop sérieux, je pense… ou au moins rien sur lequel je pourrais agir autrement : je ne vais pas modifier les fichiers d’en-tête de LLVM !) qui polluaient les sorties de ma compilation ;
j’ai dû remplacer le fichier d’inclusion clang/Basic/MemoryBufferCache.h par une version locale de ce fichier : la version LLVM que j’utilise depuis git est la version 11.0.0git (telle que rapportée par la config de CMake pour LLVM au moins, voyez ci-dessous). Dans cette version, le fichier clang/Basic/MemoryBufferCache.h n’existe plus. Par chance, j’ai pu trouver en ligne les fichiers d’en-tête et d’implémentation que j’ai ajoutés au module :

Cacher/Afficher le codeSélectionnez

//===- MemoryBufferCache.h - Cache for loaded memory buffers ----*- C++ -*-===//
 //
 // Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
 // See https://llvm.org/LICENSE.txt for license information.
 // SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
 //
 //===----------------------------------------------------------------------===//
  
// cf. https://clang.llvm.org/doxygen/MemoryBufferCache_8h_source.html
 
 #ifndef LLVM_CLANG_BASIC_MEMORYBUFFERCACHE_H
 #define LLVM_CLANG_BASIC_MEMORYBUFFERCACHE_H
  
 #include "llvm/ADT/IntrusiveRefCntPtr.h"
 #include "llvm/ADT/StringMap.h"
 #include <memory>
  
 namespace llvm {
 class MemoryBuffer;
 } // end namespace llvm
  
 namespace clang {
  
 /// Manage memory buffers across multiple users.
 ///
 /// Ensures that multiple users have a consistent view of each buffer.  This is
 /// used by \a CompilerInstance when building PCMs to ensure that each \a
 /// ModuleManager sees the same files.
 ///
 /// \a finalizeCurrentBuffers() should be called before creating a new user.
 /// This locks in the current buffers, ensuring that no buffer that has already
 /// been accessed can be purged, preventing use-after-frees.
 class MemoryBufferCache : public llvm::RefCountedBase<MemoryBufferCache> {
   struct BufferEntry {
     std::unique_ptr<llvm::MemoryBuffer> Buffer;
  
     /// Track the timeline of when this was added to the cache.
     unsigned Index;
   };
  
   /// Cache of buffers.
   llvm::StringMap<BufferEntry> Buffers;
  
   /// Monotonically increasing index.
   unsigned NextIndex = 0;
  
   /// Bumped to prevent "older" buffers from being removed.
   unsigned FirstRemovableIndex = 0;
  
 public:
   /// Store the Buffer under the Filename.
   ///
   /// \pre There is not already buffer is not already in the cache.
   /// \return a reference to the buffer as a convenience.
   llvm::MemoryBuffer &addBuffer(llvm::StringRef Filename,
                                 std::unique_ptr<llvm::MemoryBuffer> Buffer);
  
   /// Try to remove a buffer from the cache.
   ///
   /// \return false on success, iff \c !isBufferFinal().
   bool tryToRemoveBuffer(llvm::StringRef Filename);
  
   /// Get a pointer to the buffer if it exists; else nullptr.
   llvm::MemoryBuffer *lookupBuffer(llvm::StringRef Filename);
  
   /// Check whether the buffer is final.
   ///
   /// \return true iff \a finalizeCurrentBuffers() has been called since the
   /// buffer was added.  This prevents buffers from being removed.
   bool isBufferFinal(llvm::StringRef Filename);
  
   /// Finalize the current buffers in the cache.
   ///
   /// Should be called when creating a new user to ensure previous uses aren't
   /// invalidated.
   void finalizeCurrentBuffers();
 };
  
 } // end namespace clang
  
 #endif // LLVM_CLANG_BASIC_MEMORYBUFFERCACHE_H

Cacher/Afficher le codeSélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.

//===- MemoryBufferCache.cpp - Cache for loaded memory buffers ------------===//
 //
 // Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
 // See https://llvm.org/LICENSE.txt for license information.
 // SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
 //
 //===----------------------------------------------------------------------===//
  
//  cf. https://clang.llvm.org/doxygen/MemoryBufferCache_8cpp_source.html
 
#include <llvm_precomp.h>
 #include <llvm/Support/MemoryBuffer.h>
  
 using namespace clang;
  
 llvm::MemoryBuffer &
 MemoryBufferCache::addBuffer(llvm::StringRef Filename,
                              std::unique_ptr<llvm::MemoryBuffer> Buffer) {
   auto Insertion =
       Buffers.insert({Filename, BufferEntry{std::move(Buffer), NextIndex++}});
   assert(Insertion.second && "Already has a buffer");
   return *Insertion.first->second.Buffer;
 }
  
 llvm::MemoryBuffer *MemoryBufferCache::lookupBuffer(llvm::StringRef Filename) {
   auto I = Buffers.find(Filename);
   if (I == Buffers.end())
     return nullptr;
   return I->second.Buffer.get();
 }
  
 bool MemoryBufferCache::isBufferFinal(llvm::StringRef Filename) {
   auto I = Buffers.find(Filename);
   if (I == Buffers.end())
     return false;
   return I->second.Index < FirstRemovableIndex;
 }
  
 bool MemoryBufferCache::tryToRemoveBuffer(llvm::StringRef Filename) {
   auto I = Buffers.find(Filename);
   assert(I != Buffers.end() && "No buffer to remove...");
   if (I->second.Index < FirstRemovableIndex)
     return true;
  
   Buffers.erase(I);
   return false;
 }
  
 void MemoryBufferCache::finalizeCurrentBuffers() { FirstRemovableIndex = NextIndex; }

Puis vient le fichier d’implémentation principal où j’essaie de reproduire le processus de compilation dynamique en C++ :

Cacher/Afficher le codeSélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
97.
98.
99.
100.
101.
102.
103.
104.
105.
106.
107.
108.
109.
110.
111.
112.
113.
114.
115.
116.
117.
118.
119.
120.
121.
122.
123.
124.
125.
126.
127.
128.
129.
130.
131.
132.
133.
134.
135.
136.
137.
138.
139.
140.
141.
142.
143.
144.
145.
146.
147.
148.
149.
150.
151.
152.
153.
154.
155.
156.
157.
158.
159.
160.
161.
162.
163.
164.
165.
166.
167.
168.
169.
170.
171.
172.
173.
174.

#include <llvm_precomp.h>
 
#include <iostream>
 
#define NV_LLVM_VERBOSE 1
 
bool LLVMinit = false;
 
#define ERROR_MSG(msg) std::cout << "[ERROR]: "<<msg<< std::endl;
#define DEBUG_MSG(msg) std::cout << "[DEBUG]: "<<msg<< std::endl;
 
 
void InitializeLLVM()
{
    if (LLVMinit)
    {
      return;
    }
 
    // We have not initialized any pass managers for any device yet.
    // Run the global LLVM pass initialization functions.
    llvm::InitializeNativeTarget();
    llvm::InitializeNativeTargetAsmPrinter();
    llvm::InitializeNativeTargetAsmParser();
     
    auto& Registry = *llvm::PassRegistry::getPassRegistry();
  
    llvm::initializeCore(Registry);
    llvm::initializeScalarOpts(Registry);
    llvm::initializeVectorization(Registry);
    llvm::initializeIPO(Registry);
    llvm::initializeAnalysis(Registry);
    llvm::initializeTransformUtils(Registry);
    llvm::initializeInstCombine(Registry);
    llvm::initializeInstrumentation(Registry);
    llvm::initializeTarget(Registry);
  
 
    LLVMinit = true;
}
 
void runClang(const std::string& file)
{
    InitializeLLVM();
  
    clang::IntrusiveRefCntPtr<clang::DiagnosticOptions> diagnosticOptions = new clang::DiagnosticOptions;
    // clang::DiagnosticOptions diagnosticOptions;
 
    std::unique_ptr<clang::TextDiagnosticPrinter> textDiagnosticPrinter = std::make_unique<clang::TextDiagnosticPrinter>(llvm::outs(), diagnosticOptions.get());
    // std:: unique_ptr <clang::DiagnosticIDs> diagIDs;
    clang::IntrusiveRefCntPtr<clang::DiagnosticIDs> diagIDs;
 
    clang::IntrusiveRefCntPtr<clang::DiagnosticsEngine> diagnosticsEngine = new clang::DiagnosticsEngine(diagIDs, diagnosticOptions, textDiagnosticPrinter.get());
  
    clang::CompilerInstance compilerInstance;
    auto& compilerInvocation = compilerInstance.getInvocation();
 
    std::stringstream ss;
    ss << "-triple=" << llvm::sys::getDefaultTargetTriple();
  
    std::istream_iterator<std::string> begin(ss);
    std::istream_iterator<std::string> end;
    std::istream_iterator<std::string> i = begin;
    std::vector<const char*> itemcstrs;
    std::vector<std::string> itemstrs;
    while (i != end) {
      itemstrs.push_back(*i);
      ++i;
    }
 
    for (unsigned idx = 0; idx < itemstrs.size(); idx++) {
      // note: if itemstrs is modified after this, itemcstrs will be full
      // of invalid pointers! Could make copies, but would have to clean up then...
      itemcstrs.push_back(itemstrs[idx].c_str());
    }
  
    // clang::CompilerInvocation::CreateFromArgs(compilerInvocation, itemcstrs.data(), itemcstrs.data() + itemcstrs.size(), *diagnosticsEngine.release());
    clang::CompilerInvocation::CreateFromArgs(compilerInvocation, llvm::ArrayRef(itemcstrs.data(), itemcstrs.size()), *diagnosticsEngine.get());
 
    auto* languageOptions = compilerInvocation.getLangOpts();
    auto& preprocessorOptions = compilerInvocation.getPreprocessorOpts();
    auto& targetOptions = compilerInvocation.getTargetOpts();
    auto& frontEndOptions = compilerInvocation.getFrontendOpts();
#ifdef NV_LLVM_VERBOSE
    frontEndOptions.ShowStats = true;
#endif
    auto& headerSearchOptions = compilerInvocation.getHeaderSearchOpts();
#ifdef NV_LLVM_VERBOSE
    headerSearchOptions.Verbose = true;
#endif
    auto& codeGenOptions = compilerInvocation.getCodeGenOpts();
 
    // llvm::StringRef filename = "W:/Projects/NervSeed/temp/test1.cxx";
    llvm::StringRef filename = file.c_str();
 
    frontEndOptions.Inputs.clear();
    frontEndOptions.Inputs.push_back(clang::FrontendInputFile(filename, clang::InputKind(clang::Language::CXX)));
  
    targetOptions.Triple = llvm::sys::getDefaultTargetTriple();
    compilerInstance.createDiagnostics(textDiagnosticPrinter.get(), false);
  
    llvm::LLVMContext context;
    std::unique_ptr<clang::CodeGenAction> action = std::make_unique<clang::EmitLLVMOnlyAction>(&context);
  
    if (!compilerInstance.ExecuteAction(*action))
    {
        ERROR_MSG("Cannot execute action with compiler instance.");
    }
 
    std::unique_ptr<llvm::Module> module = action->takeModule();
    if (!module)
    {
        ERROR_MSG("Cannot retrieve IR module.");
    }
 
    llvm::PassBuilder passBuilder;
    llvm::LoopAnalysisManager loopAnalysisManager(codeGenOptions.DebugPassManager);
    llvm::FunctionAnalysisManager functionAnalysisManager(codeGenOptions.DebugPassManager);
    llvm::CGSCCAnalysisManager cGSCCAnalysisManager(codeGenOptions.DebugPassManager);
    llvm::ModuleAnalysisManager moduleAnalysisManager(codeGenOptions.DebugPassManager);
  
    passBuilder.registerModuleAnalyses(moduleAnalysisManager);
    passBuilder.registerCGSCCAnalyses(cGSCCAnalysisManager);
    passBuilder.registerFunctionAnalyses(functionAnalysisManager);
    passBuilder.registerLoopAnalyses(loopAnalysisManager);
    passBuilder.crossRegisterProxies(loopAnalysisManager, functionAnalysisManager, cGSCCAnalysisManager, moduleAnalysisManager);
  
    llvm::ModulePassManager modulePassManager = passBuilder.buildPerModuleDefaultPipeline(llvm::PassBuilder::OptimizationLevel::O3);
    modulePassManager.run(*module, moduleAnalysisManager);
 
    llvm::EngineBuilder builder(std::move(module));
    builder.setMCJITMemoryManager(std::make_unique<llvm::SectionMemoryManager>());
    builder.setOptLevel(llvm::CodeGenOpt::Level::Aggressive);
     
    std::string createErrorMsg;
    // builder.setEngineKind(llvm::EngineKind::Interpreter);
    builder.setEngineKind(llvm::EngineKind::JIT);
    builder.setVerifyModules(true);
    builder.setErrorStr(&createErrorMsg);
 
    std::string triple = llvm::sys::getDefaultTargetTriple();
    DEBUG_MSG("Using target triple: "<<triple);
    auto executionEngine = builder.create();
  
    if (!executionEngine)
    {
        ERROR_MSG("Cannot create execution engine.'"<<createErrorMsg<<"'");
    }
     
    DEBUG_MSG("Retrieving nv_add/nv_sub functions...");
    typedef int(*AddFunc)(int,int);
    typedef int(*SubFunc)(int,int);
 
    AddFunc add = reinterpret_cast<AddFunc>(executionEngine->getFunctionAddress("nv_add"));
    if(!add) {
        ERROR_MSG("Cannot retrieve Add function.");
    }
    else {
        int res = add(40,2);
        ERROR_MSG("The meaning of life is: "<<res<<"!");
    }
 
    SubFunc sub = reinterpret_cast<SubFunc>(executionEngine->getFunctionAddress("nv_sub"));
    if(!sub) {
        ERROR_MSG("Cannot retrieve Sub function.");
    }
    else {
        int res = sub(50,8);
        ERROR_MSG("The meaning of life is really: "<<res<<"!");
    }
 
    DEBUG_MSG("leaving runClang() function.");
    // return reinterpret_cast<Function>(executionEngine->getFunctionAddress(function));
}

Je n’ai pas beaucoup modifié le début de ce fichier, mais j’ai dû ensuite remplacer quelques unique_ptr par les conteneurs IntrusiveRefCntPtr fournis par LLVM (c’était indispensable, puisque le code initial ne compilait pas).

J’ai aussi ajouté quelques sorties de débogage à l’appel de fonctions qui étaient définies comme arguments dans le code C++ fourni (comme, dans cet exemple simple, je m’attends simplement à trouver les fonctions nv_add et nv_sub).

V. Fichier de configuration pour Cmake▲

Une chose qui manquait dans l’article original de Matthieu Brucher était les fichiers de configuration de compilation autour de ce type de module partagé. Pour ma part, j’utilise CMake pour mon projet et voici ce à quoi je suis arrivé jusqu’ici.

À la racine de ce module nvLLVM, j’ai le fichier cmakelist.txt suivant :

Cacher/Afficher le codeSélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.

SET(TARGET_DIR "./")

# https://llvm.org/docs/CMake.html
SET(CMAKE_PREFIX_PATH ${CMAKE_PREFIX_PATH} ${LLVM_CLANG_DIR})

# message(STATUS "CMAKE_PREFIX_PATH: ${CMAKE_PREFIX_PATH}")

# We should try to find the LLVM package:
find_package(LLVM REQUIRED CONFIG)
message(STATUS "Using LLVM ${LLVM_PACKAGE_VERSION}")
# message(STATUS "Using LLVMConfig.cmake in: ${LLVM_DIR}")

include_directories(${LLVM_INCLUDE_DIRS})
# message(STATUS "LLVM includes: ${LLVM_INCLUDE_DIRS}")

add_definitions(${LLVM_DEFINITIONS})
add_definitions(-D_SILENCE_CXX17_ITERATOR_BASE_CLASS_DEPRECATION_WARNING)
# add_definitions(-D_CRT_SECURE_NO_DEPRECATE -D_CRT_SECURE_NO_WARNINGS -D_CRT_NONSTDC_NO_DEPRECATE -D_CRT_NONSTDC_NO_WARNINGS -D_SCL_SECURE_NO_DEPRECATE -D_SCL_SECURE_NO_WARNINGS -D__STDC_CONSTANT_MACROS -D__STDC_FORMAT_MACROS -D__STDC_LIMIT_MACROS)
# message(STATUS "Using LLVM definitions: ${LLVM_DEFINITIONS}")

# This is needed to ensure we use the same C runtime as the LLVM components:
SET(CMAKE_CXX_FLAGS "/EHsc /MD")

# Note: used llvm-config.exe --libs to retrieve the list of libraries below:
SET(LLVM_LIBS LLVMXRay LLVMWindowsManifest LLVMTableGen LLVMSymbolize LLVMDebugInfoPDB LLVMOrcJIT LLVMOrcError LLVMJITLink LLVMObjectYAML LLVMMCA LLVMLTO LLVMPasses LLVMCoroutines LLVMObjCARCOpts LLVMLineEditor LLVMLibDriver LLVMInterpreter LLVMFuzzMutate LLVMMCJIT LLVMExecutionEngine LLVMRuntimeDyld LLVMDWARFLinker LLVMDlltoolDriver LLVMOption LLVMDebugInfoGSYM LLVMCoverage LLVMXCoreDisassembler LLVMXCoreCodeGen LLVMXCoreDesc LLVMXCoreInfo LLVMX86Disassembler LLVMX86AsmParser LLVMX86CodeGen LLVMX86Desc LLVMX86Utils LLVMX86Info LLVMWebAssemblyDisassembler LLVMWebAssemblyCodeGen LLVMWebAssemblyDesc LLVMWebAssemblyAsmParser LLVMWebAssemblyInfo LLVMSystemZDisassembler LLVMSystemZCodeGen LLVMSystemZAsmParser LLVMSystemZDesc LLVMSystemZInfo LLVMSparcDisassembler LLVMSparcCodeGen LLVMSparcAsmParser LLVMSparcDesc LLVMSparcInfo LLVMRISCVDisassembler LLVMRISCVCodeGen LLVMRISCVAsmParser LLVMRISCVDesc LLVMRISCVUtils LLVMRISCVInfo LLVMPowerPCDisassembler LLVMPowerPCCodeGen LLVMPowerPCAsmParser LLVMPowerPCDesc LLVMPowerPCInfo LLVMNVPTXCodeGen LLVMNVPTXDesc LLVMNVPTXInfo LLVMMSP430Disassembler LLVMMSP430CodeGen LLVMMSP430AsmParser LLVMMSP430Desc LLVMMSP430Info LLVMMipsDisassembler LLVMMipsCodeGen LLVMMipsAsmParser LLVMMipsDesc LLVMMipsInfo LLVMLanaiDisassembler LLVMLanaiCodeGen LLVMLanaiAsmParser LLVMLanaiDesc LLVMLanaiInfo LLVMHexagonDisassembler LLVMHexagonCodeGen LLVMHexagonAsmParser LLVMHexagonDesc LLVMHexagonInfo LLVMBPFDisassembler LLVMBPFCodeGen LLVMBPFAsmParser LLVMBPFDesc LLVMBPFInfo LLVMAVRDisassembler LLVMAVRCodeGen LLVMAVRAsmParser LLVMAVRDesc LLVMAVRInfo LLVMARMDisassembler LLVMARMCodeGen LLVMARMAsmParser LLVMARMDesc LLVMARMUtils LLVMARMInfo LLVMAMDGPUDisassembler LLVMAMDGPUCodeGen LLVMMIRParser LLVMipo LLVMInstrumentation LLVMVectorize LLVMLinker LLVMIRReader LLVMAsmParser LLVMFrontendOpenMP LLVMAMDGPUAsmParser LLVMAMDGPUDesc LLVMAMDGPUUtils LLVMAMDGPUInfo LLVMAArch64Disassembler LLVMMCDisassembler LLVMAArch64CodeGen LLVMCFGuard LLVMGlobalISel LLVMSelectionDAG LLVMAsmPrinter LLVMDebugInfoDWARF LLVMCodeGen LLVMTarget LLVMScalarOpts LLVMInstCombine LLVMAggressiveInstCombine LLVMTransformUtils LLVMBitWriter LLVMAnalysis LLVMProfileData LLVMObject LLVMTextAPI LLVMBitReader LLVMCore LLVMRemarks LLVMBitstreamReader LLVMAArch64AsmParser LLVMMCParser LLVMAArch64Desc LLVMMC LLVMDebugInfoCodeView LLVMDebugInfoMSF LLVMBinaryFormat LLVMAArch64Utils LLVMAArch64Info LLVMSupport LLVMDemangle)

# SET(LLVM_LIBS LLVMCore LLVMPasses LLVMFrontendOpenMP LLVMOption
#     LLVMProfileData LLVMcoverage LLVMLTO LLVMMCJIT LLVM-C )
    # LLVMJITLink LLVMExecutionEngine LLVM-C * 
    # LLVMSupport LLVMJITLink 
SET(CLANG_LIBS clangAST clangBasic clangLex clangCodeGen clangFrontend clangEdit 
    clangSerialization clangSema clangDriver clangParse clangAnalysis)

# IF(MSVC)
#   set(CMAKE_SHARED_LINKER_FLAGS "${CMAKE_SHARED_LINKER_FLAGS} /NODEFAULTLIB:MSVCRT")
# ENDIF()

# llvm_map_components_to_libnames(LLVM_LIBS support core clang)
# message(STATUS "Using LLVM libs: ${LLVM_LIBS}")

LINK_DIRECTORIES(${LLVM_CLANG_DIR}/lib)

INCLUDE_DIRECTORIES (include)

ADD_DEFINITIONS(-D_CRT_SECURE_NO_WARNINGS)
ADD_DEFINITIONS(-DNOMINMAX)

FILE(GLOB_RECURSE PUBLIC_HEADERS "include/*.h")

FILE(GLOB_RECURSE SOURCE_FILES "src/*.cpp" )

ADD_SUBDIRECTORY(src)

Ensuite, j’ai un répertoire src où je mets les fichiers .cpp et le fichier CMake suivant :

Cacher/Afficher le codeSélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

SET(TARGET_NAME "nvLLVM")

ADD_DEFINITIONS(-DNVLLVM_LIB)

ADD_LIBRARY (${TARGET_NAME} SHARED ${PUBLIC_HEADERS} ${SOURCE_FILES})

TARGET_LINK_LIBRARIES(${TARGET_NAME} PRIVATE ${CLANG_LIBS} ${LLVM_LIBS} ${FLAVOR_LIBS})

INSTALL(TARGETS ${TARGET_NAME}
    RUNTIME DESTINATION ${TARGET_DIR}
    LIBRARY DESTINATION ${TARGET_DIR})

Comme vous pouvez le voir ci-dessus, j’ai fait quelques tests dans les fichiers CMake avant de trouver la manière de construire ma bibliothèque proprement.

La première chose à relever est que les bibliothèques LLVM sont statiques et utilisent le runtime C statique, alors que la plupart de mes autres modules utilisent le runtime C dynamique. J’ai donc dû ici uniquement construire un module partagé et spécifier la valeur de CMAKE_CXX_FLAGS à /MT.

J’ai aussi passé pas mal de temps à essayer de trouver avec quelles bibliothèques de LLVM et Clang je devais lier exactement. Au début, je liais avec le fichier LLVM-C.lib, mais c’était une mauvaise idée, car, comme résultat, j’ai obtenu une erreur à la création de mon ExecutionEngine sur l’appel à auto executionEngine = builder.create(); disant que JIT has not been linked in… Au lieu de cela, vous devez vraiment lier à toutes les bibliothèques LLVM que vous obtenez lorsque vous appelez llvm-config –libs (comme c’est le cas dans le fichier CMake ci-dessus). Notez que cette liste n’inclut pas la bibliothèque LLVM-C.

? Avec les fichiers CMake et sources ci-dessus, j’ai pu générer avec succès mon module nvLLVM.dll ! C’est un fichier géant de 49 MB, mais il ne dépend plus d’aucune bibliothèque LLVM supplémentaire (comme LLVM-C.dll) et je peux l’utiliser avec succès dans une application de test simple avec un appel de test à la fonction de test runClang() que j’ai définie ici ! Donc, ce module semble contenir un compilateur C++ complet, fonctionnel et indépendant, ce qui est absolument incroyable de mon point de vue !

VI. Application de test du compilateur Just-In-Time▲

L’application de test minimale que j’ai utilisée ici était simplement :

Sélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.

#include <iostream>
 
#define DEBUG_MSG(msg) std::cout << msg << std::endl;
 
#include <llvm_common.h>
 
int main(int argc, char *argv[])
{
    DEBUG_MSG("Running clang compilation...");
    runClang("W:/Projects/NervSeed/temp/test1.cxx");
    DEBUG_MSG("Done running clang compilation.");
 
    return 0;
}

Avec comme fichier CMake :

Sélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.

SET(TARGET_NAME "test_nvLLVM")
SET(TARGET_DIR "./")

ADD_DEFINITIONS(-D_CRT_SECURE_NO_WARNINGS)

FILE(GLOB_RECURSE SOURCE_FILES "*.cpp" )

INCLUDE_DIRECTORIES (${SRC_DIR}/nvLLVM/include)

ADD_EXECUTABLE (${TARGET_NAME} ${SOURCE_FILES})
TARGET_LINK_LIBRARIES(${TARGET_NAME} nvLLVM)

SET_TARGET_PROPERTIES(${TARGET_NAME} PROPERTIES PREFIX "")

COMPRESS_BINARY_TARGET()

INSTALL(TARGETS ${TARGET_NAME}
    RUNTIME DESTINATION ${TARGET_DIR}
    LIBRARY DESTINATION ${TARGET_DIR})

INSTALL_PDB()

J’ai obtenu les sorties suivantes :

Sélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

//  (... lots of LLVM statistics here since they are enabled in my code above...)
===-------------------------------------------------------------------------===
                          ... Statistics Collected ...
===-------------------------------------------------------------------------===

2 file-search - Number of directory cache misses.
2 file-search - Number of directory lookups.
1 file-search - Number of file cache misses.
1 file-search - Number of file lookups.

[DEBUG]: Using target triple: x86_64-pc-windows-msvc
[DEBUG]: Retrieving nv_add/nv_sub functions...
[ERROR]: The meaning of life is: 42!
[ERROR]: The meaning of life is really: 42!
[DEBUG]: leaving runClang() function.

Bien sûr le contenu de test1.cxx que j’ai fourni ci-dessus est simplement (comme on pouvait l’attendre) :

Sélectionnez

1.
2.
3.
4.
5.
6.
7.
8.
9.

int nv_add(int a, int b)
{
    return a+b;
}
 
int nv_sub(int a, int b)
{
    return a-b;
}

Bien… De ce que je comprends, ces résultats signifient que le compilateur a compilé avec succès le code de ce fichier test1, optimisé ce code et l’a chargé dans le contexte de LLVM, de sorte que nous avons pu l’utiliser directement comme nous l’avons fait, en récupérant les pointeurs de fonction et en appelant ces fonctions ! N’est-ce pas stupéfiant ?!

VII. Prochaines étapes▲

Maintenant que j’ai un JIT de base initial fonctionnel, il y a pas mal de recherches/tests à faire dans cette direction.

J’ai trouvé cet article officiel Building a JIT: Starting out with KaleidoscopeJIT, qui semble très prometteur et souple, je dois donc absolument l’étudier plus en détail et l’essayer si possible.
Je dois aussi tenter de lier avec mes modules C++ existant pour voir si tout fonctionne comme attendu.
J’ai aussi noté que nous pouvons fournir des entrées “from memory” plutôt que “from file” (je pense ?) : ce serait une excellente chose à avoir !
Et je dois garder en mémoire que mon but final est de pouvoir générer du code C++ avec Lua. Je devrai vraiment nettoyer et revoir le code ci-dessus pour le rendre plus « prêt pour la production », et ensuite générer les interfaces nécessaires, bien sûr.

Mais c’est tout pour aujourd’hui, de toute façon ! Tous les points restants seront pour une prochaine fois !

VIII. Notes et références additionnelles▲

J’ai aussi trouvé cet article The simplest way to compile C++ with Clang at runtime :

celui-là semble essayer de gérer les choses à un niveau encore plus élevé, en appelant juste la fonction « main » que vous trouverez typiquement dans l’exécutable de Clang lui-même si je comprends correctement ;
ça semble un peu trop élevé à mon goût, mais il mentionne aussi le concept d’« injecter le module compilé » dans un objet « JIT » et il fournit aussi un projet compagnon sur GitHub pour construire un JIT à partir de zéro : JitFromScratch.

Nous avons aussi ce dépôt GitHub avec quelques « tutoriels Clang » : https://github.com/loarabia/Clang-tutorial.

Le code semble assez vieux, je ne sais pas si ça en vaut encore la peine.

Ceci peut aussi valoir la lecture un jour : Using libclang to Parse C++ (aka libclang 101).

La documentation en ligne de LLVM couvre aussi certains sujets/aspects intéressants https://llvm.org/docs/Reference.html. Par exemple : ORC Design and Implementation.

IX. Remerciements Developpez.com▲

Ce tutoriel est la traduction de Dynamic C++ compilation with LLVM & clang. Nous tenons à remercier Thierry Jeanneret pour la traduction, Thibaut Cuvelier pour la relecture technique, Malick pour la mise au gabarit et Claude Leloup pour la relecture orthographique.

Vous avez aimé ce tutoriel ? Alors partagez-le en cliquant sur les boutons suivants :

En complément sur Developpez.com