从C源程序到Linux可执行程序之旅的四个阶段

标签: 源程序 linux 行程 | 发表时间:2011-10-06 16:17 | 作者:后溪金 redhobor
出处:http://www.yeeyan.org

译者 后溪金


编写一个C程序,使用gcc进行编译,然后得到一个可执行程序。相当简单,对吗?

你有没有问过自己,编译处理期间到底发生了什么事情,还有C程序如何转换成可执行程序呢?

为了最后变成可执行程序,源代码要经过的行程主要有四个阶段。

C源程序变成可执行程序的四个阶段如下:

预处理编译汇编链接

本文第一部分将讨论gcc编译器在把C程序的源代码编译成可执行程序时所经历的步骤。

在进一步讨论之前,让我们先用hello world这个简单的例子,迅速地看一下如何使用gcc编译和运行C代码。

$ vi print.c

#include

#define STRING "Hello World"

int main(void)

{

/* Using a macro to print 'HelloWorld'*/

printf(STRING);

return 0;

}

现在,让我们运行gcc编译器编译这个源代码以建立可执行程序。

$ gcc -Wall print.c -o print

在上述命令中:

gcc – 调用GNU C编译器-Wall – gcc打开所有警告提示的标记。-W表示警告,我们还把“all”传给-Wprint.c – 输入给gccC程序-o print – 指示C编译器创建名为print的可执行程序。如果没有指定-oC编译器将默认地创建名为a.out的可执行程序

最后,执行print,这个命令将执行C程序并显示hello world

$ ./printHello World

注意:当你致力于编写包含几个C程序的大项目时,请按我们早先讨论的一样,用make实用程序来操控C程序的编译。

现在,我们对如何使用gcc把源代码转换成二进制代码已经有了基本的概念,我们将重新考虑把C源程序变成可执行程序必须经历的四个阶段。

1. 预处理

这正是源代码必经的第一阶段。这个阶段要完成以下任务:

宏替换去掉注释包含文件的扩充

为了更好地理解预处理,可用标记-E编译上面的程序print.c,这将把预处理后的结果显示在标准输出上。

$ gcc -Wall -E print.c

如下所示,使用标记-save-temps可能会更好。标记-save-temps指示编译器把被gcc使用的临时中间文件存储在当前目录中。

$ gcc -Wall -save-temps print.c -o print

所以,当我们用-save-temps标记来编译程序print.c时,就可以在当前目录中(除可执行文件print以外,还可以)得到以下中间文件:

$ lsprint.iprint.sprint.o

预处理的结果存储在扩展名.i的临时文件(本例即print.i)中。

$ vi print.i........................# 846 "/usr/include/stdio.h" 3 4extern FILE *popen (__const char *__command, __const char *__modes) ;extern int pclose (FILE *__stream);extern char *ctermid (char *__s) __attribute__ ((__nothrow__)); # 886 "/usr/include/stdio.h" 3 4extern void flockfile (FILE *__stream) __attribute__ ((__nothrow__));extern int ftrylockfile (FILE *__stream) __attribute__ ((__nothrow__)) ;extern void funlockfile (FILE *__stream) __attribute__ ((__nothrow__)); # 916 "/usr/include/stdio.h" 3 4# 2 "print.c" 2 int main(void){printf("Hello World");return 0;}

在以上输出结果中,可见源代码现在充满许许多多信息,但在结尾部分仍然能够看到我们编写的几行代码。让我们先分析这些代码行。

首先观察到的是printf()的参数现在直接包含字符串“Hello World”而不是宏。事实上,宏的定义和宏的使用已经完全消失。这证实,预处理阶段的第一个任务就是展开所有的宏。其次看到的是,我们在原来的代码中所写的注释也不在了。这表明去掉了所有的注释。第三,找不到#include这一行了,取而代之的是完整的大量代码。所以,可以放心地断定,头文件stdio.h已经展开,并且逐字逐句地包含在我们的源代码中。因此,我们知道,编译器就能够看见printf()函数的声明。

我在搜索print.i文件时发现,函数printf声明为:

extern int printf (__const char *__restrict __format, ...);

关键字extern表明,函数printf()不是在这个文件中定义的,它是外部函数。稍后就会明白,gcc如何获得printf()的定义。

可用gdb调试C程序。既然对预处理阶段会发生什么有了相当好的理解,那么,让我们进入下一阶段吧。

2. 编译

编译器完成预处理阶段的工作之后,下一步就是把print.i作为输入,进行编译,然后产生编译过的中间输出结果。这一阶段的输出文件是print.sprint.s中包含的是汇编级指令。

用编辑器打开文件print.s并查看文件内容。

$ vi print.s.file "print.c".section .rodata.LC0:.string "Hello World".text.globl main.type main, @functionmain:.LFB0:.cfi_startprocpushq %rbp.cfi_def_cfa_offset 16movq %rsp, %rbp.cfi_offset 6, -16.cfi_def_cfa_register 6movl $.LC0, %eaxmovq %rax, %rdimovl $0, %eaxcall printfmovl $0, %eaxleaveret.cfi_endproc.LFE0:.size main, .-main.ident "GCC: (Ubuntu 4.4.3-4ubuntu5) 4.4.3".section .note.GNU-stack,"",@progbits

虽然我不想在汇编级程序设计方面卷得太深,但迅速查看后可以断定,这一汇编输出结果采用一些汇编程序能够理解的指令格式并把它转换成机器语言。

3. 汇编

在这一阶段,文件print.s被当作输入并产生中间文件print.o。这个文件也被认为是目标文件。

这个文件由汇编程序产生,汇编程序理解并把带有汇编指令的.s文件转换成包含机器指令的目标文件(.o)。这一阶段只把现有的代码转换成机器语言,而像printf()这样的函数调用暂不解析。

由于这个阶段的输出是机器级文件(print.o),所以不能查看其内容。如果你还是试图要打开并查看print.o,那么,你将看到的是一些完全不可读的东西。

$ vi print.o^?ELF^B^A^A^@^@^@^@^@^@^@^@^@^A^@>^@^A^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@0^^@UH<89>å¸^@^@^@^@H<89>ǸHello World^@^@GCC: (Ubuntu 4.4.3-4ubuntu5) 4.4.3^@^T^@^@^@^@^@^@^@^AzR^@^Ax^P^A^[^L^G^H<90>^A^@^@^\^@^@]^@^@^@^@A^N^PC<86>^B^M^F^@^@^@^@^@^@^@^@.symtab^@.strtab^@.shstrtab^@.rela.text^@.data^@.bss^@.rodata^@.comment^@.note.GNU-stack^@.rela.eh_frame^@^@^@^@^@^@^@^@^@^@^@^......

通过查看文件print.o,唯一能够解释的是有关字符串ELF

ELF表示可执行并且可链接的格式。

相对而言,这是由gcc产生的机器级目标文件和可执行文件的新格式。在此之前,使用的是称之为a,out的格式。据说,ELF的格式比a,out的复杂得多。

注意:如果没有指定输出文件名来编译代码,虽然所产生的输出文件的名字是a.out,但现在已经改为ELF格式。仅仅是缺省的可执行文件名字依旧一样。

4. 链接

这是最后的阶段,完成对所有函数调用及其定义的链接。正如早先讨论的一样,直到这时,gcc还不了解像printf()一样的库函数的定义。在编译器确切知道所有这些函数在什么地方实现之前,函数调用只是简单地采用占位符。正是在这一阶段,print()的定义得到解析,并且插入printf()函数的实际地址。

链接器在这个阶段加入行动并完成这项任务。

链接器也做一些额外的工作;它把一些程序开始运行和程序结束运行所需的附加代码合并到程序。例如,设置运行环境的标准代码,像传递命令行参数、环境变量给每个程序等。类似地,把程序的返回值返回给系统也需要一些标准代码。

编译器的上述任务可以通过小实验加以证实。从现在开始,我们就知道链接器把.o文件(print.o)转换成可执行文件(print)

因此,要是比较print.oprint这两个文件的大小,就会发现差别。

$ size print.o   text    data     bss     dec     hex filename     97       0       0      97      61 print.o  $ size print   text    data     bss     dec     hex filename   1181     520      16    1717     6b5 print

通过size命令,我们获得一个粗略的概念,从目标文件到可执行文件,输出文件的大小增加了。这全都是因为链接器把额外的标准代码和我们的程序合并在一起。

现在,你知道C源程序在变成可执行程序之前发生的事情,了解到预处理、编译、汇编和链接等阶段。链接阶段还有更多事情需要了解,我们将在这一系列的下一篇文章报道。

相关 [源程序 linux 行程] 推荐:

从C源程序到Linux可执行程序之旅的四个阶段

- redhobor - 译言-每日精品译文推荐
编写一个C程序,使用gcc进行编译,然后得到一个可执行程序. 你有没有问过自己,编译处理期间到底发生了什么事情,还有C程序如何转换成可执行程序呢. 为了最后变成可执行程序,源代码要经过的行程主要有四个阶段. C源程序变成可执行程序的四个阶段如下:. 预处理编译汇编链接本文第一部分将讨论gcc编译器在把C程序的源代码编译成可执行程序时所经历的步骤.

Javascript 里跑Linux

- rockmaple - Shellex&#39;s Blog
牛逼到暴的大拿 Fabrice Bellard,用Javascript实现了一个x86 PC 模拟器,然后成功在这个模拟器里面跑Linux(请用Firefox 4 / Google Chrome 11打开,Chome 12有BUG). 关于这个东西… 伊说 “I did it for fun“,大大啊大大啊….

Linux Ksplice,MySQL and Oracle

- Syn - DBA Notes
Oracle 在 7 月份收购了 Ksplice. 使用了 Ksplice 的 Linux 系统,为 Kernel 打补丁无需重启动,做系统维护的朋友应该明白这是一个杀手级特性. 现在该产品已经合并到 Oracle Linux 中. 目前已经有超过 700 家客户,超过 10 万套系统使用了 Ksplice (不知道国内是否已经有用户了.

linux makefile编写

- hl - C++博客-首页原创精华区
在讲述这个Makefile之前,还是让我们先来粗略地看一看Makefile的规则. target也就是一个目标文件,可以是Object File,也可以是执行文件. prerequisites就是,要生成那个target所需要的文件或是目标. command也就是make需要执行的命令. 这是一个文件的依赖关系,也就是说,target这一个或多个的目标文件依赖于prerequisites中的文件,其生成规则定义在 command中.

Linux下的VDSO

- 圣斌 - Adam&#39;s
VDSO(Virtual Dynamically-linked Shared Object)是个很有意思的东西, 它将内核态的调用映射到用户态的地址空间中, 使得调用开销更小, 路径更好.. 开销更小比较容易理解, 那么路径更好指的是什么呢. 拿x86下的系统调用举例, 传统的int 0×80有点慢, Intel和AMD分别实现了sysenter, sysexit和syscall, sysret, 即所谓的快速系统调用指令, 使用它们更快, 但是也带来了兼容性的问题.

Linux wget命令

- - CSDN博客推荐文章
wget是linux最常用的下载命令, 一般的使用方法是: wget + 空格 + 要下载文件的url路径. 例如: # wget  http://www.linuxsense.org/xxxx/xxx.tar.gz. 简单说一下-c参数, 这个也非常常见, 可以断点续传, 如果不小心终止了, 可以继续使用命令接着下载.

linux 小技巧

- - DBA Blog
2:如何限制用户的最小密码长度. 修改/etc/login.defs里面的PASS_MIN_LEN的值. 比如限制用户最小密码长度是8:. 3:如何使新用户首次登陆后强制修改密码. 4:更改Linux启动时用图形界面还是字符界面. 将id:5:initdefault: 其中5表示默认图形界面. 改id:3: initdefault: 3表示字符界面.

Linux iostat命令

- - CSDN博客系统运维推荐文章
iostat用于输出CPU和磁盘I/O相关的统计信息. . iostat [ -c | -d ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ device [. iostat各个参数说明:. -c 仅显示CPU统计信息.与-d选项互斥. -d 仅显示磁盘统计信息.与-c选项互斥.

Linux的架构

- - 博客园_首页
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明. 我们以下图为基础,说明Linux的架构(architecture). (该图参考《 Advanced Programming in Unix Environment》). 最内层是我们的硬件,最外层是我们常用的各种应用,比如说使用firefox浏览器,打开evolution查看邮件,运行一个计算流体模型等等.

linux命令locate

- - 操作系统 - ITeye博客
    locate命令其实是"find -name"的另一种写法,但是要比后者快得多,原因在于它不搜索具体目录,而是搜索一个数据库(/var/lib/locatedb),这个数据库中含有本地所有文件信息. Linux系统自动创建这个数据库,并且每天自动更新一次,所以使用locate命令查不到最新变动过的文件.