Базы данныхИнтернетКомпьютерыОперационные системыПрограммированиеСетиСвязьРазное
Поиск по сайту:
Подпишись на рассылку:

Назад в раздел

Формат исполняемых файлов PortableExecutables (PE).

ФОРМАТ ИСПОЛНЯЕМЫХ ФАЙЛОВ PortableExecutables (PE)


ФОРМАТ ИСПОЛНЯЕМЫХ ФАЙЛОВ PortableExecutables (PE)
(даже не руководство системного программиста)
by Hard Wisdom
[27-Dec-1997y]-[v1.0.0] - Первоначально написанный файл [30-Oct-1998y]-[v1.1.0] - Внесены накопленные изменения, + корректировки от Shadow Dragon [13-Feb-1999y]-[v1.1.1] - Перевод в HTML by Roland / [RD] [26-Feb-1999y]-[v1.2.0] - Исправлена неточность с флажком типа отладочной информации Tnx to Roland
Содержание
[0] Вступление
[1] Обзор
[2] Заголовок PE файла (PE Header)
[3] Таблица объектов (секций) файла (Object Table)
[4] Страницы образов секций (Image Pages)
[5] Экспорт
  [5.1] Таблица экспорта (Export Directory Table)
  [5.2] Таблица адресов экспорта (Address Table)
  [5.3] Таблица указателей на имена (Name Table Pointers)
  [5.4] Таблица ординалов (Ordinal Table)
  [5.5] Таблица имен экспорта (Export Name Table)
[6] Импорт
  [6.1] Каталог импорта (Import Directory Table)
  [6.2] Таблица просмотра импорта (Import LookUp Table)
  [6.3] Таблица адресов импорта (Import Address Table)
[7] Локальная область данных цепочек (Thread Local Storage)
  [7.1] Таблица разделов цепочек (TLS Directory table)
  [7.2] Таблица обратных вызовов цепочки (TLS CallBack Table)
[8] Ресурсы
  [8.1] Каталог ресурсов (Resource Directory Table)
  [8.2] Пример структуры размещения ресурсов
[9] Таблица настроек адресов (FixUp Table)
  [9.1] Блок настроек перемещений (FixUp Block)
[10] Отладочная информация (Debug Information)
  [10.1] Отладочный каталог (Debug Directory)
[11] Вопросы не рассмотренные в данном описании
[12] P.S.


[0] Вступление

Итак, в этом документе излагается формат PE файла с комментариями. Что побудило меня к такой работе? Отчасти пинания Shadow Dragon'a, а отчасти одна законченная шутка для Windows'95. В основе лежит официальное описание фирмы Микрософт (весьма и весьма глюкавое), книга Мэтта Питрека "Секреты системного программирования в Windows'95" (ну очень тяжела для прочтения, ну очень много воды...), книга Эндрю Шульмана "Неофициальная Windows'95" (тоже очень мокрая), книга Джеффри Рихтера "Программирование в Win32 API для Windows NT 3.5 и Windows'95", а так же готовые экзешники Windows'95. Общие соглашения в написанном тексте: все именования полей и ключевых структур - Английские и только, остальной текст может быть произвольным ;-), тект изложения перемежается с вольными комментариями и лирическими отступлениями. Знаком "?" отмечены места, назначение которых не ясно, либо вызывает сомнения.

[1] Обзор

PE формат файлов существует очень давно, Windows 3.11 при установленном Win32s может запускать такие файлы (более того, это заложено в архитектуру системы). Но только недавно он получил довольно широкое распространение, а именно с расширением использования Windows'95. Формат файла чрезвычайно прост, но тем не менее в нем есть очень много спотычек, через которые падают некоторые программы, да и сами Windows'95 (как программа). Следует отметить, что формат файла слизан с аналогичного в юних системах, кроме того, мелкомягкие опять поехали на изменении форматов и теперь вы можете так же лицезреть COFF формат OBJ файлов, который весьма похож на PE (собственно говоря это почти одно и то же ;-). Добавлю, что с новым форматом объектных модулей работает только Microsoft (вполне естественно, учитывая, что они его предложили), но найти данный компилятор ассемблера мне не удалось, впрочем как и линковщик. Borland по прежнему работает со старым форматом OBJ файлов, а именно - Intel OMF (справедливо для TASM v5.0 старше я не нашел). Ну а теперь о самом файловом формате.
Микрософт решила оставить у запускаемых файлов расширение EXE, а чтобы не было проблем начальным заголовком сделать запускаемый файл MS-DOS. У них это получилось, вот краткая схема названного:

Summary File Structure
00h DOS 2 Header
Совместимый заголовок (форматированная часть), будем считать, что его формат всем известен.
1Ch 4 байта, выравнивающие форматированную область заголовка с 1Ch до 20h,
никто не мешает им там не присутствовать ;-) но у Микрософта они описаны.
Это позволяет заголовку файла иметь красивый размер в 2 параграфа...
20h OEM Identifier & OEM Info
Другими словами, информация о программе, практически никогда не присутствует, однако место должно быть зарезервировано. Я встречал файлы с заполненным полем, наверное их делали люди буквально соблюдающие требования документации от Microsoft.
3Ch Offset to PE Header
Смещение реального PE заголовка в файле, DWord, присутствует именно здесь,
? заголовок выравнивается на 8 байтовую границу относительно начала файла.
min 40h релокейшены программы-заглушки, у стандартного STUB'а их нет.
На это поле указывает ReloOfs заголовка DOS 2 Header, соответственно его значение должно быть >=40h иначе такой файл как кандидат в PE рассматриваться вообще не будет. ;-)
Но на самом деле загрузчику безразлично фактическое их положение.
min 40h + XXh собственно говоря, тело DOS программы, иначе говоря STUB'a.
Чаще всего говорит о невозможности запуска, но может содержать в себе очень разрушительные вещи, как то поиск в PATH и запуск файла WIN.COM с указанием имени данного файла, причем без предупреждений, что конечно-же весьма неприятно. 40h есть нижняя граница данного поля, может, собственно говоря, находиться сколь угодно выше, зависит от размера заголовка.
XXh PE Header
Туточки находится заголовок PE файла и, другими словами, начинается сама 32-битная программа,
по идее он должен быть выровнен на 8-байтовую границу, пусть так и будет.
XXh Object Table
табличка описаний секций файла, подробнее далее.
XXh Image Pages (import info, export info, fixup info, resource info, debug info, etc...)
Остальная часть запускаемого файла...

Для проверки на возможность файла быть в формате PE необходимо, чтобы он был во первых EXE (байты по смещению 0h равны 5A4Dh), во вторых, слово по смещению 18h должно быть >=40h, тогда и только тогда DWord поле по смещению 3Ch имеет смысл. Загрузчик маздая файлы с заголовком 'ZM' - 4D5Ah не считает валидными 32-битовыми программами. При запуске из дос-окна выполняется ДОС часть программы, а при запуске с помощью CreateProcessA (консольная утилита START.EXE вызывает данный сервис) выдается сообщение о невозможности запуска программы, т.к. это не валидное 32-битовое приложение. Так же интересен следующий момент: возможен запуск файлов с расширением COM и структурой PE, но невозможен запуск файлов с расширением COM и структурой NE. Загрузчик 32-битового приложения проверяет на принадлежность файла к разряду 16-битовых приложений и передает управление в 16-битовый Kernel, в свою очередь тот отбраковывает переданное ему приложение и выполняет STUB.
Так же следует заметить, что фактическое значение поля ReloOffs заголовка DOS 2 Header для загрузчика PE файлов безразлично (он его не проверяет), соответственно это можно использовать в своих целях. (Зато HIEW это проверяет и отказывается работать с такими файлами, чтение документаций - вредная штука).

[2] Заголовок PE файла (PE Header)

Заметки:
VA есть виртуальный адрес, который уже базирован на смещение Image Base, прочитанное из PE Header'а. RVA есть относительный адрес ссылающийся на Image Base. RVA в PE Header имеющий нулевое значение указывает на то, что соответствующее поле не используется (что многие не проверяют IMHO). Все используемые страницы (Image pages) выравнены дополнением нулями до границы File align (опять же, выравнивать можно чем угодно, и не только нулями :-). Базы всех прочих таблиц и структур должны быть выравнены на DWord (4 байта) границу. Таким образом, все VA и RVA должны находиться на 32-битной границе [имеется ввиду на границе размещения двойных слов, начиная от 0 в файле, так что читайте смело DWord'ами ;-) в жизни не все так просто - прим. мое]. Все таблицы и структурные поля должны быть выравнены на их "родную" границу, за возможным исключением Debug Info. А теперь поехали...
PE Header
Base Size or Type Name Of field Brief description
00h DWord Signature Bytes Сигнатурка того, что этот файл собственно говоря является PE - должна быть 4550h, иначе - 'PE',0h,0h; два последних байта под что-то-там Микрософт зарезервировала (и проверяет их равенству на 0!).
04h Word CPU Type это поле указывает на предпочтительный ;-) тип процессора, на котором желательно запускать данную программу, вы редко увидите что-либо отличное от 14Ch -> i386
06h Word Num of Objects это поле указывает на число реальных входов в Object Table
08h DWord Time/Date Stamp используется для хранения даты и времени создания/модификации линкером
0Ch DWord Pointer to COFF table дополнительный указатель определяющий местонахождение отладочной COFF таблицы в файлах, отладочную информацию лучше всего искать по другому
10h DWord COFF table size кол-во символов в COFF таблице
14h Word NT Header Size размер заголовка PE файла начиная с поля Magic, название взято у программы Hiew, таким образом, общий размер заголовка PE файла составляет NT Header Size + 18h
16h Word Flags указывает на предназначение программы, конкретное значение флагов см.ниже
18h Word Magic поле указывает на основное предназначение программы. абсолютно всем наплевать в него
1Ah Byte Link Major старший номер версии использовавшегося при создании линкера
1Bh Byte Link Minor младший номер версии использовавшегося при создании линкера (эти 2 поля загрузчик пока игнорирует)
1Ch DWord Size of Code размер именно программного кода в файле, KERNEL использует это значение для фактического отведения памяти под загружаемую программу, установка этого значения слишком маленьким приведет к выдаче идиотского сообщения о нехватке памяти, хотя ее может быть валом
20h DWord Size of Init Data размер секции инициализированных данных, очевидно не используется в Windows'95, но используется в NT, назначение аналогично приведенному выше
24h DWord Size of UnInit Data размер секции неинициализированных данных, сложно сказать, как эти 3 поля корреспондируют между собой, но лучше с ними по честному ;-) явно видно, что формат разрабатывали одни, а реализовывали его другие. Рекомендую изучить регионы памяти и VirtualXXX функции
28h DWord Entry point RVA адрес, относительно Image Base по которому передается управление при запуске программы или адрес инициализации/завершения библиотеки
2Ch DWord Base of Code RVA секции, которая содержит программный код (как будто бы она одна единственная ;-) ) судя по всему никем не используется (но установлено верно)
30h DWord Base of Data RVA секции содержащей якобы данные, в реальных экзешниках указывает и на .data и на .bss и еще бог знает куда, вряд ли кем-нибудь используется
34h DWord Image Base виртуальный начальный адрес загрузки программы (ее первого байта). Должен быть на границе 64 Кб (связано с системой памяти Windows'95)
38h DWord Object align выравнивание программных секций, должен быть степенью 2 между 512 и 256М включительно, так же связано с системой памяти. При использовании других значений программа не загрузится.
3Ch DWord File align фактор используемый для выравнивания секций в программном файле. В байтовом значении указывает на границу на которую секции дополняются 0 при размещении в файле. Большое значение приводит к нерациональному использованию дискового пространства, маленькое увеличивает компактность, но и снижает скорость загрузки. Должен быть степенью 2 в диапазоне от 512 до 64К включительно. Прочие значения вызовут ошибку загрузки файла. Я так думаю, что размер файла штука более важная.
40h Word OS Major старший номер версии операционки необходимый для запуска программы. (нулевое значение не позволяет запустить программу, остальные игнорируются проверялось на OSR2)
42h Word OS Minor младший номер версии операц.
44h Word USER Major пользовательский номер версии, задается пользователем при линковке программы и им же и используется
46h Word USER Minor аналогично, младший номер
48h Word SubSys Major старший номер версии подсистемы, черт его знает как он использается, по моему всяких версий уже через край
4Ah Word SubSys Minor аналогично, младший номер
4Ch DWord Reserved судя по всему так оно и есть
50h DWord Image Size виртуальный размер в байтах всего загружаемого образа, вместе с заголовками, кратен Object align
54h DWord Header Size общий размер всех заголовков: DOS Stub + PE Header + Object Table
58h DWord File CheckSum контрольная сумма всего файла, опять же как и в DOS'е ее никто не контролирует, а линкер ее ставит в 0 при линковке Предполагалось ее рассчитывать как инверсию суммы всех байтов файла.
5Ch Word SubSystem операционная подсистема необходимая для запуска данного файла (GUI, консоль...)
5Eh Word DLL Flags указывает на специальные потребности при загрузке, начиная с NT 3.5 устарел и не используется
60h DWord Stack Reserve Size память требуемая для стека приложения, память резервируется, но выделяется только Stack Commit Size байтов, следующая страница является охранной. Когда приложение достигает этой страницы, то страница становится доступной, а следующая страница - охранной, и так до достижения нижней границы, после чего Windows'95 убивает программу с воплями об исключении у нее в стеке
64h DWord Stack Commit Size объем памяти отводимой в стеке немедленно после загрузки
68h DWord Heap Reserve Size максимальный возможный размер локального хипа
6Ch DWord Heap Comit Size отводимый при загрузке хип
70h DWord Loader Flags ? начиная с NT 3.5 объявлено неиспользуемым, назначение неясно, но в целом связано с поддержкой отладки
74h DWord Num of RVA and Sizes указывает размер массива VA/Size который следует ниже, данная фича зарезервирована под будущие расширения формата. В данный момент его значение всегда равно 10h
78h DWord Export Table RVA RVA адрес таблицы экспорта
7Ch DWord Export Data Size размер таблицы экспорта
80h DWord Import Table RVA RVA адрес таблицы импорта
84h DWord Import Data Size размер таблицы импорта
88h DWord Resource Table RVA RVA адрес таблицы ресурсов
8Ch DWord Resource Data Size размер таблицы ресурсов
90h DWord Exception Table RVA RVA адрес таблицы исключений
94h DWord Exception Data Size размер таблицы исключений
98h DWord Security Table RVA ? адрес таблицы безопасности
9Ch DWord Security Data Size ? размер таблицы безопасности
A0h DWord Fix Up's Table RVA RVA адрес таблицы настроек
A4h DWord Fix Up's Data Size размер таблицы настроек
A8h DWord Debug Table RVA RVA адрес таблицы отладочной инфы
ACh DWord Debug Data Size размер таблицы отладочной инфы
B0h DWord Image Description RVA RVA адрес строки описани модуля
B4h DWord Description Data Size размер строки описания модуля
B8h DWord Machine Specific RVA ? адрес таблицы значений специфичных для микропроцессора
BCh DWord Machnine Data Size ? размер таблицы значений специфичных для микропроцессора
C0h DWord TLS RVA указатель на локальную область данных цепочек
C4h DWord TLS Data Size размер области данных цепочек
C8h DWord Load Config RVA ?
CCh DWord Load Config Data Size ?
D0h 08h Reserved ?
D8h DWord IAT RVA ? мною это поле обнаружено только в мультимедийных файлах системы Windows'95, это SNDREC32, CDPLAYER, MPLAYER. оно указывает на таблицу адресов импорта в файле (помимо структуры импорта) писал эти программы один человек и чего он хотел...
используется в NT, в Windows'95 судя по всему нет
DCh DWord IAT Data Size ? размер описанного поля
E0h 08h Reserved ?
E8h 08h Reserved ?
F0h 08h Reserved ?
Total Structure size F8h Общий размер заголовка

CPU Type имеет следующие значения: 0000h - а черт его знает 014Ch - i386 014Dh - i486 014Eh - i586 0162h - MIPS Mark I (R2000, R3000) 0163h - MIPS Mark II (R6000) 0166h - MIPS Mark III (R4000) Flags имеет следующие битовые значения: 0000h - это программа 0001h - файл не содержит перемещений и таблицы перемещаемых элементов 0002h - образ в файле можно запускать
Если этот бит не установлен, то это обычно указывает на ошибку обнаруженную на этапе линковки, или же на то, что код был инкрементально отлинкован и, следовательно, не может быть запущен. [инкрементальная линковка - частичная линковка кода при изменении участка программы, а не тотальная перекомпиляция проекта, что подразумевается здесь - сказать очень трудно, скажем так - ОШИБКА!] 0200h - грузить фиксированно
Указывает на то, что программу можно грузить только по адресу, записанному в Image Base, если это невозможно, то такой файл лучше вообще не запускать. 2000h - это библиотека Magic имеет следующие значения: 0107h - программа должна выполняться в ПЗУ (что за черт?) 010Bh - нормальная программа для ОЗУ (на самом деле можно ставить любое значение, программа грузится нормально)

SubSystem имеет следующие значения: 0000h - а черт его знает 0001h - Native, пошли вы все к такой-то матери, никто не нужен 0002h - Windows GUI, т.е. окошечная 0003h - Windows Character (консольное приложение) 0005h - OS/2 Character 0007h - Posix Character (формат PE с юниховского передран, вот и. . .) DLL Flags имеет следующие битовые значения: 0001h - инициализация библиотеки на процесс 0002h - завершение библиотеки на процесс 0004h - инициализация библиотеки на нить (цепочку) 0008h - завершение библиотеки на нить (цепочку) Все прочие биты зарезервированы и желательно их установить в 0 значение, но можно этого и не делать ;-)

[3] Таблица объектов (секций) файла (Object Table)

Число входов в таблице объектов (секций) определяется полем Num of Objects заголовка PE Header. Входы в таблице объектов нумеруются начиная с 1. Сама таблица располагается непосредственно за PE Header. Последовательность секций кода и данных в памяти выбирается линкером. Виртуальные адреса объектам должны быть присвоены линкером в возрастающем порядке и являются кратными Object align в заголовке PE Header. Стоит заметить, что текущая реализация загрузчика Windows'95 не различает порядка объектов (секций) в таблице, поэтому можно смело располагать их в произвольном порядке. Каждая секция (объект) располагает именем, которое никого ни к чему не обязывает, имя может быть произвольным, но вообще-то смысл содержания секции и ее наименования как правило совпадают.

Object Entry
Base Size or Type Name Of field Brief description
00h 08h Object Name Имя объекта, остаток заполнен нулями, если имя объекта имеет длину 8 символов, то заключительного 0 нет. Некоторые PE дамперы падают на этом факте. Имя - штука отфонарная и никого ни к чему не обязывает.
08h DWord Virtual Size виртуальный размер секции, именно столько памяти будет отведено под секцию. Если Virtual Size превышает Physical Size, то разница заполняется нулями, так определяются секции неинициализированных данных (Physical Size = 0)
0Ch DWord Section RVA размещение секции в памяти, виртуальный ее адрес относительно Image Base. Позиция каждой секции выравнена на границу Object align (степень 2 от 512 до 256М включительно, по умолчанию 64К) и секции упакованы впритык друг к другу, впрочем, можно это не соблюдать.
10h DWord Physical Size размер секции (ее инициализированной части) в файле, кратно полю File align в заголовке PE Header, должно быть меньше или равно Virtual Size. Играя с этим полем можно добиться некоторых результатов ;-) загрузчик по идее хлопает всю секцию в отведенное ОЗУ
14h DWord Physical Offset физическое смещение относительно начала EXE файла, выровнено на границу File align поля заголовка PE Header. Смещение используется загрузчиком как seek значение.
18h 0Ch Reserved зарезервировано для OBJ файла, в экзешниках смысла не имеет
28h DWord Object Flags битовые флаги секции, см.ниже
Total Structure size 2Ch Общий размер описателя секции

Object Name несколько примеров из жизни:
.text- сюда Микрософт бросает выполнимый код
CODE- а Борланд любит это делать здесь
.icode- переходники импорта старых версий TLINK32
.data- Микрософт швыряет данные сюда
DATA- а Борланд сюда
.bss- неинициализированные данные (равна 0 в файле)
.CRT- инициализированные данные C/C++ от Борланда
.rsrc- ресурсы
.idata- секция импорта
.edata- секция экспорта
.reloc- таблица настроек
.tls- данные на базе которых Windows запускает цепочки
.rdata- отладочная информация
_FREQASM- посмотрите в KERNEL32, я думаю, и так понятно
PROTECTED- это взято из Хасповского сервера, вот так
. . . . .- и так далее

Как можно заметить - имя секции значит некоторые вещи, но вообще-то не определяет ничего ;-) Следует еще раз предупредить! Экзешник может содержать одну единственную секцию, в которую можно натолкать все. И это будет работать!

Object Flags имеет следующие значения: 00000004h - используется для кода с 16 битными смещениями 00000020h - секция кода 00000040h - секция инициализированных данных 00000080h - секция неинициализированных данных 00000200h - комментарии или любой другой тип информации 00000400h - оверлейная секция 00000800h - не будет являться частью образа программы 00001000h - общие данные 00500000h - выравнивание по умолчанию, если не указано иное 02000000h - может быть выгружен из памяти 04000000h - не кэшируется 08000000h - не подвергается страничному преобразованию 10000000h - разделяемый 20000000h - выполнимый 40000000h - можно читать 80000000h - можно писать Все прочие значения зарезервированы и должны быть установлены в 0. Большинство значений в Windows'95 не используется, наверняка не все используются даже в NT.

[4] Страницы образов секций (Image Pages)

Раздел образов содержит все инициализированные данные для всех объектов (секций). Значения позиционирования для начала страницы каждого объекта указаны в таблице объектов (Object Table) и выравнены на границу File align в заголовке PE Header. Объекты отсортированы в порядке их RVA и выравнены на Object align, это используется для оптимизации загрузки, но можно данное правило не соблюдать, загрузчик Windows'95 это не использует.
Следует отметить одну важную особенность, если где-то указан RVA, то не подразумевая его расположение надо просканировать таблицу секций для определения его реального места в файле !!! Программы типа борландовской TDUMP, PEDUMP (Мэтта Питрека) этого не делают и получают свое GPF пенальти при попытке обработать такие файлы в которых RVA несколько отличается от предполагаемых, тем не менее Windows'95 эти файлы прекрасно грузит и обрабатывает. Это не ошибка! Я видел гораздо позднее файлы с подобной структурой созданные компилятором Borland C++ (связано с импортом, это будет обсуждено далее, но вовсе от импорта не зависит).
Говоря об импорте нужно указать на одну возможность, не рассмотренную авторами Bizatch, впрочем об этом так-же ниже.

[5] Экспорт

обычно секция экспорта приблизительно выглядит следующим образом:
Typical Export Layout
Таблица собственно экспорта Export Directory Table
Адресная таблица Export Address Table
Таблица указателей на имена Export Name Table Pointers
Таблица ординалов Export Ordinal Table
Таблица самих имен Export Name Table

я сказал обычно, но я не сказал, что так должно быть, чуть ниже мы сейчас рассмотрим данные экспорта и механизм экспорта, сейчас замечу, что, как и с именами секций, вышеописанную структуру вы найдете в нормальных исполнимых файлах (без наворотов). За исключением Export Directory Table все остальное структурами можно назвать лишь с натяжкой.

[5.1] Таблица экспорта (Export Directory Table)

Информация экспорта начинается с Export Directory Table, которая описывает требуемую экспортную информацию. Export Directory Table содержит адресную информацию используемую при развязке настраиваемых ссылок в внешние точки входа внутри программы.
Export Directory Table
Base Size or Type Name Of field Brief description
00h DWord Flags зарезервировано на будущее = 0
04h DWord Time/Date Stamp время и дата создания экспортных данных
08h Word Major Version опять для нас, блин, старший номер версии таблицы экспорта
как хочешь, так и используй
0Ah DWord Minor Version аналогично, младший
0Ch DWord Name RVA RVA строки указывающей на имя нашей библиотеки
10h DWord Ordinal Base начальный номер экспорта, для функций нашей библиотеки, обычно установлено в 1, но не факт
14h DWord Num of Functions количество функций экспортируемых нашим модулем, является числом элементов массива Address Table см.ниже
18h DWord Num of Name Pointers число указателей на имена, обычно равно числу функций, но это не так, если у нас есть функции экспортируемые только по номеру
1Ch DWord Address Table RVA указатель на таблицу адресов (RVA) экспорта
20h DWord Name Pointers RVA указатель на таблицу указателей на имена экспорта
24h DWord Ordinal Table RVA указатель на таблицу ординалов экспорта, данный массив по индексам параллелен Name Pointers, элементами являются слова
Total Structure size 28h Общий размер таблички экспорта

Для обработки запросов на связывание загрузчик системы ищет: импорт по имени: имя в массиве имен, по его индексу ординал, ординал корректируется на базу и этим индексом вычитывается адрес функции из поля массива Address Table импорт по ординалу: ординал корректируется на базу и далее, как описано выше
Надо отметить, что таблица экспорта может содержать пропуски, которые отображаются нулевыми значениями адресов экспорта. Импортировать по ординалам очень нежелательно ибо в разных версиях Windows'95 ординалы функций в модулях различаются, не говоря уже об NT и проч.

[5.2] Таблица адресов экспорта (Address Table)

Данная структура данных содержит адреса экспортируемых функций (их точки входа) экпортируемых данных и т.п. в формате DWord RVA (по 4 байта на элемент). Для доступа к данным используется ординал функции с коррекцией на базу ординалов (Ordinal Base).

[5.3] Таблица указателей на имена (Name Table Pointers)

Данная структура содержит указатели на имена экспортируемых функций, указатели отсортированы в лексическом порядке для обеспечения возможности бинарного поиска. Каждый указатель занимает 4 байта. Имена функций обычно лежат в секции экспорта, но я опять сказал обычно ;-) Вы их можете помещать не туда. Еще раз повторюсь, секции - нечто эфемерное, обеспечивающее упаковку программы в файле и защиту участков кода, но не больше.

[5.4] Таблица ординалов (Ordinal Table)

Данная структура совместно с Name Table Pointers формирует 2 параллельных массива, разделенных для облегчения к ним доступа индексированием на родные для процессора данные (слова, двойные слова, но не сложные структуры). Данный массив содержит ординалы экспорта, которые в общем случае являются индексами в Address Table экспорта (за вычетом базы Ordinal Base). Элементами данного массива являются слова (2 байта).

[5.5] Таблица имен экспорта (Export Name Table)

Эта таблица содержит необязательные (по мнению Microsoft, ничего себе ;-) имена экспортируемых функций. Данный массив используется для совместно с Name Table Pointers и Ordinal Table для обеспечения связывания загрузчиком импорта/экспорта по имени. Механизм описывался выше. Каждый элемент являет собой ASCIZ строку с именем экспортируемой функции. Никто не говорит, что они должны в файле идти друг за другом последовательно, хотя так и построено большинство файлов. Надо отметить, что имена экспорта чувствительны к регистру.
Отметим особенность загрузчика - при связывании, если адрес функции находится в секции экспорта, то на самом деле по указанному адресу лежит строка переадресующая к другой библиотеке экспортирующей данную функцию (с указанием библиотеки и самой функции), это называется передача экспорта (если верить Мэту Питреку, я данную фичу еще не проверял).

[6] Импорт

Мы подходим к самому интересному разделу данного файла и любого PE исполнимого файла. По сравнению со старыми 16 битными приложениями все значительно упростилось - мы говорим системе о том, что мы хотим вызвать и откуда, а система в нужное место нашей программы предоставляет адрес перехода (внутри нашей FLAT памяти виртуальной машины). Все. Далее адрес уже используют по разному. Borland строит самостоятельно в секции кода (точнее линкер) переходники вида
     SomeThunkGate: Jmp D,[0XXXXXXXXh]
и все ссылки в программе оформляются:
     Call SomeThunkGate
При этом задача организации импорта возлагается на линковщик (напомним, Borland использует старый OMF формат). Прародители метода пошли другим путем. Переходники содержатся в библиотеке импорта и являются частью библиотеки. Линкер просто компонует ее в программу, причем с помощью одной хитрой особенности: имена секций содержащие в себе знак '$' могут объединяться с отсечением оставшейся части имени (секции упорядочиваются перед слиянием по оставшейся части имени). Линкеру остается лишь из чего-то вроде .idata$1 .idata$2 .idata$3 составить одну удобоваримую секцию .idata Следует еще добавить, Microsoft в своих программах часто организует вызовы внешних функций несколько иным образом: вместо Near вызова переходников используется непосредственно требуемый адрес, примерно так
     Call DWord Ptr [SomeServiceAddressVariable]
или так
     Mov ESi,SomeServiceAddressValue
     Call ESi
     ...
     Call ESi
создавшие формат да создадут удобный компилятор ;-)

[6.1] Каталог импорта (Import Directory Table)

Информация импорта начинается с Import Directory Table, которая описывает остальную информацию об импорте. Import Directory Table содержит адресную информацию используемую для разрешения ссылок на точки входа внутри образа библиотеки. Таблица импорта состоит из отдельных входов, как минимум по одному на каждую импортируемую библиотеку. Последний вход, указывающий на конец таблицы является пустым (заполнен нулями).
В "нормальных" файлах вся информация об импорте предворяется записью Import Directory Table (но физически вы можете разместить эту таблицу где угодно). Дело обстоит примерно так:
Typical Import Layout
Каталог импорта Import Directory Table
Таблица ссылок на имена LookUp Table
Таблица имен Hint-Name Table
Таблица адресов импорта Import Address Table

это приблизительная последовательность расположения в файле различных частей секции импорта, создаваемой существующими компоновщиками. В реальных файлах нет никаких ограничений на порядок следования участков секции импорта, а у загрузчика Windows'95 и на расположение последних. Формат одного входа каталога импорта приведен в таблице чуть ниже.
Import Directory Entry
Base Size or Type Name Of field Brief description
00h DWord Import LookUp Содержит ссылку на табличку RVA указывающих на соответствующие Hint-Name's или непосредственно ординал ипортируемого входа
04h DWord Time/Date Stamp Отметка о времени создания, часто содержит 0 (У-уф)
08h DWord Forward Chain ? связано с возможностью передачи экспорта в другие библиотеки. Обычно равно 0FFFFFFFFh
0Ch DWord Name RVA Ссылка на библиотеку с которой нам необходимо поиметь вызовы представлена в виде ASCIZ.
10h DWord Addres Table RVA Ссылка на табличку адресов импорта, заполняется системой при связывании
Total Structure size 14h Общий размер таблички импорта

[6.2] Таблица просмотра импорта (Import LookUp Table)

Имена сервисов библиотеки содержатся в Hint-Name's Table. Ее формат довольно прост:
Hint-Name Entry
WordHint Размер произвольныйASCIZ Service Name BytePAD Строка закрывается нулевым байтом, и при необходимости ее длинна выравнивается до четной границы еще одним 0

На имена сервисов и ссылаются RVA из таблицы Import LookUp. В случае импорта по ординалам старший бит значения из таблицы Import LookUp установлен в единицу. Конец таблицы находится по нулевому элементу. При попытке связывания по имени системный загрузчик использует вначале значение Hint (укороченный идентификатор точки входа) и только при неудачной попытке его использования производит в своих системных таблицах поиск требуемой точки входа. Имя сервиса чувствительно к регистру. Имя библиотеки - нет.

[6.3] Таблица адресов импорта (Import Address Table)

Данная таблица принимает в себя информацию после связывания загрузчиком импорта из внешних библиотек, она завершается нулевым элементом. Очень интересным фактом является то, что во многих программах она уже заполнена. Это справедливо, по меньшей мере, для программ самой Windows'95. Подобный факт заставляет предполагать, что загрузчик может не выполнять утомительной процедуры настройки во многих случаях. Ему будет необходимо лишь загрузить файл в ОЗУ и передать туда управление... Да здравствует вечно живой COM формат!
Да, еще, для перехвата функции из библиотеки можно поменять адрес в этой таблице - довольно простой и общий метод перехвата управления внутри отдельного процесса. И еще пара плюшек на заметку, данная таблица (как и многие другие таблицы импорта) может находиться на своем старом месте, а вот Import Directory Table имеет смысл изменить, перенести в требуемое место и там оставить. Файл корректируется минимально, а проблемы возникающие при этом весьма незначительны и я их описывал.

[7] Локальная область данных цепочек (Thread Local Storage)

Локальная область данных цепочек, это специальный протяженный блок данных. Каждая цепочка получит собственный блок при своем создании. Вот примерная структура данной области:
Typical TLS Layout
Таблица разделов цепочек TLS Directory Table
Данные цепочек TLS Data
Индексные переменные Index Variables
Адреса обратных вызовов CallBack Addresses

[7.1] Таблица разделов цепочек (TLS Directory table)

TLS Directory Table содержит адресную информацию, которая используется при описании остальной части TLS. Она имеет следующий формат:
TLS Directory Table
Base Size or Type Name Of field Brief description
00h Dword Start Data Block VA Виртуальный адрес начала блока данных цепочки
04h Dword End Data Block VA Виртуальный адрес конца блока данных цепочки
08h Dword Index VA Виртуальный адрес индексной переменной, используемой для доступа к локальному блоку данных цепочки
0Ch Dword CallBack Table VA Виртуальный адрес таблицы обратных вызовов
Total Structure size 10h Общий размер таблички TLS

[7.2] Таблица обратных вызовов цепочки (TLS CallBack Table)

Локальные обратные вызовы - массив виртуальных адресов функций, которые будут вызваны загрузчиком после создания цепочки (нити) и после ее завершения. Последний вход имеет нулевое значение и указыает на конец таблицы.

[8] Ресурсы

Ресурсы представляют собой многоуровневое двоично-отсортированное дерево. Их спроектированная структура позволяет содержать до 2^31 уровней, однако, реально используется только 3: самый верхний есть Type, затем Name, и затем Language (тип, имя, язык). Типичное представление ресурсного участка в файлах:

Typical Resources Layout
Каталог ресурсов Resources Directory Table
Данные ресурсов Resources Data

Структуру каталога ресурсов рассмотрим ниже.

[8.1] Каталог ресурсов (Resource Directory Table)
Resource Directory Table
Base Size or Type Name Of field Brief description
00h DWord Flags Пока не используются, должны быть сброшены в 0
04h DWord Time/Date Stamp Дата и время подключения ресурсов от ресурсного компилятора
08h Word Major Version Уугу, опять для нас номер версии, старший по счету
0Ah Word Minor Version --//-- и младший
0Ch Word Name Entry Количество входов в таблицу имен ресурсов, таблица располагается в самом начале массива входов и содержит строковые имена ассоциируемые с ресурсами
0Eh Word ID_Num Entry Количество 32-битовых идентификаторов ресурсов
Total Structure size 10h Размер каталога ресурсов

За каталогом ресурсов сразу следует массив переменной длинны, содержащий ресурсные входы. Name Entry содержит число ресурсных входов имеющих имена (связанные с каждым входом). Имена нечувствительны к регистру и расположены в порядке возрастания. ID_Num Entry определяет число входов имеющих в качестве имени 32-битовый идентификатор. Эти входы так же отсортированы по возрастанию. Данная структура позволяет получать быстрый доступ к ресурсам по имени или по идентификатору, но для отдельно взятого ресурса только одна из форм поиска поддерживается, не обе! Это согласуется с синтаксисом .RC и .RES файлов. Каждый вход в таблице ресурсов имеет следующий формат:
Resource Entry Item
Base Size or Type Name Of field Brief description
00h DWord Name RVA or Res ID Поле содержит либо идентификатор ресурса, либо указатель на его имя в таблице имен ресурсов
04h DWord Data Entry RVA or SubDirectory RVA Указывает либо на данные, либо на еще одну таблицу входов ресурсов, 31-бит сброшенный в 0 указывает на то, что это ссылка на данные и наоборот
Total Structure size 08h Размер ресурсного входа

Строки каталога ресурсов имеют следующий формат:
Resource Directory String Entry
File Name:File Type: LengthWord Unicode Stringunpredictable длинна строки должна быть кратна 2 (это очевидно) Все такие строковые объекты часто хранят вместе

Строки каталога ресурсов размещают после последнего Resource Directory Entry но до первого Resource Data Item, это позволяет более компактно разместить информацию. Каждый пункт данных имеет следующий формат:
Resource Entry Item
Base Size or Type Name Of field Brief description
00h DWord Data RVA Указатель на реально расположенные данные относительно Image Base
04h DWord Size Размер ресурсных данных
08h DWord CodePage Кодовая страница
0Ch DWord Reserved Не используется и устанавливается в 0
Total Structure size 10h Размер указателя данные ресурса

Каждый вход в таблице ресурсов описывает узел в дереве ресурсов. Он содержит адрес относительно Image Base, поле Size указывает на число байов данных находящихся по этому адресу, а кодовая страница используется для расшифровки ключевых значений внутри ресурсных данных. Обычно новые приложения содержат значение соответствующее Unicode кодовой таблице. (хотя, хм. Обычно?)

[8.2] Пример структуры размещения ресурсов

Приведем пример приложения которое хочет использовать следующие данные в качестве ресурсов:

Тип Имя Язык Данные ресурса
00000001 00000001 0 00010001
00000001 00000001 1 10010001
00000001 00000002 0 00010002
00000001 00000003 0 00010003
00000002 00000001 0 00010001
00000002 00000002 0 00020002
00000002 00000003 0 00020003
00000002 00000004 0 00020004
00000009 00000001 0 00090001
00000009 00000009 0 00090009
00000009 00000009 1 10090009
00000009 00000009 2 20090009

Тогда ресурсный каталог в PE файле будет выглядеть следующим образом:

Смещение Данные
0000: 00000000 00000000 00000000 00030000 (3 входа в этом каталоге)
0010: 00000001 80000028 (Тип #1, Подкаталог по смещению 0x28)
0018: 00000002 80000050 (Тип #2, Подкаталог по смещению 0x50)
0020: 00000009 80000080 (Тип #9, Подкаталог по смещению 0x80)
0028: 00000000 00000000 00000000 00030000 (3 входа в этом каталоге)
0038: 00000001 800000A0 (Имя #1, Подкаталог по смещению 0xA0)
0040: 00000002 00000108 (Имя #2, дескриптор данных по смещению 0x108)
0048: 00000003 00000118 (Имя #3, дескриптор данных по смещению 0x118)
0050: 00000000 00000000 00000000 00040000 (4 входа в этом каталоге)
0060: 00000001 00000128 (Имя #1, дескриптор данных по смещению 0x128)
0068: 00000002 00000138 (Имя #2, дескриптор данных по смещению 0x138)
0070: 00000003 00000148 (Имя #3, дескриптор данных по смещению 0x148)
0078: 00000004 00000158 (Имя #4, дескриптор данных по смещению 0x158)
0080: 00000000 00000000 00000000 00020000 (2 входа в этом каталоге)
0090: 00000001 00000168 (Имя #1, дескриптор данных по смещению 0x168)
0098: 00000009 800000C0 (Имя #9, Подкаталог по смещению 0xC0)
00A0: 00000000 00000000 00000000 00020000 (2 входа в этом каталоге)
00B0: 00000000 000000E8 (Язык 0, дескриптор данных по смещению 0xE8)
00B8: 00000001 000000F8 (Язык 1, дескриптор данных по смещению 0xF8)
00C0: 00000000 00000000 00000000 00030000 (3 входа в этом каталоге)
00D0: 00000001 00000178 (Язык 0, дескриптор данных по смещению 0x178)
00D8: 00000001 00000188 (Язык 1, дескриптор данных по смещению 0x188)
00E0: 00000001 00000198 (Язык 2, дескриптор данных по смещению 0x198)
00E8: 000001A8 (По смещению 0x1A8, для Тип #1, Имя #1, Язык #0)
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
00F8: 000001AC (По смещению 0x1AC, для Тип #1, Имя #1, Язык #1)
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0108: 000001B0 (По смещению 0x1B0, для Тип #1, Имя #2,
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0118: 000001B4 (По смещению 0x1B4, для Тип #1, Имя #3,
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0128: 000001B8 (По смещению 0x1B8, для Тип #2, Имя #1,
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0138: 000001BC (По смещению 0x1BC, для Тип #2, Имя #2,
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано) 0
0148: 000001C0 (По смещению 0x1C0, для Тип #2, Имя #3,
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0158: 000001C4 (По смещению 0x1C4, для Тип #2, Имя #4,
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0168: 000001C8 (По смещению 0x1C8, для Тип #9, Имя #1,
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0178: 000001CC (По смещению 0x1CC, для Тип #9, Имя #9, Язык #0
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0188: 000001D0 (По смещению 0x1D0, для Тип #9, Имя #9, Язык #1
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)
0198: 000001D4 (По смещению 0x1D4, для Тип #9, Имя #9, Язык #2
00000004 (4 байта данных)
00000000 (кодовая страница)
00000000 (зарезервировано)

Ну а данные для ресурсов будут таковыми:
01A8: 00010001
01AC: 10010001
01B0: 00010002
01B4: 00010003
01B8: 00020001
01BC: 00020002
01C0: 00020003
01C4: 00020004
01C8: 00090001
01CC: 00090009
01D0: 10090009
01D4: 20090009


[9] Таблица настроек адресов (FixUp Table)

Таблица настроек адресов содержит элементы для всех фиксированных адресов в образе программы. Поле в заголовке PE файла с названием FixUp's Data Size содержит общий размер в байтах данной таблицы. Сама таблица настроет адресов разбита на блоки настроек (каждый блок представляет настройки для 4-х килобайтовой страницы).
Связанные линкером адреса не нуждаются в дополнительной настройке загрузчиком до тех пор, пока загрузчик в состоянии загрузить программу по адресу, указанному в ее заголовке. При невыполнении этого условия загрузчику прийдется корректировать адреса в программе. С учетом FLAT модели памяти и виртуализации адресного пространства для каждого процесса загрузчику никогда не прийдется изменять эти адреса, исключением могут являться библиотеки, которые многое компиляторы привязывают к одному фиксированному адресу (Borland например), либо случайные конфликты в адресах библиотек.

[9.1] Блок настроек перемещений (FixUp Block)

Блок настроек имеет следующий довольно простой формат:
FixUp Block
Base Size or Type Name Of field Brief description
00h DWord Page RVA Указатель на страницу применения настроек перемещений
04h DWord Block Size Размер блока настроек (с заголовком)
08h Word TypeOffset Record Массив записей настроек, их переменное количество
Total Structure size ... таблица имеет переменный размер

Для наложения настройки необходимо вычислить Дельта-значение. 32-битное Дельта есть разница между желаемой базой загрузки и действительной. Если образ программы загружен в требуемое место, то Дельта равна нулю и никакой настройки произойти не может. Каждый блок настроек должен начинаться на DWord границе (не проверял), для выравнивания блока можно пользоваться нулями.
При настройке необходимую позицию в блоке вычисляют как сумму Page RVA и Image Base загруженной программы. TypeOffset определен следующим образом:
TypeOffset Entry
15 . . . 12Type 11 . . . 0Offset Биты слова, Type указывает на тип настройки, а Offset на ее смещение внутри 4-килобайтового блока применимости настроек.

Поле Type имеет следующие значения:
0h - адрес абсолютный и никаких изменений производить не требуется.
1h - добавить старшие 16 битов Дельты к 16 битовому полю находящемуся по смещению Offset. 16 битовое поле представляет старшие биты 32-битового слова.
2h - добавить младшие 16 битов Дельты по смещению Offset. 16-битовое поле представляет младшую половину 32-битового слова. Данная запись настройки присутствует только на RISC машине когда Object align не является по умолчанию 64К.
3h - прибавляет 32-битовое Дельта к 32-битовому значению.
4h - настройка требует полного 32-битового значения. Старшие 16-бит берутся по адресу Offset, а младшие в следующем элементе TypeOffset Все это объединяется в знаковую переменную, затем добавляется 32-битовое дельта и DWord 8000h. Старшие 16 бит получившегося значения сохраняются по адресу Offset в 16-битовом поле.
5h - ? что-то связанное с MIPS.

В реальной жизни я сталкивался только с типами 0 и 3, все остальные на интелах очевидно не столь юзабельны, интересное поле для экспериментов. Все прочие типы перемещений зарезервированы Microsoft.

[10] Отладочная информация (Debug Information)

Отладочная информация размещается для использования отладчиком и создается в пределах формата линкером. Единственная определенная структура - Таблица отладочной информации (Debug Directory Table). PE файлы также поддерживают COFF информацию для отладчика (соответствующие ссылки есть в заголовке). Здесь будет дано очень сокращенное общее описание отладочной информации в PE файлах.

[10.1] Отладочный каталог (Debug Directory)

В каталоге отладки хранятся ссылки на прочую отладочную информацию, формат его следующий:
Debug Directory Entry
Base Size or Type Name Of field Brief description
00h DWord Debug Flags Не используются и установлены в нулевое значение
04h DWord Time/Date Stamp Дата и время создания отладочной информации
08h Word Major Version Старший номер версии отладочной информации
0Ah Word Minor Version Младший номер версии --//--
0Ch DWord Debug Type Тип информации для отладчика
10h DWord Data Size Размер в байтах данных для отладки без размера заголовка
14h DWord Data RVA Адрес расположения отладочных данных в ОЗУ
18h DWord Data Seek Смещение к отладочным данным в файле
Total Structure size 1Ch Размер элемента каталога отладки

Тип отладочной информации: 0000h - UNKNOWN/BORLAND (всегда они в стороне держатся, Inprise однако) 0001h - COFF таблица символов. 0002h - CodeView Таблица символов. 0003h - FPO таблица символов. 0004h - MISC               0005h - EXCEPTION    > Эти три флага мною не проверялись! 0006h - FIXUP             / Если в программе содержится более одного типа отладочной информации, то следующая запись в каталоге отладки будет следовать сразу за первой и иметь не нулевое значение.

[11] Вопросы не рассмотренные в данном описании

Несмотря на значительное упрощение формата файла PE по сравнению со старыми NE файлами, он все еще обширен для того, чтобы влезть в это маленькое руководство. Со временем описание будет расширяться и корректироваться. В данный момент времени за бортом остались следующие вопросы: детальное рассмотрение отладочной информации некоторые нюансы в описании полей заголовков более полное рассмотрение реакции системы на загрузку файлов что-то еще...

[12] P.S.

Для дальнейшего пополнения и уточнения описания, а так же устранения неоднозначностей был бы признателен за любые конструктивные комментарии и дополнения. Прежде чем писать ругательства, рекомендую посмотреть на рис.1 Меня можно найти следующим образом:

H a r d W i s d o m Seek And Destroy!


  • Главная
  • Новости
  • Новинки
  • Скрипты
  • Форум
  • Ссылки
  • О сайте

    • Https://udarnik.com.ru

      https://udarnik.com.ru полотенцесушители купить по выгодным ценам.

      udarnik.com.ru




    Emanual.ru – это сайт, посвящённый всем значимым событиям в IT-индустрии: новейшие разработки, уникальные методы и горячие новости! Тонны информации, полезной как для обычных пользователей, так и для самых продвинутых программистов! Интересные обсуждения на актуальные темы и огромная аудитория, которая может быть интересна широкому кругу рекламодателей. У нас вы узнаете всё о компьютерах, базах данных, операционных системах, сетях, инфраструктурах, связях и программированию на популярных языках!
     Copyright © 2001-2024
    Реклама на сайте