No existe un formato binario documentado para pagefile.sys. Toda
herramienta que lo analiza — page_brute, bulk_extractor, X-Ways, Magnet
Axiom, esta — recurre a la misma familia de técnicas.
1. Carving por firma, página a página
El archivo se divide en páginas de 4 KB y cada una se compara con un catálogo de firmas:
| Firma | Qué indica |
|---|---|
MZ … PE\0\0 | Una imagen ejecutable fue paginada |
regf | Bloque base de colmena de registro |
hbin | Bin de colmena — un trozo de 4 KB |
FILE / BAAD | Registro MFT NTFS |
SQLite format 3 | Cabecera de base SQLite |
<?xml | XML — fragmentos de logs, manifiestos, configs |
ElfFile / ElfChnk | Archivo / chunk EVTX |
SCCA | Archivo Prefetch |
%PDF | |
PK\x03\x04 | ZIP / DOCX / XLSX |
Un acierto es una pista fuerte — el artefacto completo vive en páginas no adyacentes.
2. Extracción de cadenas
El grueso del valor de un pagefile está en sus cadenas:
- ASCII: tiradas contiguas de bytes imprimibles (0x20–0x7E) de longitud ≥ 6.
- UTF-16LE: tiradas contiguas de pares
(imprimible, 0x00). Windows es Unicode internamente, así que la mayor parte del texto útil está aquí.
Cada cadena guarda su desplazamiento absoluto para correlacionarla con la página de origen.
3. Barridos regex sobre cadenas
Un catálogo fijo de regex recorre las cadenas: URLs, correos, IPv4,
IPv6, rutas de Windows y UNC, claves de registro, GUIDs, líneas de
comando (cmd.exe, powershell, mshta, rundll32, certutil…) e
indicios de credenciales (password=, Authorization: Bearer …,
formas JWT).
4. Repliegue estadístico
Para páginas sin firma, las estadísticas ayudan a clasificarlas: entropía > 7,5 sugiere cifrado o compresión (a menudo Xpress-Huffman bajo Windows 10+); alta proporción de nulos → hueco sin usar; alta imprimibilidad → texto que no disparó ninguna firma.
Lo que no se puede hacer
El análisis autónomo del pagefile no dice qué proceso poseía una página ni en qué dirección virtual vivía. Para eso hace falta un dump de RAM y parsear las Page Table Entries (lo que hacen Volatility y MemProcFS). El pagefile por sí solo aporta contenido, no contexto.