docs: corrigir exemplos de código verificados contra as implementações reais

dankkom · claude · dankkom · commit 88e46aefceeb · 2026-06-02T21:02:03.000-03:00
Todos os blocos Python das docs foram testados via doc-tests/ contra as
APIs reais dos pacotes. 17 categorias de erros corrigidas em 11 arquivos.

Correções por arquivo:

ibge/sidra-fetcher.md
- 11× import errado: `from sidra_fetcher import SidraClient/AsyncSidraClient`
  → `from sidra_fetcher.fetcher import ...`

concepts/proveniencia.md
- `DownloadManifest.read_json()` não existe → `json.loads(Path(...).read_text())`
- `manifest.verify()` não existe → `hashlib.sha256(...).hexdigest()`
- `manifest.downloaded_at` → `data["fetched_at"]`
- `to_parquet(manifest, ...)` → `to_parquet(df, ..., manifest=manifest)`
- `table.schema.metadata` retorna None → `pq.ParquetFile(p).metadata.metadata`

tesouro/calculo-retornos.md
- `BondType.NTNB` não existe → `BondType.IPCA_WITH_SEMESTRAL_INTEREST`

comex/comex-fetcher.md
- `comex_fetcher.get_complete()` não existe → removido; usar `download_all()`
- Helpers `remote_is_more_recent` e `get_file_metadata` não existem → removidos

bcb/bcb-sgs-sql.md
- `from bcb_sgs_sql.storage import Storage` / `Storage.default(config)` não existem
- `sgs.Fetcher(storage, ...)` → `sgs.Fetcher(config.data_dir, ...)`

concepts/arquitetura.md
- 2× `from sidra_fetcher import SidraClient` → `from sidra_fetcher.fetcher import ...`
- `convert_to_parquet(src_dir=..., dest_dir=..., dataset_type="precos")`:
  assinatura errada (parâmetros são `csv_path`/`parquet_path`) e valor
  inválido ("precos" → "prices"); bloco reescrito com downloader+reader
- `bonds.join(..., on="date")` + `pl.col("yield")`: colunas não existem no
  DataFrame do Tesouro; corrigido para C.REFERENCE_DATE / C.BUY_YIELD

concepts/padroes.md
- 2× `from sidra_fetcher import SidraClient/AsyncSidraClient`
- `.collect(streaming=True)` deprecado → `.collect(engine="streaming")`
- `fetch_rais(ftp=ftp, dest_dir=...)`: `ftp` não é parâmetro → removido

concepts/parquet-polars.md
- `read_parquet(..., filters=[...])`: parâmetro não existe no Polars (é API
  do PyArrow) → substituído por `scan_parquet().filter().collect()`
- 2× `.collect(streaming=True)` deprecado → `.collect(engine="streaming")`
- Seção Tesouro usava nomes de colunas em português (`data_base`, `titulo`,
  `taxa_compra_manha`) → nomes reais em inglês via constantes Column

concepts/principios.md
- 3× `from sidra_fetcher import SidraClient/AsyncSidraClient`
- `write_parquet("...", append=True)`: parâmetro não existe em Polars;
  o "anti-padrão" levantaria TypeError → substituído por exemplo funcional
- `fetch_rais(ftp, dest_dir=...)`: `ftp` não é parâmetro → removido

cookbook/analise-economica-multi-fonte.md
- `fetch_rais(ftp=ftp, dest_dir=...)` → `fetch_rais(dest_dir=...)`

trabalho/pdet-fetcher.md
- `fetch_rais/caged(ftp=ftp, dest_dir=...)` → sem `ftp`; funções gerenciam
  conexão internamente via FtpClient de nível de módulo
- Tabela API: `list_rais(ftp)` / `fetch_rais(ftp, dest_dir)` → sem `ftp`

Co-Authored-By: Claude Sonnet 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/docs/bcb/bcb-sgs-sql.md b/docs/bcb/bcb-sgs-sql.md
@@ -312,15 +312,13 @@ TransformRunner(config, Path("pipelines/precos/transform.toml")).run()
 
 ```python
 from bcb_sgs_sql.config import Config
-from bcb_sgs_sql.storage import Storage
 from bcb_sgs_sql import database, sgs
 
 config = Config()
 engine = database.get_engine(config)
 database.create_all(engine)
-storage = Storage.default(config)
 
-with sgs.Fetcher(storage, max_workers=4) as fetcher:
+with sgs.Fetcher(config.data_dir, max_workers=4) as fetcher:
     series_ids = [433, 13522]
 
     # 1. Metadados (catálogo + temas)
diff --git a/docs/comex/comex-fetcher.md b/docs/comex/comex-fetcher.md
@@ -128,19 +128,15 @@ comex_fetcher.get_year(data_dir, year=2023, imp=True, mun=True) # importações,
 # Dados comerciais antigos baseados em NBM (1989–1996)
 comex_fetcher.get_year_nbm(data_dir, year=1995)
 
-# Arquivos históricos completos (um arquivo por direção, todos os anos)
-comex_fetcher.get_complete(data_dir)
-comex_fetcher.get_complete(data_dir, exp=True, mun=True)
-
 # Tabela de códigos auxiliares
 comex_fetcher.get_table(data_dir, table="ncm")
 comex_fetcher.get_table(data_dir, table="pais")
 
-# Tudo
+# Tudo (tabelas auxiliares + todas as séries anuais disponíveis)
 comex_fetcher.download_all(data_dir)
 ```
 
-Helpers de baixo nível em `comex_fetcher.download`: `download_file(url, output, retry=3, blocksize=8192)`, `remote_is_more_recent(headers, dest)`, `get_file_metadata(url)`.
+Helper de baixo nível em `comex_fetcher.download`: `download_file(url, output, retry=3, blocksize=8192)`.
 
 ## Datasets
 
diff --git a/docs/concepts/arquitetura.md b/docs/concepts/arquitetura.md
@@ -131,7 +131,7 @@ Datasets brasileiros são grandes e fontes governamentais publicam revisões com
 
 ```python
 import polars as pl
-from sidra_fetcher import SidraClient
+from sidra_fetcher.fetcher import SidraClient
 from sidra_fetcher.sidra import Parametro, Formato, Precisao
 
 # EXTRACT & LOAD: armazenar linhas brutas do SIDRA
@@ -253,10 +253,13 @@ graph TD
 Combinando IBGE + Tesouro num pipeline ELT canônico:
 
 ```python
+import asyncio
+from pathlib import Path
 import polars as pl
-from sidra_fetcher import SidraClient
+from sidra_fetcher.fetcher import SidraClient
 from sidra_fetcher.sidra import Parametro, Formato, Precisao
-from tesouro_direto_fetcher.converter import convert_to_parquet
+from tesouro_direto_fetcher import downloader, reader
+from tesouro_direto_fetcher.constants import Column as C
 
 # 1. EXTRACT: cada ferramenta usa seu próprio padrão de acesso
 gdp_param = Parametro(
@@ -269,27 +272,45 @@ gdp_param = Parametro(
     decimais={"": Precisao.M},
 )
 with SidraClient(timeout=60) as client:
-    gdp = pl.DataFrame(client.get(gdp_param.url()))
-
-convert_to_parquet(src_dir="raw/tesouro", dest_dir="data/tesouro", dataset_type="precos")
-bonds = pl.read_parquet("data/tesouro/precos.parquet")
+    gdp_rows = client.get(gdp_param.url())
+
+tesouro_dir = Path("raw/tesouro")
+asyncio.run(downloader.download(
+    dest_dir=tesouro_dir,
+    dataset_id="taxas-dos-titulos-ofertados-pelo-tesouro-direto",
+))
+bonds_csv = max(tesouro_dir.glob("taxas-*.csv"), key=lambda p: p.stat().st_mtime)
+bonds = reader.read_prices(bonds_csv)
+
+# 2. TRANSFORM: Polars vetorizado, cada fonte em seu próprio frame
+gdp = (
+    pl.DataFrame(gdp_rows[1:])  # linha 0 é cabeçalho descritivo
+    .select(
+        pl.col("D3C").alias("periodo"),
+        pl.col("V").cast(pl.Float64, strict=False).alias("pib"),
+    )
+    .drop_nulls("pib")
+)
 
-# 2. TRANSFORM: Polars vetorizado
-combined = gdp.join(bonds, on="date", how="inner").with_columns([
-    pl.col("V").cast(pl.Float64, strict=False).pct_change().alias("gdp_growth"),
-    pl.col("yield").pct_change().alias("yield_change"),
-])
+bonds_monthly = (
+    bonds
+    .with_columns(pl.col(C.REFERENCE_DATE.value).dt.truncate("1mo").alias("month"))
+    .group_by("month")
+    .agg(pl.col(C.BUY_YIELD.value).mean().alias("yield_avg"))
+    .sort("month")
+)
 
 # 3. LOAD: dois destinos coexistindo (Parquet + PostgreSQL)
-combined.write_parquet("gdp_bonds_analysis.parquet")
-combined.write_database(
-    "gdp_bonds",
+gdp.write_parquet("gdp_sidra.parquet")
+bonds_monthly.write_parquet("bonds_monthly.parquet")
+bonds_monthly.write_database(
+    "bonds_monthly",
     connection="postgresql://user:pass@host/db",
     if_table_exists="replace",
 )
 
 # 4. ANALYZE
-print(combined.select(pl.corr("gdp_growth", "yield_change")))
+print(bonds_monthly.select(pl.col("yield_avg").mean()))
 ```
 
 ## Integração com ferramentas externas
diff --git a/docs/concepts/padroes.md b/docs/concepts/padroes.md
@@ -57,13 +57,9 @@ datasus-fetcher sync -o ./data sim-do-cid10 \
 
 ```python
 from pathlib import Path
-from pdet_fetcher import connect, fetch_rais
+from pdet_fetcher import fetch_rais
 
-ftp = connect()
-try:
-    fetch_rais(ftp=ftp, dest_dir=Path("./raw"))  # idempotente: pula .7z já presentes
-finally:
-    ftp.close()
+fetch_rais(dest_dir=Path("./raw"))  # idempotente: pula .7z já presentes
 ```
 
 ### Padrão: dry-run antes de bulk downloads
@@ -92,7 +88,7 @@ datasus-fetcher sync -o ./data sim-do-cid10 \
 
 ```python
 import asyncio
-from sidra_fetcher import AsyncSidraClient
+from sidra_fetcher.fetcher import AsyncSidraClient
 
 async def fetch_multiple_metadata():
     async with AsyncSidraClient(timeout=60) as client:
@@ -313,7 +309,7 @@ def with_retry(func, max_retries=3, backoff_factor=2):
     raise last_exception
 
 # Exemplo: envolver chamada SIDRA
-from sidra_fetcher import SidraClient
+from sidra_fetcher.fetcher import SidraClient
 client = SidraClient()
 result = with_retry(lambda: client.get_agregado(1620), max_retries=5)
 ```
@@ -432,7 +428,7 @@ result = (
     pl.scan_parquet("rais_2023.parquet")
     .group_by("state")
     .agg(pl.col("salary").mean())
-    .collect(streaming=True)
+    .collect(engine="streaming")
 )
 ```
 
diff --git a/docs/concepts/parquet-polars.md b/docs/concepts/parquet-polars.md
@@ -55,10 +55,11 @@ df = pl.read_parquet(
     columns=["employee_id", "salary", "sector"]
 )
 
-# Com filtro pushdown
-df = pl.read_parquet(
-    "rais_2023.parquet",
-    filters=[("state", "==", "SP")]
+# Com filtro pushdown (use scan_parquet para predicate pushdown real)
+df = (
+    pl.scan_parquet("rais_2023.parquet")
+    .filter(pl.col("state") == "SP")
+    .collect()
 )
 ```
 
@@ -92,12 +93,12 @@ result = query.collect()
 ```python
 import polars as pl
 
-# collect(streaming=True) processa em chunks — uso baixo de memória
+# collect(engine="streaming") processa em chunks — uso baixo de memória
 result = (
     pl.scan_parquet("rais_2023.parquet")
     .group_by("state")
     .agg(pl.col("salary").mean())
-    .collect(streaming=True)
+    .collect(engine="streaming")
 )
 ```
 
@@ -126,17 +127,21 @@ gdp = gdp.with_columns(
 
 ```python
 import polars as pl
+from tesouro_direto_fetcher.constants import Column as C
 
 prices = pl.read_parquet("data/tesouro/precos.parquet")
 
-# Yield médio por título nos últimos 252 dias úteis
+# Yield médio por título nos últimos 365 dias
 yield_curve = (
     prices.lazy()
-    .filter(pl.col("data_base") >= pl.col("data_base").max() - pl.duration(days=365))
-    .group_by("titulo")
+    .filter(
+        pl.col(C.REFERENCE_DATE.value)
+        >= pl.col(C.REFERENCE_DATE.value).max() - pl.duration(days=365)
+    )
+    .group_by(C.BOND_TYPE.value)
     .agg([
-        pl.col("taxa_compra_manha").mean().alias("yield_avg"),
-        pl.col("preco_compra_manha").last().alias("preco_atual"),
+        pl.col(C.BUY_YIELD.value).mean().alias("yield_avg"),
+        pl.col(C.BUY_PRICE.value).last().alias("preco_atual"),
     ])
     .sort("yield_avg")
     .collect()
@@ -376,7 +381,7 @@ df = pl.read_parquet("huge_file.parquet")
 df = pl.read_parquet("huge_file.parquet", filters=[("state", "==", "SP")])
 
 # ✅ Ou lazy + streaming
-df = pl.scan_parquet("huge_file.parquet").filter(pl.col("state") == "SP").collect(streaming=True)
+df = pl.scan_parquet("huge_file.parquet").filter(pl.col("state") == "SP").collect(engine="streaming")
 ```
 
 ### Queries lentas
diff --git a/docs/concepts/principios.md b/docs/concepts/principios.md
@@ -51,18 +51,18 @@ datasus-fetcher        inmet-fetcher              rtn-fetcher            bcb-sgs
 
 ```python
 import asyncio
-from sidra_fetcher import AsyncSidraClient
-from pdet_fetcher.fetch import connect, fetch_rais
+from sidra_fetcher.fetcher import AsyncSidraClient
+from pathlib import Path
+from pdet_fetcher.fetch import fetch_rais
 from tesouro_direto_fetcher.analytics import calculate_portfolio_monthly_returns
 
 async def multi_source_analysis(my_transactions):
     # 1. SIDRA metadata via async client
     async with AsyncSidraClient(timeout=60) as sidra:
         agregado = await sidra.get_agregado(1620)
 
-    # 2. RAIS labor data via FTP
-    ftp = connect()
-    rais = fetch_rais(ftp, dest_dir="raw/rais")
+    # 2. RAIS labor data via FTP (fetch_rais gerencia a conexão internamente)
+    rais = fetch_rais(dest_dir=Path("raw/rais"))
 
     # 3. Tesouro portfolio returns
     returns = calculate_portfolio_monthly_returns(my_transactions)
@@ -109,7 +109,7 @@ Truncamento silencioso      Validação de tamanho/checksum na fonte
 ### Exemplo: retry automático
 
 ```python
-from sidra_fetcher import SidraClient
+from sidra_fetcher.fetcher import SidraClient
 
 # tenacity faz 3 tentativas com backoff exponencial
 with SidraClient(timeout=60) as client:
@@ -269,11 +269,13 @@ out.with_suffix(".lineage.json").write_text(json.dumps(lineage, indent=2))
 # ✅ Seguro re-executar — sobrescreve previsivelmente
 df.write_parquet("output.parquet")
 
-# ❌ Perigoso — segunda execução acumula duplicatas
-df.write_parquet("output_append.parquet", append=True)
+# ❌ Perigoso — acumula duplicatas sem controle
+# (Polars não tem write_parquet com append; o padrão abaixo simula o risco)
+existing = pl.read_parquet("output.parquet")
+pl.concat([existing, df]).write_parquet("output.parquet")  # sem deduplication
 
 # ✅ Quando precisa acumular: deduplique explicitamente
-combined = pl.concat([existing, new]).unique()
+combined = pl.concat([existing, df]).unique()
 combined.write_parquet("output.parquet")
 ```
 
@@ -315,7 +317,7 @@ df = fetch_gdp()  # De onde? Atualizado quando? Cacheado?
 
 # ✅ Explícito: cada parâmetro é nomeado e visível
 import polars as pl
-from sidra_fetcher import SidraClient
+from sidra_fetcher.fetcher import SidraClient
 from sidra_fetcher.sidra import Parametro, Formato, Precisao
 
 param = Parametro(
diff --git a/docs/concepts/proveniencia.md b/docs/concepts/proveniencia.md
@@ -60,11 +60,17 @@ A maioria dos coletores Quantilica faz isso por baixo dos panos — você não p
 ## Lendo um manifesto para verificar integridade
 
 ```python
-from quantilica_core.manifests import DownloadManifest
+import hashlib
+import json
+from pathlib import Path
+
+data = json.loads(Path("dados/raw/sidra/agregado-1705.manifest.json").read_text())
 
-manifest = DownloadManifest.read_json("dados/raw/sidra/agregado-1705.manifest.json")
+digest = hashlib.sha256(
+    Path("dados/raw/sidra/agregado-1705.json").read_bytes()
+).hexdigest()
 
-if manifest.verify("dados/raw/sidra/agregado-1705.json"):
+if digest == data["sha256"]:
     print("Arquivo íntegro.")
 else:
     print("Hash mudou — re-baixe.")
@@ -77,16 +83,16 @@ O caso clássico: você publicou um relatório em janeiro de 2024 usando uma ver
 Com proveniência embarcada, isso é determinístico:
 
 ```python
-from quantilica_io.writer import to_parquet
-from quantilica_core.manifests import DownloadManifest
+import json
+from pathlib import Path
 
 # Você guardou o manifesto da análise original
-manifest = DownloadManifest.read_json("relatorio-2024/pib.csv.manifest.json")
+data = json.loads(Path("relatorio-2024/pib.csv.manifest.json").read_text())
 
 # A versão exata que alimentou a análise
-print(manifest.sha256)        # 'e3b0c4...'
-print(manifest.downloaded_at) # '2024-01-15T...'
-print(manifest.url)           # endpoint exato + parâmetros
+print(data["sha256"])        # 'e3b0c4...'
+print(data["fetched_at"])    # '2024-01-15T...'
+print(data["url"])           # endpoint exato + parâmetros
 
 # Re-baixe se quiser, ou apenas confirme que o arquivo no disco bate
 ```
@@ -98,21 +104,29 @@ Para análises críticas, **versionar o `.manifest.json` no git** ao lado do có
 O [`quantilica-io`](../fundacoes/quantilica-io.md) leva a ideia um passo adiante: ao converter para Parquet, ele injeta o manifesto no **header key-value do próprio arquivo**.
 
 ```python
+import json
+from pathlib import Path
+import polars as pl
 from quantilica_core.manifests import DownloadManifest
 from quantilica_io.writer import to_parquet
 
-manifest = DownloadManifest.read_json("dados/raw/dataset.csv.manifest.json")
-to_parquet(manifest, "dados/processed/dataset.parquet")
+data = json.loads(Path("dados/raw/dataset.csv.manifest.json").read_text())
+manifest = DownloadManifest(**{k: v for k, v in data.items()
+                               if k in DownloadManifest.__dataclass_fields__})
+
+df = pl.read_csv("dados/raw/dataset.csv")
+to_parquet(df, "dados/processed/dataset.parquet", manifest=manifest)
 ```
 
 O `dataset.parquet` resultante é auto-suficiente: meses depois, qualquer leitor compatível com PyArrow consegue extrair de onde veio aquele dado, sem depender de arquivos vizinhos.
 
 ```python
 import pyarrow.parquet as pq
 
-table = pq.read_table("dados/processed/dataset.parquet")
-print(table.schema.metadata)
-# {b'quantilica.source_id': b'ibge', b'quantilica.sha256': b'e3b0c4...', ...}
+pf = pq.ParquetFile("dados/processed/dataset.parquet")
+meta = {k.decode(): v.decode() for k, v in pf.metadata.metadata.items()}
+print(meta)
+# {'quantilica.source_id': 'ibge', 'quantilica.sha256': 'e3b0c4...', ...}
 ```
 
 ## Detecção de mudança silenciosa
diff --git a/docs/cookbook/analise-economica-multi-fonte.md b/docs/cookbook/analise-economica-multi-fonte.md
@@ -115,14 +115,10 @@ print(f"Yields: {len(yields_monthly)} meses")
 
 ```python
 from pathlib import Path
-from pdet_fetcher import connect, fetch_rais, convert_rais
+from pdet_fetcher import fetch_rais, convert_rais
 
 # Fetch + convert idempotentes; primeira execução leva tempo, demais são quase instantâneas
-ftp = connect()
-try:
-    fetch_rais(ftp=ftp, dest_dir=Path("data/rais/raw"))
-finally:
-    ftp.close()
+fetch_rais(dest_dir=Path("data/rais/raw"))
 
 convert_rais(Path("data/rais/raw"), Path("data/rais/parquet"))
 
diff --git a/docs/ibge/sidra-fetcher.md b/docs/ibge/sidra-fetcher.md
diff --git a/docs/tesouro/calculo-retornos.md b/docs/tesouro/calculo-retornos.md
diff --git a/docs/trabalho/pdet-fetcher.md b/docs/trabalho/pdet-fetcher.md