Puppeteer ist der Headless-Browser der Wahl für die Node.js-Automatisierung. Wenn Zielseiten CAPTCHAs bereitstellen, löst die API von CaptchaAI diese extern – Puppeteer extrahiert die Parameter, CaptchaAI gibt das Token zurück und Puppeteer fügt es wieder ein.
Anforderungen
| Anforderung | Einzelheiten |
|---|---|
| Node.js 16+ | Mit npm |
| Puppeteer | npm install puppeteer |
| Axios | npm install axios |
| CaptchaAI API-Schlüssel | Auscaptchaai.com |
Wie es funktioniert
- Puppeteer navigiert mit dem CAPTCHA zur Seite
- Ihr Skript extrahiert den CAPTCHA-Site-Schlüssel aus dem DOM
- CaptchaAI löst die Herausforderung serverseitig
- Ihr Skript fügt das Token ein und sendet das Formular
Schritt 1: Erstellen Sie das Solver-Modul
// solver.js
const axios = require("axios");
const API_KEY = "YOUR_API_KEY";
const POLL_INTERVAL = 5000;
const MAX_ATTEMPTS = 60;
async function solveRecaptchaV2(siteKey, pageUrl) {
// Submit task
const submitResp = await axios.get("https://ocr.captchaai.com/in.php", {
params: {
key: API_KEY,
method: "userrecaptcha",
googlekey: siteKey,
pageurl: pageUrl,
},
});
if (!submitResp.data.startsWith("OK|")) {
throw new Error(`Submit failed: ${submitResp.data}`);
}
const taskId = submitResp.data.split("|")[1];
console.log(`Task submitted: ${taskId}`);
// Poll for result
for (let i = 0; i < MAX_ATTEMPTS; i++) {
await new Promise((r) => setTimeout(r, POLL_INTERVAL));
const result = await axios.get("https://ocr.captchaai.com/res.php", {
params: { key: API_KEY, action: "get", id: taskId },
});
if (result.data === "CAPCHA_NOT_READY") continue;
if (result.data.startsWith("OK|")) {
return result.data.split("|")[1];
}
throw new Error(`Solve failed: ${result.data}`);
}
throw new Error("Solve timed out");
}
async function solveTurnstile(siteKey, pageUrl) {
const submitResp = await axios.get("https://ocr.captchaai.com/in.php", {
params: {
key: API_KEY,
method: "turnstile",
sitekey: siteKey,
pageurl: pageUrl,
},
});
if (!submitResp.data.startsWith("OK|")) {
throw new Error(`Submit failed: ${submitResp.data}`);
}
const taskId = submitResp.data.split("|")[1];
for (let i = 0; i < MAX_ATTEMPTS; i++) {
await new Promise((r) => setTimeout(r, POLL_INTERVAL));
const result = await axios.get("https://ocr.captchaai.com/res.php", {
params: { key: API_KEY, action: "get", id: taskId },
});
if (result.data === "CAPCHA_NOT_READY") continue;
if (result.data.startsWith("OK|")) return result.data.split("|")[1];
throw new Error(`Solve failed: ${result.data}`);
}
throw new Error("Solve timed out");
}
module.exports = { solveRecaptchaV2, solveTurnstile };
Schritt 2: Puppeteer-Browser konfigurieren
const puppeteer = require("puppeteer");
async function createBrowser() {
const browser = await puppeteer.launch({
headless: "new",
args: [
"--no-sandbox",
"--disable-setuid-sandbox",
"--disable-blink-features=AutomationControlled",
],
});
const page = await browser.newPage();
await page.setUserAgent(
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
);
return { browser, page };
}
Schritt 3: ReCAPTCHA auf einer Seite lösen
const { solveRecaptchaV2 } = require("./solver");
async function scrapeWithCaptcha(url) {
const { browser, page } = await createBrowser();
try {
await page.goto(url, { waitUntil: "networkidle2" });
// Extract site key
const siteKey = await page.$eval(
".g-recaptcha",
(el) => el.getAttribute("data-sitekey")
);
console.log("Site key:", siteKey);
// Mit CaptchaAI lösen
const token = await solveRecaptchaV2(siteKey, url);
console.log("Token received:", token.substring(0, 50));
// Inject token
await page.evaluate((token) => {
document.getElementById("g-recaptcha-response").innerHTML = token;
document.getElementById("g-recaptcha-response").style.display = "";
}, token);
// Submit the form
await page.click('button[type="submit"]');
await page.waitForNavigation({ waitUntil: "networkidle2" });
// Scrape the content
const content = await page.content();
console.log("Page loaded successfully");
return content;
} finally {
await browser.close();
}
}
Schritt 4: Rückrufe bearbeiten
Einige Websites verwenden JavaScript-Rückrufe anstelle der Formularübermittlung:
// Trigger the reCAPTCHA callback
await page.evaluate((token) => {
// Method 1: Direct callback
if (typeof ___grecaptcha_cfg !== "undefined") {
const clients = ___grecaptcha_cfg.clients;
Object.keys(clients).forEach((key) => {
const client = clients[key];
// Find the callback function
const findCallback = (obj) => {
for (const prop in obj) {
if (typeof obj[prop] === "function") {
obj[prop](token);
return true;
}
if (typeof obj[prop] === "object" && obj[prop] !== null) {
if (findCallback(obj[prop])) return true;
}
}
return false;
};
findCallback(client);
});
}
}, token);
Vollständiges Arbeitsbeispiel
const puppeteer = require("puppeteer");
const axios = require("axios");
const API_KEY = "YOUR_API_KEY";
async function solveCaptcha(siteKey, pageUrl) {
const submit = await axios.get("https://ocr.captchaai.com/in.php", {
params: {
key: API_KEY,
method: "userrecaptcha",
googlekey: siteKey,
pageurl: pageUrl,
},
});
const taskId = submit.data.split("|")[1];
while (true) {
await new Promise((r) => setTimeout(r, 5000));
const result = await axios.get("https://ocr.captchaai.com/res.php", {
params: { key: API_KEY, action: "get", id: taskId },
});
if (result.data === "CAPCHA_NOT_READY") continue;
if (result.data.startsWith("OK|")) return result.data.split("|")[1];
throw new Error(result.data);
}
}
(async () => {
const browser = await puppeteer.launch({
headless: "new",
args: ["--disable-blink-features=AutomationControlled"],
});
const page = await browser.newPage();
try {
await page.goto("https://example.com/login", {
waitUntil: "networkidle2",
});
// Get the site key
const siteKey = await page.$eval(".g-recaptcha", (el) =>
el.getAttribute("data-sitekey")
);
// Solve
const token = await solveCaptcha(siteKey, page.url());
// Inject and submit
await page.evaluate((t) => {
document.getElementById("g-recaptcha-response").innerHTML = t;
}, token);
await page.click("#submit-btn");
await page.waitForNavigation();
console.log("Done:", page.url());
} finally {
await browser.close();
}
})();
Fehlerbehebung
| Problem | Ursache | Lösung |
|---|---|---|
page.$eval schlägt fehl |
CAPTCHA wird nach dem ersten Rendern geladen | Verwenden Sie page.waitForSelector('.g-recaptcha') |
| Token funktioniert nicht | Vor der Einreichung abgelaufen | Sofort nach Erhalt injizieren |
| Die Website erkennt Puppeteer | Browser-Flags fehlen | --disable-blink-features=AutomationControlled hinzufügen |
Navigation timeout |
Die Seite konnte nach dem Absenden nicht navigiert werden | Überprüfen Sie, ob die Website AJAX anstelle des Formularposts verwendet |
FAQ
Sollte ich den Headless- oder den Headed-Modus verwenden?
Der Headless-Modus funktioniert mit CaptchaAI einwandfrei, da das CAPTCHA serverseitig gelöst wird. Verwenden Sie den Headed-Modus nur zum Debuggen.
Kann ich Puppeteer mit Cloudflare Turnstile verwenden?
Ja. Extrahieren Sie data-sitekey aus dem .cf-turnstile-Div und verwenden Sie method=turnstile mit CaptchaAI. Siehe die Funktion solveTurnstile oben.
Wie gehe ich mit mehreren CAPTCHAs auf einer Seite um?
Extrahieren Sie jeden Site-Schlüssel separat und lösen Sie sie parallel mit Promise.all().
Verwandte Leitfäden
- Selenium CAPTCHA-Handhabung mit Python
- Playwright CAPTCHA-Verwaltung
- CAPTCHA-Scraping mit Node.js