Automatisez votre collecte de données web efficacement

Ce workflow n8n est un outil puissant pour automatiser la récupération de contenu web. En utilisant ce processus, les entreprises peuvent facilement extraire des informations structurées à partir de n'importe quelle page web. Ce workflow commence par déclencher une requête HTTP vers l'API FireCrawl, qui scrappe le contenu d'une URL spécifiée au format markdown. Ensuite, le contenu récupéré est transformé pour être utilisé dans diverses applications ou analyses. Cette automatisation élimine le besoin de tâches manuelles fastidieuses, permettant ainsi aux équipes de se concentrer sur l'analyse et l'utilisation stratégique des données collectées. Idéal pour les équipes marketing et d'analyse de données cherchant à enrichir leurs informations clients ou à surveiller la concurrence.

92,189 vues
30,321 copies
Automatisation

Documentation Complète

📋 Automatisez votre collecte de données web efficacement

💡 Description

Ce workflow n8n est un outil puissant pour automatiser la récupération de contenu web. En utilisant ce processus, les entreprises peuvent facilement extraire des informations structurées à partir de n'importe quelle page web. Ce workflow commence par déclencher une requête HTTP vers l'API FireCrawl, qui scrappe le contenu d'une URL spécifiée au format markdown. Ensuite, le contenu récupéré est transformé pour être utilisé dans diverses applications ou analyses. Cette automatisation élimine le besoin de tâches manuelles fastidieuses, permettant ainsi aux équipes de se concentrer sur l'analyse et l'utilisation stratégique des données collectées. Idéal pour les équipes marketing et d'analyse de données cherchant à enrichir leurs informations clients ou à surveiller la concurrence.

📈 Impact & ROI: En réduisant le temps nécessaire pour collecter et traiter les données web, ce workflow améliore considérablement l'efficacité opérationnelle et permet une meilleure allocation des ressources humaines vers des tâches plus stratégiques.

🚀 Fonctionnalités Clés

  • ✅ Extraction automatique de contenu web - Simplifie la collecte de données
  • ✅ Intégration facile avec API - Flexibilité accrue
  • ✅ Transformation des données - Prépare les données pour une utilisation immédiate
  • ✅ Réduction du temps manuel - Augmente l'efficacité opérationnelle

📊 Architecture Technique

4
Nodes
2
Connexions
3
Services

🔌 Services Intégrés

FireCrawl APIn8n Execute Workflow Triggern8n Set Node

🔧 Composition du Workflow

NodeTypeDescription
Execute Workflow TriggerexecuteWorkflowTriggerTraitement des données
FireCrawlhttpRequestRequête HTTP vers une API externe
Edit FieldssetTraitement des données
Sticky NotestickyNoteTraitement des données

📖 Guide d'Implémentation

  1. Import du workflow: Téléchargez le fichier JSON et importez-le dans votre instance n8n
  2. Configuration des credentials: Configurez les accès pour chaque service utilisé
  3. Personnalisation: Adaptez les paramètres selon vos besoins spécifiques
  4. Test: Exécutez le workflow en mode test pour vérifier le bon fonctionnement
  5. Activation: Activez le workflow pour une exécution automatique

🏷️ Tags

web scrapingautomatisationAPI

Structure JSON

Voir le code JSON complet
{
    "id": "7DPLpEkww5Uctcml",
    "meta": {
        "instanceId": "75d76ac1fb686d403c2294ca007b62282f34c3e15dc3528cc1dbe36a827c0c6e"
    },
    "name": "get_a_web_page",
    "tags": [
        {
            "id": "7v5QbLiQYkQ7zGTK",
            "name": "tools",
            "createdAt": "2025-01-08T16:33:21.887Z",
            "updatedAt": "2025-01-08T16:33:21.887Z"
        }
    ],
    "nodes": [
        {
            "id": "290cc9b8-e4b1-4124-ab0e-afbb02a9072b",
            "name": "Execute Workflow Trigger",
            "type": "n8n-nodes-base.executeWorkflowTrigger",
            "position": [
                -460,
                -100
            ],
            "parameters": [],
            "typeVersion": 1
        },
        {
            "id": "f256ed59-ba61-4912-9a75-4e7703547de5",
            "name": "FireCrawl",
            "type": "n8n-nodes-base.httpRequest",
            "position": [
                -220,
                -100
            ],
            "parameters": {
                "url": "https:\/\/api.firecrawl.dev\/v1\/scrape",
                "method": "POST",
                "options": [],
                "jsonBody": "={\n  \"url\": \"{{ $json.query.url }}\",\n  \"formats\": [\n    \"markdown\"\n  ]\n} ",
                "sendBody": true,
                "sendHeaders": true,
                "specifyBody": "json",
                "authentication": "genericCredentialType",
                "genericAuthType": "httpHeaderAuth",
                "headerParameters": {
                    "parameters": [
                        []
                    ]
                }
            },
            "credentials": {
                "httpHeaderAuth": {
                    "id": "RoJ6k6pWBzSVp9JK",
                    "name": "Firecrawl"
                }
            },
            "typeVersion": 4.2
        },
        {
            "id": "a28bdbe6-fa59-4bf1-b0ab-c34ebb10cf0f",
            "name": "Edit Fields",
            "type": "n8n-nodes-base.set",
            "position": [
                -20,
                -100
            ],
            "parameters": {
                "options": [],
                "assignments": {
                    "assignments": [
                        {
                            "id": "1af62ef9-7385-411a-8aba-e4087f09c3a9",
                            "name": "response",
                            "type": "string",
                            "value": "={{ $json.data.markdown }}"
                        }
                    ]
                }
            },
            "typeVersion": 3.4
        },
        {
            "id": "fcd26213-038a-453f-80e5-a3936e4c2d06",
            "name": "Sticky Note",
            "type": "n8n-nodes-base.stickyNote",
            "position": [
                -480,
                -340
            ],
            "parameters": {
                "width": 620,
                "height": 200,
                "content": "## Send URL got Crawl\nThis can be reused by Ai Agents and any Workspace to crawl a site. All that Workspace has to do is send a request:\n\n```json\n {\n    \"url\": \"Some URL to Get\"\n  }\n```"
            },
            "typeVersion": 1
        }
    ],
    "active": false,
    "pinData": {
        "Execute Workflow Trigger": [
            {
                "json": {
                    "query": {
                        "url": "https:\/\/en.wikipedia.org\/wiki\/Linux"
                    }
                }
            }
        ]
    },
    "settings": {
        "executionOrder": "v1"
    },
    "versionId": "396f46a7-3120-42f9-b3d5-2021e6e995b8",
    "connections": {
        "FireCrawl": {
            "main": [
                [
                    {
                        "node": "Edit Fields",
                        "type": "main",
                        "index": 0
                    }
                ]
            ]
        },
        "Execute Workflow Trigger": {
            "main": [
                [
                    {
                        "node": "FireCrawl",
                        "type": "main",
                        "index": 0
                    }
                ]
            ]
        }
    }
}
                                

Workflows Similaires

Public Form Auto Triage

Workflow automatisé avec 12 nodes incluant : stickyNote, webhook, @n8n/langchain.textSplitterCharacterTextSplitter, @n8...

Image Captioning

Workflow automatisé avec 12 nodes incluant : stickyNote, webhook, @n8n/langchain.textSplitterCharacterTextSplitter, @n8...

Daily Content Ideas

Workflow automatisé avec 12 nodes incluant : stickyNote, webhook, @n8n/langchain.textSplitterCharacterTextSplitter, @n8...