Automatisez votre collecte de données web efficacement

Ce workflow n8n est un outil puissant pour automatiser la récupération de contenu web. En utilisant ce processus, les entreprises peuvent facilement extraire des informations structurées à partir de n'importe quelle page web. Ce workflow commence par déclencher une requête HTTP vers l'API FireCrawl, qui scrappe le contenu d'une URL spécifiée au format markdown. Ensuite, le contenu récupéré est transformé pour être utilisé dans diverses applications ou analyses. Cette automatisation élimine le besoin de tâches manuelles fastidieuses, permettant ainsi aux équipes de se concentrer sur l'analyse et l'utilisation stratégique des données collectées. Idéal pour les équipes marketing et d'analyse de données cherchant à enrichir leurs informations clients ou à surveiller la concurrence.

92,165 vues
30,321 copies
Automatisation

Documentation Complète

📋 Automatisez votre collecte de données web efficacement

💡 Description

Ce workflow n8n est un outil puissant pour automatiser la récupération de contenu web. En utilisant ce processus, les entreprises peuvent facilement extraire des informations structurées à partir de n'importe quelle page web. Ce workflow commence par déclencher une requête HTTP vers l'API FireCrawl, qui scrappe le contenu d'une URL spécifiée au format markdown. Ensuite, le contenu récupéré est transformé pour être utilisé dans diverses applications ou analyses. Cette automatisation élimine le besoin de tâches manuelles fastidieuses, permettant ainsi aux équipes de se concentrer sur l'analyse et l'utilisation stratégique des données collectées. Idéal pour les équipes marketing et d'analyse de données cherchant à enrichir leurs informations clients ou à surveiller la concurrence.

📈 Impact & ROI: En réduisant le temps nécessaire pour collecter et traiter les données web, ce workflow améliore considérablement l'efficacité opérationnelle et permet une meilleure allocation des ressources humaines vers des tâches plus stratégiques.

🚀 Fonctionnalités Clés

  • ✅ Extraction automatique de contenu web - Simplifie la collecte de données
  • ✅ Intégration facile avec API - Flexibilité accrue
  • ✅ Transformation des données - Prépare les données pour une utilisation immédiate
  • ✅ Réduction du temps manuel - Augmente l'efficacité opérationnelle

📊 Architecture Technique

4
Nodes
2
Connexions
3
Services

🔌 Services Intégrés

FireCrawl APIn8n Execute Workflow Triggern8n Set Node

🔧 Composition du Workflow

NodeTypeDescription
Execute Workflow TriggerexecuteWorkflowTriggerTraitement des données
FireCrawlhttpRequestRequête HTTP vers une API externe
Edit FieldssetTraitement des données
Sticky NotestickyNoteTraitement des données

📖 Guide d'Implémentation

  1. Import du workflow: Téléchargez le fichier JSON et importez-le dans votre instance n8n
  2. Configuration des credentials: Configurez les accès pour chaque service utilisé
  3. Personnalisation: Adaptez les paramètres selon vos besoins spécifiques
  4. Test: Exécutez le workflow en mode test pour vérifier le bon fonctionnement
  5. Activation: Activez le workflow pour une exécution automatique

🏷️ Tags

web scrapingautomatisationAPI

Structure JSON

Voir le code JSON complet
{
    "id": "7DPLpEkww5Uctcml",
    "meta": {
        "instanceId": "75d76ac1fb686d403c2294ca007b62282f34c3e15dc3528cc1dbe36a827c0c6e"
    },
    "name": "get_a_web_page",
    "tags": [
        {
            "id": "7v5QbLiQYkQ7zGTK",
            "name": "tools",
            "createdAt": "2025-01-08T16:33:21.887Z",
            "updatedAt": "2025-01-08T16:33:21.887Z"
        }
    ],
    "nodes": [
        {
            "id": "290cc9b8-e4b1-4124-ab0e-afbb02a9072b",
            "name": "Execute Workflow Trigger",
            "type": "n8n-nodes-base.executeWorkflowTrigger",
            "position": [
                -460,
                -100
            ],
            "parameters": [],
            "typeVersion": 1
        },
        {
            "id": "f256ed59-ba61-4912-9a75-4e7703547de5",
            "name": "FireCrawl",
            "type": "n8n-nodes-base.httpRequest",
            "position": [
                -220,
                -100
            ],
            "parameters": {
                "url": "https:\/\/api.firecrawl.dev\/v1\/scrape",
                "method": "POST",
                "options": [],
                "jsonBody": "={\n  \"url\": \"{{ $json.query.url }}\",\n  \"formats\": [\n    \"markdown\"\n  ]\n} ",
                "sendBody": true,
                "sendHeaders": true,
                "specifyBody": "json",
                "authentication": "genericCredentialType",
                "genericAuthType": "httpHeaderAuth",
                "headerParameters": {
                    "parameters": [
                        []
                    ]
                }
            },
            "credentials": {
                "httpHeaderAuth": {
                    "id": "RoJ6k6pWBzSVp9JK",
                    "name": "Firecrawl"
                }
            },
            "typeVersion": 4.2
        },
        {
            "id": "a28bdbe6-fa59-4bf1-b0ab-c34ebb10cf0f",
            "name": "Edit Fields",
            "type": "n8n-nodes-base.set",
            "position": [
                -20,
                -100
            ],
            "parameters": {
                "options": [],
                "assignments": {
                    "assignments": [
                        {
                            "id": "1af62ef9-7385-411a-8aba-e4087f09c3a9",
                            "name": "response",
                            "type": "string",
                            "value": "={{ $json.data.markdown }}"
                        }
                    ]
                }
            },
            "typeVersion": 3.4
        },
        {
            "id": "fcd26213-038a-453f-80e5-a3936e4c2d06",
            "name": "Sticky Note",
            "type": "n8n-nodes-base.stickyNote",
            "position": [
                -480,
                -340
            ],
            "parameters": {
                "width": 620,
                "height": 200,
                "content": "## Send URL got Crawl\nThis can be reused by Ai Agents and any Workspace to crawl a site. All that Workspace has to do is send a request:\n\n```json\n {\n    \"url\": \"Some URL to Get\"\n  }\n```"
            },
            "typeVersion": 1
        }
    ],
    "active": false,
    "pinData": {
        "Execute Workflow Trigger": [
            {
                "json": {
                    "query": {
                        "url": "https:\/\/en.wikipedia.org\/wiki\/Linux"
                    }
                }
            }
        ]
    },
    "settings": {
        "executionOrder": "v1"
    },
    "versionId": "396f46a7-3120-42f9-b3d5-2021e6e995b8",
    "connections": {
        "FireCrawl": {
            "main": [
                [
                    {
                        "node": "Edit Fields",
                        "type": "main",
                        "index": 0
                    }
                ]
            ]
        },
        "Execute Workflow Trigger": {
            "main": [
                [
                    {
                        "node": "FireCrawl",
                        "type": "main",
                        "index": 0
                    }
                ]
            ]
        }
    }
}
                                

Workflows Similaires

Automatisez le Résumé de Vos Emails avec A.I. et Messagerie

Ce workflow n8n vous permet d'automatiser la gestion de vos emails en utilisant l'intelligence artificielle pour résume...

Automatisation de gestion des réunions Zoom et communication

Ce workflow est conçu pour automatiser le processus de planification et de gestion des réunions Zoom tout en assurant ...

Automatisez vos Tweets d'images humoristiques à 17h

Ce workflow n8n est conçu pour les professionnels des réseaux sociaux cherchant à automatiser leur contenu humoristiq...