mirror of
https://github.com/netzbegruenung/green-spider.git
synced 2024-04-26 06:20:06 +02:00
Update README
This commit is contained in:
parent
620610b48e
commit
cc6a52bf45
71
README.md
71
README.md
|
@ -6,13 +6,13 @@ Zur Auswertung: [https://green-spider.netzbegruenung.de/](https://green-spider.n
|
||||||
|
|
||||||
## Tools
|
## Tools
|
||||||
|
|
||||||
- Spider: Sammelt Informationen über Websites von B90/GRÜNE Gliederungen
|
- **Spider:** Sammelt Informationen über Websites von B90/GRÜNE Gliederungen
|
||||||
|
- **Screenshotter:** Erstellt Seiten-Screenshots. Siehe [netzbegruenung/green-spider-screenshotter](https://github.com/netzbegruenung/green-spider-screenshotter/)
|
||||||
- Screenshotter: Erstellt Seiten-Screenshots. Siehe [netzbegruenung/green-spider-screenshotter](https://github.com/netzbegruenung/green-spider-screenshotter/)
|
- **Webapp:** Darstellung der Spider-Ergebnisse. Siehe [netzbegruenung/green-spider-webapp](https://github.com/netzbegruenung/green-spider-webapp/). Dazu gehören
|
||||||
|
- **API**: [netzbegruenung/green-spider-api](https://github.com/netzbegruenung/green-spider-api)
|
||||||
- Webapp: Darstellung der Spider-Ergebnisse. Siehe [netzbegruenung/green-spider-webapp](https://github.com/netzbegruenung/green-spider-webapp/)
|
- **Elasticsearch**
|
||||||
|
- **Indexer:** Lädt Ergebnisdaten in Elasticsearch. Siehe [netzbegruenung/green-spider-indexer](https://github.com/netzbegruenung/green-spider-indexer)
|
||||||
- Indexer: Lädt Ergebnisdaten in Elasticsearch. Siehe [netzbegruenung/green-spider-indexer](https://github.com/netzbegruenung/green-spider-indexer)
|
- **Auswertung**: R Projekt zur Auswertung der Ergebnisse. Siehe [netzbegruenung/green-spider-analysis](https://github.com/netzbegruenung/green-spider-analysis)
|
||||||
|
|
||||||
## Aktivitäten
|
## Aktivitäten
|
||||||
|
|
||||||
|
@ -24,40 +24,37 @@ Green Spider ist ein Projekt des [netzbegrünung](https://blog.netzbegruenung.de
|
||||||
|
|
||||||
Zur Kommunikation dient der Chatbegrünung-Kanal [#green-spider](https://chatbegruenung.de/channel/green-spider) sowie die [Issues](https://github.com/netzbegruenung/green-spider/issues) hier in diesem Repository.
|
Zur Kommunikation dient der Chatbegrünung-Kanal [#green-spider](https://chatbegruenung.de/channel/green-spider) sowie die [Issues](https://github.com/netzbegruenung/green-spider/issues) hier in diesem Repository.
|
||||||
|
|
||||||
## Anleitung
|
## Betrieb
|
||||||
|
|
||||||
|
Alle Informationen zum Betrieb befinden sich im Verzeichnis [devops](https://github.com/netzbegruenung/green-spider/tree/master/devops).
|
||||||
|
|
||||||
|
## Entwicklung
|
||||||
|
|
||||||
|
Green Spider ist in Python 3 geschrieben und wird aktuell unter 3.6 getestet und ausgeführt.
|
||||||
|
|
||||||
|
Aufgrund zahlreicher Dependencies empfiehlt es sich, den Spider Code lokal in Docker
|
||||||
|
auszuführen.
|
||||||
|
|
||||||
|
Das Image wird über den folgenden Befehl erzeugt:
|
||||||
|
|
||||||
|
```nohighlight
|
||||||
|
make
|
||||||
|
```
|
||||||
|
|
||||||
|
Das dauert beim ersten Ausführen einige Zeit, wiel einige Python-Module das Kompilieren diverser Libraries erfordern.
|
||||||
|
Nach dem ersten erfolgreichen Durchlauf dauert ein neuer Aufruf von `make` nur noch wenige Sekunden.
|
||||||
|
|
||||||
|
### Tests ausführen
|
||||||
|
|
||||||
|
In aller Kürze: `make test`
|
||||||
|
|
||||||
### Spider ausführen
|
### Spider ausführen
|
||||||
|
|
||||||
Zum Ausführen des Spider auf einem Server siehe Verzeichnis [devops](https://github.com/netzbegruenung/green-spider/tree/master/devops).
|
Der Spider kann einzelne URLs verarbeiten, ohne die Ergebnisse in eine Datenbank zu schreiben.
|
||||||
|
Am einfachsten geht das über den `make spider` Befehl, so:
|
||||||
Voraussetzungen zum lokalen Ausführen:
|
|
||||||
|
|
||||||
- Docker
|
|
||||||
- Schlüssel mit Schreibrecht für die Ergebnis-Datenbank
|
|
||||||
|
|
||||||
Um alle Sites aus aus [netzbegruenung/green-directory](https://github.com/netzbegruenung/green-directory) zu spidern:
|
|
||||||
|
|
||||||
```nohighlight
|
```nohighlight
|
||||||
make spiderjobs
|
make spider ARGS="--url http://www.example.com/"
|
||||||
make spider
|
|
||||||
```
|
```
|
||||||
|
|
||||||
Alternativ kann wie im nachfolgenden Beispiel gezeogt das Spidern einer einzelnen URL angestoßen werden. Diese muss nicht zwingend Teil des `green-directory` sein.
|
Ohne `ARGS` aufgerufen, arbeitet der Spider eine Jobliste ab. Dies erfordert Zugriff auf die entsprechende Datenank.
|
||||||
|
|
||||||
```nohighlight
|
|
||||||
docker run --rm -ti \
|
|
||||||
-v $PWD/secrets:/secrets
|
|
||||||
quay.io/netzbegruenung/green-spider:latest \
|
|
||||||
--credentials-path /secrets/datastore-writer.json \
|
|
||||||
jobs --url https://www.trittin.de/
|
|
||||||
|
|
||||||
make spider
|
|
||||||
```
|
|
||||||
|
|
||||||
### Screenshots erstellen
|
|
||||||
|
|
||||||
Siehe Verzeichnis [devops](https://github.com/netzbegruenung/green-spider/tree/master/devops).
|
|
||||||
|
|
||||||
### Webapp deployen
|
|
||||||
|
|
||||||
Siehe Verzeichnis [devops](https://github.com/netzbegruenung/green-spider/tree/master/devops).
|
|
||||||
|
|
Loading…
Reference in a new issue