Primer he posat les eines per poder treure la info de la web:
Requests i BeautifulSoup: Són per entrar a l’URL i busca el contingut. El BeautifulSoupserveix per netejar el codi HTML i quedar–me només amb les paraules.
Flask: És el que fa que el meu codi sigui un servidor que rep i envia missatges.
GoogleGenAI: Per connectar amb la IA de Gemini.
El Crawler:
He creat una funció que es diucrawl_website que fa la feina bruta:
Entra a la web: Comença per al meu URLprincipal.
Buscaenllaços: Va saltant de pàgina en pàgina (fins a 200), però només si són de la mevaweb. He posat un filtre perquè no es baixifotos ni PDF, que això no ho pot llegirbé.
Neteja el text: Li he dit que esborri les parts que es repeteixen, com el menú de dalt (navegador) o el de sota (peu de pàgina). Així la IA no es llegeix 100 vegades el mateix menú i va al gra.
API Keys:
No oblidem posar l’API key en el colab:
El nom el posem que està en el codi si no sortiràerror.
Name:GOOGLE_API_KEY
Name:NGROK_TOKEN
Com sap què respondre?
Tot el text que ha tret el Xatbot es guarda en una variable. Després, quan inici el xat amb Gemini, li passo el SystemPrompt. És com donar-li les instruccions abans de començar.
Ngrok
Com que estic treballant des de l’ordinador de classe i no tinc un servidor, faig servirngrok. Això em dóna un enllaç que puc enganxar al WordPress perquè el xat de la web sàpiga on enviar les preguntes.
Assistent d'Ali Hassan
En línia ara mateix
Hola! 👋 Soc l'assistent virtual de l'Ali Hassan. Com et puc ajudar avui?