Indexer : Installation et Configuration

Publié le : 6 octobre 2014 – Dernière modification le 21 décembre 2021 – par cam.lafit, Fil, Matthieu Marcillaud, RastaPopoulos – 60

11 votes

Sommaire

Introduction
Compatibilité
Description technique
Installation de Sphinx
Création de la configuration Debian et dérivés
Tester que Sphinx est bien lancé
Préparer SPIP et indexer ses articles
Interdire les écritures

Introduction

Pour comprendre l’intérêt du plugin, nous invitons à lire l’article suivant Indexer : Introduction. Le fonctionnement de la boucle SPHINX est expliqué dans cet article :
Indexer : La boucle SPHINX. La suite de l’article aborde uniquement l’installation et la configuration du plugin Indexer et du moteur Sphinx .

Rappel pour les lecteurs inattentifs, il faut installer Sphinx en plus du plugin.

Compatibilité

Le plugin Indexer (compatible SPIP 2.1 et SPIP 3.x) exploite le mode RT (real-time), l’API mysql, et les fonctionnalités JSON de Sphinx. Pour cette raison il ne fonctionne qu’à partir de la version 2.2 de Sphinx.

Note : l’ancien plugin SPIP Sphinx (doc) exploite le mode standard de Sphinx, et son API native.

Description technique

Le mode RT de Sphinx permet à tout moment d’enrichir ou d’actualiser les contenus de Sphinx, par l’intermédiaire de requêtes proches de l’écriture SQL, et donc assez familières. Ainsi, le plugin Indexer actualise l’index de Sphinx après chaque modification d’un contenu dans SPIP. La page exec=indexer permet d’indexer ou de réindexer tous les contenus du site.

Le plugin intègre quelques documentations :
http://zone.spip.org/trac/spip-zone/browser/_plugins_/indexer/trunk/doc

Notamment, par défaut, il utilise un index nommé ’spip’. Cet index Sphinx ressemble beaucoup à une table SQL. Chaque entrée dans l’index est appelé un document. Ici, un document possède certains champs assez communs, qui sont détaillés dans la documention de l’indexation.

Installation de Sphinx

Sphinxsearch fournit un ensemble de paquets selon les environnements serveurs (Windows, Linux, Debian, ....) depuis la page :
http://sphinxsearch.com/downloads/release/

Le point important est de prendre un version supérireure à 2.2

L’installation est à effectuer selon votre environnement (exe, yum, apt-get/aptitude, ....)

Vous pouvez contrôler le bon fonctionnement de Sphinx via la commande suivante (à exécuter en root ou assimilé)

searchd

Création de la configuration Debian et dérivés

Il faut créer le fichier de configuration de sphinx dans /etc/sphinx/sphinx.conf.
Un fichier d’exemple est fourni avec le paquet debian/ubuntu.

Nous pouvons utiliser du PHP pour gérer la configuration dans des fichiers séparés dans /etc/sphinx/conf.d-enabled/ ou /etc/sphinxsearch/conf.d-enabled/ . On en profite pour créer le répertoire manquant sous Ubuntu/Debian :

Fichier /etc/sphinx/sphinx.conf ou /etc/sphinxsearch/sphinx.conf

#!/usr/bin/env php
<?php
# Correction bug paquet debian / ubuntu
if (!is_dir('/var/run/sphinx')) {
	mkdir('/var/run/sphinx');
}
# Recherche et inclusions des configurations
foreach (glob(__DIR__ . '/conf.d-enabled/*.conf') as $conf) {
    include $conf;
}

Créer le répertoire /etc/sphinx/conf.d-enabled ou /etc/sphinxsearch/conf.d-enabled (et éventuellement conf.d-available)

Dans conf.d-enabled, mettre :

le fichier 1_charsets.conf
- Remarque : C’est un script il doit donc avoir les droits d’exécution.

le fichier searchd.conf :
On précise les IP d’écoute, pour restreindre au serveur local pensez à mettre 127.0.0.1 et non l’ip publique de votre serveur.

On peut noter que searchd fournit par défaut des connecteurs sur divers ports :

API interface « native » 9312
listen = 127.0.0.1:9312
API interface « SphinxQL » 9306
listen = 127.0.0.1:9306:mysql41

Le plugin Indexer n’utilise que l’inteface SphinxQL, il est donc tout à fait possible de désactiver l’interface 9312.

Si le répertoire de référence est sphinxsearch et non sphinx, pensez à corriger la config suivante en actualisant les chemins.

searchd
{
	# [hostname:]port[:protocol], or /unix/socket/path to listen on
	# known protocols are 'sphinx' (SphinxAPI) and 'mysql41' (SphinxQL)

#	listen		= 9306:mysql41
	listen		= 127.0.0.1:9306:mysql41

	pid_file		= /var/run/sphinx/searchd.pid

	log			= /var/log/sphinx/searchd.log
	query_log		= /var/log/sphinx/query.log
        binlog_path	= /var/lib/sphinx/
}

le fichier spip.conf :

index spip{
        type = rt
        path = /var/lib/sphinxsearch/data/spip

        rt_field              = title
        rt_attr_string        = title

        rt_field              = summary
        rt_attr_string        = summary

        rt_field              = content
        rt_attr_string        = content

        rt_attr_timestamp     = date
        rt_attr_timestamp     = date_indexation
        rt_attr_string        = uri

        rt_attr_json          = properties
        rt_attr_string        = signature

        <?php
        echo _CHARSET_INDEXATION_FR ;
        ?>
}

Relancer le démon searchd une fois ceci effectué :

sudo searchd --stop
sudo searchd

# ou
sudo service sphinxsearch restart

Tester que Sphinx est bien lancé

Se connecter à Sphinx via le client mysql ou mariadb :

mysql -h0 -P9306

Quelques commandes :

show tables; : liste l’ensemble des indexes
describe spip; : décrit les champs d’un index

> show tables;
+-------+------+
| Index | Type |
+-------+------+
| spip  | rt   |
+-------+------+
1 row in set (0.00 sec)

> describe spip;
+------------+-----------+
| Field      | Type      |
+------------+-----------+
| id         | bigint    |
| title      | field     |
| summary    | field     |
| content    | field     |
| date       | timestamp |
| title      | string    |
| summary    | string    |
| content    | string    |
| uri        | string    |
| signature  | string    |
| properties | json      |
+------------+-----------+
11 rows in set (0.00 sec)

Préparer SPIP et indexer ses articles

Si sphinx est actif (on peut se connecter à lui via mysql), on peut alors, si il est installé sur le même serveur que le site SPIP, directement l’interconnecter avec SPIP.

La configuration de base se fait dans config/mes_options.php :

define('SPHINX_DEFAULT_INDEX', 'spip');
define('SPHINX_SERVER_HOST', '127.0.0.1');
define('SPHINX_SERVER_PORT', 9306);

Pour ce faire, télécharger et activer le plugin Indexer.
Une fois actif, aller sur la page ecrire/?exec=indexer.
L’interface est encore très sobre, mais on peut démarrer l’indexation de tous les articles du site en cliquant « démarrer ». Cela peut prendre un peu de temps en fonction de la machine et du nombre d’articles.

Une fois indexé, une page (joliment affichée si « spipr-dist » est actif) peut être visitée pour tester un peu : ?page=sphinx. Cette page affiche un champ de recherche, ainsi que des facettes sur les auteurs, les mots clés ou la date.

Interdire les écritures

Si vous utilisez ce plugin sur un site de préproduction, la configuration suivante permet d’interdire les écritures dans la base sphinx :

define('_INDEXER_READONLY', true);

Discussion

5 ans 1 an 3 mois Sans limite

par date

21 discussions

1

denis

Juin 2020

Salut !

Est-ce que ce serait possible que les balises soient encodées séparément ?

Sur notre site par exemple, tous nos mots-clefs sont avec des balises comme par exemple

<multi>[fr]surveillance[nl]toezicht[en]monitoring</multi>

Le plugin l’indexe comme tel

<multi>[fr]surveillance[nl]toezicht[en]monitoring</multi>

et permet d’ailleurs de filtrer sur &tag=[fr]surveillance[nl]toezicht[en]monitoring<%2Fmulti>

alors que ce serait évidemment intéressant qu’il indexe surveillance, toezich, monitoring
- RastaPopoulos
  
  Juin 2020
  
  Oui on en parlait l’autre fois, est-ce que tu peux faire un ticket plutôt ?
  https://git.spip.net/spip-contrib-extensions/indexer/issues
Répondre à ce message
4

Ben

Novembre 2016

Bonjour,

J’ai du mal à installer Sphinx car l’étape d’installation n’est toujours pas claire à mon niveau. Quelqu’un pour expliquer à un débutant ?
- naema
  
  Avril 2019
  
  Bonjour, je relance cette question qui me concerne également. Je bloque après l’installation des répertoires et des fichiers, au moment où il est question de faire :
  sudo searchd —stop
  Etant sous Windows, ces commandes ne sont pas reconnues dans l’invité de commande. Et si je les tape dans MySQL, idem. L’installation du plugin s’est toutefois déroulée, j’ai bien enregistré Sphinx dans la libraire /lib du site et effectué tout le reste des manips décrites. Mais la page de configuration du plugin indique bien que Sphinx est vide de tout contenu (Connexion à l’index spip via 127.0.0.1:9306
  Statut : échec ; Base Sphinx vide.) Dans le test de Indexer : Analyse de Spip\Indexer\Sources\HierarchieRubriques :Temps pour indexer 1 hierarchie_rubriques (ids 1 à 1001)
  Documents : 8.205 ms ). Il doit y avoir une étape minime à faire, c’est dommage d’être bloqué. Merci d’avance.
- RastaPopoulos
  
  Avril 2019
  
  Comme indiqué en titre de chapitre, la description de la config est pour Debian. Je ne sais absolument pas comme ça fonctionne pour windows (ni même si c’est toujours pris en charge), et je crois qu’aucun de mes camarades qui a participé au plugin ne travaille sous windows non plus.
- naema
  
  Avril 2019
  
  Ah d’accord ! Merci pour l’info, j’avais bien lu Debian, mais étant donné que c’est aussi la distribution de mon site, je croyais que cela s’appliquait au site et non au système d’exploitation utilisateur. Dommage cependant.
- naema
  
  Avril 2019
  
  ah, ceci devrait aider : http://www.sphinx-doc.org/en/master/usage/installation.html
Répondre à ce message
naema

Avril 2019

Ne pas tenir compte du précédent message, j’avais bien installé (dans les téléchargements, hors console de commande et avant d’installer Python) la version 3.1.1 de Sphinx. Je m’y perds (effet Windows, sans doute !)

Répondre à ce message
1

naema

Avril 2019

Mes excuses, encore une question : je ne comprends pas l’indication de prendre une version SPHINX supérieure ou égale à 2.2, car d’après cette page : https://www.sphinx-doc.org/en/master/changes.html la dernière version stable est la 2.0 (de mars 2019, que je viens d’installer sous Windows — oui ça fonctionne ! — en suivant les étapes et en installant au préalable Python) et les versions ultérieures en dev. sont 2.0.1, 2.1.0 et 3.0.0. Ou bien est-ce que je me trompe de programme ?
- RastaPopoulos
  
  Avril 2019
  
  Oui c’est un autre logiciel. Le lien vers le bon site est collé juste avant la phrase dont tu parles qui dit > à 2.2.
Répondre à ce message
2

Pierre KUHN

Février 2019

Bonjour,

Sur un réseau de site regrouper avec indexer, je me heurte à un problème avec les groupe de mots clef.
Si je ne fais pas de recherche j’ai que les groupes du site où je me trouve, mais si je lance une recherche, j’ai tout les groupes et mots clef concerné par la recherche, du coup plus de groupe que par défaut.

Comment palier à cela ?
- RastaPopoulos
  
  Février 2019
  
  J’ai rien compris :D
- Pierre KUHN
  
  Février 2019
  
  En fait cela se porte sur les facets, je ne les ai pas toutes manifestement.
Répondre à ce message
1

Maïeul

Octobre 2018

Avec les derniers verions de sphinx, les dossiers sont sphinxsearch et pas sphinx
- cam.lafit
  
  Octobre 2018
  
  documentation ajustée. Merci
Répondre à ce message
1

Maïeul

Octobre 2018

Le fichier
0_charsets.conf n’est plus bon au niveau du lien
- cam.lafit
  
  Octobre 2018
  
  Corrigé merci
Répondre à ce message
4
ixeft

Avril 2018
Bonjour,

Sauf mécompréhension ou erreur de ma part, je pense avoir trouvé deux bugs dans le squelettes liste_sphinx_facette.html (v2.14.4)

1. Tag avec apostrophe simple
Quand une facette tag avec appostrophe simple est choisi pour filtrer les articles, les listes de facettes reviennent vide.
en effet, l’apostrophe simple est transformé en entité html et le fitre échoue ici :
{filter (#ENV{tag}, 'IN(properties.tags, @valeurs)', 'LENGTH(properties.tags) = 0'}
je pense qu’en remplaçant
#ENV{tag} par (#ENV*{tag}|safehtml)
cela solutionne le problème, mais je ne suis pas sûr des implications en terme de sécurité.

2. Tag entièrement numérique
Même problème de facette ne s’affichant pas lorsque un tag est uniquement un nombre.
Il me semble que le problème viens du fait que le nombre n’est pas mis entre quote dans la requète SQL.

Bonne journée !
- ixeft
  
  Avril 2018
  
  NB : l’autre alternative que de remplacer #ENV{tag} par (#ENV*{tag}|safehtml) pourrait être d’insérer les tag échappé grace à entité_html dans la base de donnée sphinx, mais ça casserais probablement la compatibilité avec les indexations actuelles :/
- Fil
  
  Avril 2018
  
  Oui mais ce n’est pas qu’un problème de compatibilité. Il est plus logique de sécuriser la communication avec les bons échappements que de bidouiller les données.
  
  Es-tu sûr qu’on a besoin de |safehtml ?
- ixeft
  
  Avril 2018
  
  Je t’avoue que je n’ai pas lu le code de l’ensemble du plugin, par acquis de conscience et pour éviter d’éventuelle injection SQL, j’ai mis le |safehtml mais peut-être que tout ça est déjà échappé dans le code.
- Fil
  
  Avril 2018
  
  A priori, SPIP s’occupe de la sécurité SQL.
  
  |safehtml servirait à éviter de renvoyer dans le HTML du javascript qui serait envoyé dans la variable, mais là on ne renvoie pas de HTML donc ça ne joue pas.
  
  Par ailleurs l’étoile de #ENV*{} ne désactive pas |safehtml, c’est quand on utilise deux étoiles #ENV**{} qu’on désactive vraiment tout :)
  
  Le cas qui reste est celui des nombres, sphinx demande en effet que les éléments qu’l compare soient du même type (on n’aura jamais 1=="1") donc il faut trouver un moyen de caster.
Répondre à ce message
3

Maïeul

Novembre 2016

Est-ce qu’il est envisageable que les mots clefs, à la place d’être tous mélangé dans une propriété « tags » soient dans des propriétés spécifiques correspondant au groupe de mot clefs ?
- Matthieu Marcillaud
  
  Janvier 2017
  
  Du coup tu as fait https://zone.spip.org/trac/spip-zone/browser/_plugins_/indexer-groupes-mots pour cela je crois. Une petite doc et un exemple serait bienvenu :)
- Fil
  
  Janvier 2017
  
  À mon sens il faudrait que le plugin fasse ça « de base », et pas demander d’utiliser un plugin de plugin :)
  Dans l’idéal on aurait simplement à ajouter dans la boucle un { facet groupe…}.
  
  Actuellement le plugin indexe des tas de hash de façon apparemment bien complète, mais je n’ai pas trouvé de doc (ping @rastapopoulos).
  
  Je peux travailler là-dessus si j’arrive à comprendre ce que sont censés faire ces hash.
- Maïeul
  
  Janvier 2017
  
  Oui, Matthieu, mais j’aimerais lancer le site correspondant avant de documenter.
  
  Et avant de lancer le site, j’aimerais finir ma thèse :p
Répondre à ce message
4

philooo

Octobre 2016

Est ce qu’il est possible de faire des appel a SPHINX mais seulement sur les facettes ?

L’idee ca serait d’utiliser le moteur de SPHINX pour filtrer les articles avec plusieurs mot cles spécifiques, sans tenir compte du contenu des articles.

Pour le moment il est tres difficile avec les boucles SPIP de faire des requêtes pour filtrer les articles en se basant sur plusieurs mots cle.

Si on pouvait faire ca avec le moteur SPHINX, on pourrait vraiment apporter un grosse fonctionnalité a SPIP : une boucle mot avec le critère AND, alors que pour le moment la seule chose disponible c’est le critère OR avec la syntaxe ... motIN(1,2,3...)
- Fil
  
  Octobre 2016
  
  c’est sans doute possible mais un peu disproportionné. Le plus adapté à ton besoin serait probablement d’écrire un critère spécifique, qui fasse exactement ce que tu souhaites.
- philooo
  
  Octobre 2016
  
  Le truc c’est que mon site a plusieurs centaines de milliers d’articles et plusieurs centaines de mots cle.
  
  Et avec le système de boucles je doit gérer une table qui liste les combinaisons de mot sinon les requêtes sont trop lentes. j’utilise ce système sur mon site : topspeed.in
  j’autorise la selection d’un mot par groupe pour le moment via la navigation principale :
  cars + audi + sedan + future cars + ...
  
  Ca fonctionne mais cest complique
  
  La puissance du moteur Sphinx pourrait bien m’aider au niveau de la gestion des relations de mots cle / ’facettes’ en language Sphinx. Je vois que Sphinx est tres puissant / rapide. Donc si il pouvait être utilise pour renvoyer rapidement une liste des articles en fonction des facettes, ca serait une grosse innovation pour spip.
  
  j’ai vu sur un site dont je ne me rappel plus le nom qu’ils faisaient un filtrage des résultât par facette, donc cest un peu la meme idée mais en eliminant la fonction de recherche sur le texte quoi ;) c’est limitatif mais ca serait un joli moteur a mettre sous le capot de spip ;)
- RastaPopoulos
  
  Octobre 2016
  
  Oui, moi je n’utilise pas les mots-clés parce que ça me saoule d’avoir plusieurs trucs différents pour faire la même chose (ranger), donc j’utilise Polyhiérarchie, mais sur le principe c’est ce que j’ai fait : pour les rubriques j’ai ajouté différents nouveaux critères SPIP pour faire des ET, etc.
  
  D’ailleurs pour les mots ça existe en partie déjà : le plugin {mots} qui rajoute le critère du même nom.
- RastaPopoulos
  
  Octobre 2016
  
  Ah et pour répondre à la question de départ quand même : peut-être que c’est disproportionné suivant les cas, mais par contre c’est parfaitement possible oui, il n’y a aucun problème. Dans ta boucle SPHINX tu mets bien les critères que tu veux… comme dans n’importe quelle autre boucle SPIP.
Répondre à ce message

« Précédent 1 2 3 Suivant »

Ajouter un commentaire

Avant de faire part d’un problème sur un plugin X, merci de lire ce qui suit :

Désactiver tous les plugins que vous ne voulez pas tester afin de vous assurer que le bug vient bien du plugin X. Cela vous évitera d’écrire sur le forum d’une contribution qui n’est finalement pas en cause.
Cherchez et notez les numéros de version de tout ce qui est en place au moment du test :
- version de SPIP, en bas de la partie privée
- version du plugin testé et des éventuels plugins nécessités
- version de PHP (exec=info en partie privée)
- version de MySQL / SQLite
Si votre problème concerne la partie publique de votre site, donnez une URL où le bug est visible, pour que les gens puissent voir par eux-mêmes.
En cas de page blanche, merci d’activer l’affichage des erreurs, et d’indiquer ensuite l’erreur qui apparaît.

Merci d’avance pour les personnes qui vous aideront !

Par ailleurs, n’oubliez pas que les contributeurs et contributrices ont une vie en dehors de SPIP.

Qui êtes-vous ?

Nom [Se connecter]

Courriel (non publié)

Pour afficher votre trombine avec votre message, enregistrez-la d’abord sur gravatar.com (gratuit et indolore) et n’oubliez pas d’indiquer votre adresse e-mail ici.

Ajoutez votre commentaire ici

Texte de votre message

Ce champ accepte les raccourcis SPIP {{gras}} {italique} -*liste [texte->url] <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Prévenez-moi de tous les nouveaux commentaires de cette discussion par email

Ajouter un document

Extensions autorisées : gif, jpg, png

Suivre les commentaires : |