real time web analytics

Tenga más tiempo para relajarse con un motor de búsqueda empresarial

¿Qué pasaría si pudiera encontrar cualquier cosa instantáneamente en terabytes de archivos de “Office”, archivos de correo electrónico e incluso formatos de datos basados ​​en la web? ¿Y si pudiera realizar su búsqueda de datos desde cualquier lugar y extender esta capacidad de búsqueda a todos sus compañeros de trabajo? Piense en el tiempo que esto ahorraría. Este artículo desglosará los procesos que intervienen en la búsqueda empresarial y luego seguirá con algunos consejos más avanzados.

Búsqueda indexada para búsqueda empresarial

La clave para la búsqueda instantánea en terabytes es permitir que el motor de búsqueda primero cree un índice de búsqueda. La búsqueda empresarial puede incluir búsqueda indexada o no indexada. dtSearch®, por ejemplo, ofrece ambos. Pero mientras que la búsqueda no indexada le permite consultar datos sin la sobrecarga de un índice de búsqueda, es mucho más lenta para la búsqueda simultánea de varios usuarios en terabytes de datos.

Entonces, ¿qué entra en un índice de búsqueda?

Un índice es solo una guía interna del motor de búsqueda que almacena cada palabra y número únicos y la ubicación de cada uno en los datos. Para el usuario final, la indexación es fácil; simplemente apunte a las carpetas y similares para indexar, y el motor de búsqueda hace el resto.

Un solo índice puede contener hasta un terabyte de texto y no hay límites en la cantidad de índices que el motor de búsqueda puede crear y buscar simultáneamente.

La creación de un índice requiere muchos recursos

La búsqueda indexada es ligera en recursos. No hay límites en el número de subprocesos de búsqueda simultáneos que pueden consultar el mismo índice en un entorno de red. En línea, cada hilo de búsqueda puede operar de una manera completamente sin estado, lo que hace que sea muy fácil de escalar en un sitio ocupado.

Los conjuntos de datos pueden seguir evolucionando

Nuestro motor de búsqueda de muestra admite la actualización automática de todos los índices utilizando el Programador de tareas de Windows para adaptarse a ediciones de archivos, archivos nuevos y eliminaciones de archivos. La actualización de índices no bloquea la búsqueda, por lo que la búsqueda individual y simultánea puede continuar incluso mientras se actualizan los índices.

Diferentes formatos de datos para búsqueda empresarial

En última instancia, lo que hace que la búsqueda empresarial sea tan útil es que una sola solicitud de búsqueda puede abarcar múltiples formatos de datos diferentes y diferentes repositorios de datos. Así es como funciona.

Especificación de formato de archivo

Para ver un archivo fuera de un motor de búsqueda, generalmente abre ese archivo en su aplicación nativa, como ver un documento de Word en Microsoft Word, un correo electrónico en Outlook, etc.

Creación de un índice en el motor de búsqueda

Eso está bien para ver archivos individuales. Pero para que un motor de búsqueda construya su índice de manera eficiente a través de terabytes de datos, el motor de búsqueda necesita un enfoque diferente. Ese enfoque consiste en ver cada archivo en su formato binario, evitando por completo el enfoque de la aplicación nativa.

El problema es que cuando miras la mayoría de los archivos de “Office” y similares en formato binario, parecen una mezcla de códigos binarios. El texto principal puede variar desde difícil de leer hasta completamente inescrutable. El filtrado efectivo del texto requiere la aplicación de una especificación de formato de archivo.

Especificación de formato de archivo

La especificación de formato de archivo para los formatos de “Office” puede tener cientos de páginas y varía según los diferentes tipos de archivos. El formato de archivo de Microsoft Word es muy diferente al formato de Access, que a su vez es muy diferente al formato de archivo de Excel, PowerPoint, OneNote, PDF, correos electrónicos, HTML, XML, etc. Determinar correctamente el formato de archivo de cada binario archivo es, por lo tanto, crítico.

Una forma de tomar esa determinación es a través de la extensión de formato de archivo: una extensión .PDF indicaría un archivo PDF, una extensión .DOCX indicaría un archivo de Microsoft Word, etc.

No aplique incorrectamente una extensión de formato de archivo

Sin embargo, es demasiado fácil aplicar incorrectamente una extensión de formato de archivo, guardar un PDF con una extensión de archivo .DOCX o guardar un documento de Word con una extensión .PDF. Si bien una extensión de formato de archivo no coincidente puede ser accidental, también puede resultar del deseo de ocultar un archivo en particular del escrutinio.

La forma segura de determinar el formato de archivo es que el motor de búsqueda mire dentro de cada archivo binario.

Después de averiguar el formato de archivo del propio archivo binario, el motor de búsqueda puede aplicar la especificación de formato de archivo correcta para analizar el texto completo y los metadatos de cada elemento. Luego, la información resultante se utiliza para construir el índice.

Después de la indexación, el motor de búsqueda generalmente hará una “mini-pantalla” que muestra los términos de búsqueda en contexto.

El motor de búsqueda también puede mostrar el texto completo de los archivos recuperados con los resultados resaltados. Para hacerlo, el motor de búsqueda generalmente regresará a la versión de formato binario y la convertirá a HTML para mostrarla dentro de una ventana del navegador dentro del motor de búsqueda, agregando navegación de acceso para una navegación conveniente.

Tipos de motores de búsqueda empresariales indexados

Debido a que la búsqueda indexada se basa en un índice preconstruido, hay más de 25 opciones de búsqueda diferentes disponibles para la búsqueda instantánea. Estos incluyen casi cualquier combinación de búsqueda de palabras y frases, expresiones booleanas y/o no de búsqueda, y búsqueda de proximidad bilateral o unidireccional. La búsqueda puede cubrir el texto completo de los datos indexados o concentrarse en metadatos específicos, como la línea de asunto de un correo electrónico.

Más allá de la búsqueda orientada a palabras, una búsqueda indexada también puede abarcar consultas orientadas a números.

Una consulta orientada a números es como buscar números o rangos numéricos específicos y buscar fechas o rangos de fechas específicos, incluso si las fechas están en diferentes formatos, como 5/7/21 y 11 de junio de 2022. El motor de búsqueda también puede encontrar un carácter diferente y configuraciones numéricas, incluida la expresión regular y la coincidencia de caracteres de dígitos.

Unicode

Como estándar general para el texto de archivo, Unicode cubre cientos de idiomas internacionales, incluidos el inglés y otros idiomas europeos, idiomas asiáticos, idiomas de derecha a izquierda como el hebreo y el árabe, y muchos más. Unicode permite que cualquier combinación de idiomas coexista en un solo documento. Todo eso está en el formato binario de un archivo y, por lo tanto, está disponible para un motor de búsqueda.

Sugerencias para motores de búsqueda empresariales avanzados.

La descripción anterior representa los conceptos básicos de cómo un motor de búsqueda busca instantáneamente terabytes. Estos son consejos avanzados.

Consejo #1. La escritura en negro sobre un fondo negro, la escritura en rojo sobre un fondo rojo y similares pueden desaparecer en la vista de la aplicación nativa de un archivo. Sin embargo, debido a que un motor de búsqueda accede a archivos en formato binario, todo el texto está igualmente disponible para un motor de búsqueda.

Consejo #2. Al ver un archivo en su aplicación nativa, puede ser necesario hacer una gran cantidad de clics en la secuencia correcta para saber que ciertos metadatos están allí. Pero todos los metadatos están en igualdad de condiciones dentro del formato binario, lo que hace que todos los metadatos sean accesibles para un motor de búsqueda.

Consejo #3. Cuando está viendo un documento en su forma final, es fácil olvidar que las ediciones resaltadas aún pueden existir en una vista alternativa del documento. Si no se eliminan por completo de un borrador, dichas líneas rojas permanecerán accesibles para un motor de búsqueda, tanto en la fase de búsqueda como en la fase de visualización del archivo.

Consejo #4. ¿Alguna vez trató de copiar lo que parecen palabras de un archivo PDF y no obtuvo nada cuando intentó pegar esas palabras? Esto es lo que sucede en un PDF de “solo imagen”. Dichos archivos PDF se pueden mezclar con otros documentos y son muy difíciles de detectar por sí solos. Dado que estos son “solo imágenes”, no hay texto digital en ellos (aparte del nombre de archivo y los metadatos). Esto significa que están efectivamente en blanco para un motor de búsqueda de texto. Pero los motores de búsqueda pueden marcar archivos PDF de “solo imagen” en el momento de la indexación, lo que le permite saber que necesita ejecutarlos a través de un programa OCR como Adobe Acrobat, y luego enviarlos de vuelta al motor de búsqueda para la indexación de texto completo.

Consejo #5. Ciertos documentos como correos electrónicos y archivos con OCR pueden estar llenos de errores tipográficos. Establecer la búsqueda difusa en un nivel bajo, como 1 o 2, filtrará los errores tipográficos comunes. Y la búsqueda difusa funciona además de la mayoría de las otras opciones de búsqueda.

Consejo #6. Un motor de búsqueda puede marcar cierta información personal en archivos como números de tarjetas de crédito. Durante el proceso de indexación, el motor de búsqueda puede tomar una serie de dígitos que pueden representar una tarjeta de crédito y ejecutar esos dígitos a través de un algoritmo de validación de tarjetas de crédito. Identificar dónde pueden aparecer los números de tarjetas de crédito en los datos compartidos le permite tomar medidas por separado para remediar el riesgo de dicha información personal expuesta.

Consejo #7. Normalmente, el motor de búsqueda vuelve a la fuente original de los datos para mostrarlos con los resultados destacados. Pero si los datos originales están lejos de donde se ejecuta la búsqueda, o si los datos originales pueden desaparecer por completo, activar el almacenamiento en caché aún permitirá que la visualización de archivos con resultados resaltados funcione sin problemas. La desventaja de activar el almacenamiento en caché es que hará que el tamaño del índice sea mucho más grande que de otra manera.

Crédito de la imagen destacada: Foto de Vlada Karpovich; Pexels; Gracias!

elizabeth thede

elizabeth thede

Elizabeth es directora de ventas en dtSearch. Abogada de formación, Elizabeth ha pasado muchos años en la industria del software. En casa, cultiva muchas plantas y tiene un perro de rescate mal educado pero muy lindo. Elizabeth también escribe artículos técnicos y es colaboradora habitual de The Price of Business Nationally Syndicated por USA Business Radio, con artículos actuales en USA Daily Times y The Daily Blaze.

Leave a Comment