Norconex HTTP Collector Indexer Eklentisi Dağıtma

Bu kılavuz, Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi yöneticileri (yani dizine ekleme eklentisini indirme, dağıtma, yapılandırma ve sürdürme işlemlerinden sorumlu olan kişiler) için hazırlanmıştır. Bu kılavuzda, Linux işletim sistemleri, web taramacılığının temelleri, XML ve Norconex HTTP Toplayıcı hakkında bilgi sahibi olduğunuz varsayılmaktadır.

Bu kılavuzda, dizine ekleme eklentisi dağıtımıyla ilgili temel görevleri gerçekleştirme talimatları yer alır:

  • Dizine ekleme eklentisi yazılımını indirme
  • Google Cloud Search'i yapılandırma
  • Norconex HTTP Toplayıcı'yı ve web tarama özelliğini yapılandırma
  • Web tarama işlemini başlatma ve içerik yükleme

Google Workspace yöneticisinin, Google Cloud Search'i Norconex HTTP Toplayıcı dizine ekleme eklentisiyle eşlemek için yapması gereken görevler hakkında bilgi bu kılavuzda yer almaz. Bu görevler hakkında bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.

Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisine genel bakış

Cloud Search, varsayılan olarak Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynak kurumsal web tarayıcı Norconex HTTP Collector için dizine ekleme eklentisini dağıtarak Google Cloud Search'in erişimini, kullanıcılarınıza web içeriği sunmayı da içerecek şekilde genişletebilirsiniz.

Yapılandırma özellikleri dosyaları

Dizine ekleme eklentisinin web taraması yapmasını ve dizine ekleme API'sine içerik yüklemesini sağlamak için dizine ekleme eklentisi yöneticisi olarak bu belgedeki Dağıtım adımları bölümünde açıklanan yapılandırma adımlarında belirli bilgileri sağlarsınız.

Dizine ekleme eklentisini kullanmak için iki yapılandırma dosyasında özellikleri ayarlamanız gerekir:

  • {gcs-crawl-config.xml}: Norconex HTTP Toplayıcısı'nın ayarlarını içerir.
  • sdk-configuration.properties: Google Cloud Search ayarlarını içerir.

Her dosyanın özellikleri, Google Cloud Search dizine ekleme eklentisinin ve Norconex HTTP Toplayıcı'nın birbiriyle iletişim kurmasını sağlar.

Web'de tarama ve içerik yükleme

Yapılandırma dosyalarını doldurduktan sonra web taramasını başlatmak için gerekli ayarlara sahip olursunuz. Norconex HTTP Toplayıcı, web'i tarar, yapılandırmasıyla ilgili doküman içeriğini keşfeder ve doküman içeriğinin orijinal ikili (veya metin) sürümlerini Cloud Search dizine ekleme API'sine yükler. Burada içeriğin dizine eklenmesi ve nihayetinde kullanıcılarınıza sunulması sağlanır.

Desteklenen işletim sistemi

Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi Linux'a yüklenmiş olmalıdır.

Desteklenen Norconex HTTP Toplayıcı sürümü

Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi 2.8.0 sürümünü destekler.

EKL desteği

Dizine ekleme eklentisi, Erişim Kontrol Listeleri'ni (EKL'ler) kullanarak Google Workspace alanındaki dokümanlara erişimi kontrol etmeyi destekler.

Google Cloud Search eklentisi yapılandırmasında varsayılan ACL'ler etkinse (defaultAcl.mode, none dışında bir değere ayarlanmışsa ve defaultAcl.* ile yapılandırılmışsa) dizine ekleme eklentisi önce varsayılan bir ACL oluşturmaya ve uygulamaya çalışır.

Varsayılan ACL'ler etkinleştirilmezse eklenti, Google Workspace alanının tamamına okuma izni verir.

ACL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.

Ön koşullar

Dizine ekleme eklentisini dağıtmadan önce aşağıdaki gerekli bileşenlere sahip olduğunuzdan emin olun:

  • Dizine ekleme eklentisini çalıştıran bir bilgisayara Java JRE 1.8 yüklenmiş olmalıdır.
  • Cloud Search ile Norconex HTTP Toplayıcı arasında ilişki oluşturmak için gereken Google Workspace bilgileri:

    Bu kimlik bilgilerini genellikle alanın Google Workspace yöneticisi sağlayabilir.

Dağıtım adımları

Dizine ekleme eklentisini dağıtmak için aşağıdaki adımları uygulayın:

  1. Norconex HTTP Toplayıcı'yı ve dizine ekleme eklentisi yazılımını yükleme
  2. Google Cloud Search'i yapılandırma
  3. Norconex HTTP Toplayıcı'yı yapılandırma
  4. Web taramasını yapılandırma
  5. Web tarama ve içerik yükleme işlemini başlatma

1. Adım: Norconex HTTP Toplayıcı'yı ve dizine ekleme eklentisi yazılımını yükleyin

  1. Norconex commiter yazılımını bu sayfadan indirin.
  2. İndirilen yazılımın sıkıştırmasını ~/norconex/ klasöründe açın
  3. GitHub'dan commiter eklentisini klonlayın. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ve ardından cd norconex-committer-plugin
  4. Taahhüt eklentisinin istediğiniz sürümüne göz atın ve ZIP dosyasını oluşturun: git checkout tags/v1-0.0.3 ve mvn package (Bağlayıcıyı oluştururken testleri atlamak için mvn package -DskipTests kullanın.)
  5. cd target
  6. Oluşturulan eklenti jar dosyasını norconex lib dizinine kopyalayın. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Az önce oluşturduğunuz ZIP dosyasını ayıklayın ve dosyanın sıkıştırmasını açın: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Eklentinin .jar dosyasını ve gerekli tüm kitaplıkları http toplayıcının dizinine kopyalamak için yükleme komut dosyasını çalıştırın:
    1. Yukarıda sıkıştırılmış olarak çıkarılan commiter eklentisinde değişiklik yapın: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh'ü yürütün ve istendiğinde hedef dizin olarak norconex/norconex-collector-http-{version}/lib'ın tam yolunu sağlayın.
    3. Yinelenen jar dosyaları bulunursa 1 seçeneğini belirleyin (Yalnızca hedef jar'ı yeniden adlandırdıktan sonra hedef jar'dan daha yeni veya hedef jar ile aynı sürümse kaynak jar'ı kopyala).

2. Adım: Google Cloud Search'i yapılandırın

Dizine ekleme eklentisinin Norconex HTTP Toplayıcı'ya bağlanıp alakalı içeriği dizine eklemesi için Cloud Search yapılandırma dosyasını, Norconex HTTP Toplayıcı'nın yüklü olduğu Norconex dizininde oluşturmanız gerekir. Google, Cloud Search yapılandırma dosyasını sdk-configuration.properties olarak adlandırmanızı önerir.

Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftleri içermelidir. Yapılandırma dosyası, Cloud Search veri kaynağına erişmek için gereken en az aşağıdaki parametreleri belirtmelidir.

Yer Parametre
Veri kaynağı kimliği api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından ayarlanan Cloud Search kaynak kimliği.
Hizmet hesabı api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Dizine ekleme eklentisi erişimi için Google Workspace yöneticisi tarafından oluşturulan Cloud Search hizmet hesabı anahtar dosyası.

Aşağıdaki örnekte bir sdk-configuration.properties dosyası gösterilmektedir.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Yapılandırma dosyası, Google tarafından sağlanan yapılandırma parametrelerini de içerebilir. Bu parametreler, bu eklentinin Google Cloud Search API'ye veri gönderme şeklini etkileyebilir. Örneğin, batch.* parametre grubu, bağlayıcının istekleri nasıl birleştirdiğini tanımlar.

Yapılandırma dosyasında bir parametre tanımlamazsanız varsa varsayılan değer kullanılır. Her parametrenin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.

Dizine ekleme eklentisini, dizine eklenen içerik için meta verileri ve yapılandırılmış verileri dolduracak şekilde yapılandırabilirsiniz. Meta veri ve yapılandırılmış veri alanları için doldurulacak değerler, dizine eklenen HTML içeriğindeki meta etiketlerden çıkarılabilir veya yapılandırma dosyasında varsayılan değerler belirtilebilir.

Ayar Parametre
Başlık itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Varsayılan olarak, eklenti dizine eklenen dokümanın başlığı olarak HTML title değerini kullanır. Başlık eksikse doküman başlığına karşılık gelen değeri içeren meta veri özelliğini referans olarak kullanabilir veya varsayılan bir değer ayarlayabilirsiniz.
Oluşturma zaman damgası itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Belge oluşturma zaman damgasının değerini içeren meta veri özelliği.
Son değiştirilme zamanı itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Belgenin son değiştirilme zaman damgasının değerini içeren meta veri özelliği.
Belge dili itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen belgelerin içerik dili.
Şema nesnesi türü itemMetadata.objectType=movie
veri kaynağı şeması nesne tanımlarında tanımlandığı şekilde, site tarafından kullanılan nesne türü. Bu özellik belirtilmezse bağlayıcı hiçbir yapılandırılmış veriyi dizine eklemez.

Not: Bu yapılandırma mülkü, meta veri özelliği yerine bir değeri işaret eder ve .field ile .defaultValue son ekleri desteklenmez.

Tarih ve saat biçimleri

Tarih/saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Bu parametre aşağıdaki tabloda gösterilmektedir.

Ayar

Parametre

Ek tarih/saat kalıpları

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Ek java.time.format.DateTimeFormatter kalıplarının noktalı virgülle ayrılmış listesi. Kalıplar, meta veriler veya şemada herhangi bir tarih veya tarih-saat alanı için dize değerleri ayrıştırılırken kullanılır. Varsayılan değer boş bir listedir ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.

3. Adım: Norconex HTTP Toplayıcı'yı yapılandırın

norconex-committer-google-cloud-search-{version}.zipzip arşivi, minimum-config.xml adlı örnek bir yapılandırma dosyası içerir.

Google, yapılandırma işlemine örnek dosyayı kopyalayarak başlamanızı önerir:

  1. Norconex HTTP Toplayıcı dizininde değişiklik yapın:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Yapılandırma dosyasını kopyalayın:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Yeni oluşturulan dosyayı (bu örnekte gcs-crawl-config.xml) düzenleyin ve aşağıdaki tabloda açıklandığı gibi mevcut <committer> ve <tagger> düğümlerini ekleyin veya değiştirin.
Yer Parametre
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Zorunlu. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
<UploadFormat> <uploadFormat>raw</uploadFormat>
İsteğe bağlı. Dizine ekleme eklentisinin, belge içeriğini Google Cloud Search dizine ekleme API'sine gönderdiği biçim. Geçerli değerler:
  • raw: dizine ekleme eklentisi, dönüştürülmemiş orijinal doküman içeriğini gönderir.
  • text: dizine ekleme eklentisi, ayıklanan metin içeriğini gönderir.

Varsayılan değer raw'dir.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise gereklidir. Bu durumda, dizine ekleme eklentisinin, belgenin ikili içerik alanının kullanılabilir olması gerekir.

BinaryContentTagger <tagger> düğümünü, <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.

Aşağıdaki örnekte, gcs-crawl-config.xml için gereken değişiklik gösterilmektedir.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

4. Adım: Web taramasını yapılandırın

Web taramasını başlatmadan önce, taramayı yalnızca kuruluşunuzun arama sonuçlarında sunmak istediği bilgileri içerecek şekilde yapılandırmanız gerekir. Web tarama için en önemli ayarlar <crawler>düğümlerinin bir parçasıdır ve şunları içerebilir:

  • Başlangıç URL'leri
  • Taramanın maksimum derinliği
  • Konu sayısı

Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Web taraması oluşturma hakkında daha ayrıntılı bilgi ve mevcut yapılandırma parametrelerinin tam listesi için HTTP Toplayıcı'nın Yapılandırma sayfasına bakın.

5. adım: Web tarama ve içerik yükleme işlemini başlatın

Dizine ekleme eklentisini yükleyip ayarladıktan sonra yerel modda kendi başına çalıştırabilirsiniz.

Aşağıdaki örnekte, gerekli bileşenlerin bir Linux sistemindeki yerel dizinde bulunduğu varsayılmaktadır. Aşağıdaki komutu çalıştırın:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Tarayıcıyı JEF Monitor ile izleme

Norconex JEF (İş Yürütme Çerçevesi) İzleyici, Norconex Web Tarayıcı (HTTP Toplayıcı) işlemlerinin ve işlerinin ilerleme durumunu izlemek için kullanılan grafik bir araçtır. Bu yardımcı programı ayarlamayla ilgili eksiksiz bir eğitim için JEF Monitor ile tarayıcınızın ilerleme durumunu izleme başlıklı makaleyi inceleyin.