Bu kılavuz, Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi yöneticileri (yani dizine ekleme eklentisini indirme, dağıtma, yapılandırma ve sürdürme işlemlerinden sorumlu olan kişiler) için hazırlanmıştır. Bu kılavuzda, Linux işletim sistemleri, web taramacılığının temelleri, XML ve Norconex HTTP Toplayıcı hakkında bilgi sahibi olduğunuz varsayılmaktadır.
Bu kılavuzda, dizine ekleme eklentisi dağıtımıyla ilgili temel görevleri gerçekleştirme talimatları yer alır:
- Dizine ekleme eklentisi yazılımını indirme
- Google Cloud Search'i yapılandırma
- Norconex HTTP Toplayıcı'yı ve web tarama özelliğini yapılandırma
- Web tarama işlemini başlatma ve içerik yükleme
Google Workspace yöneticisinin, Google Cloud Search'i Norconex HTTP Toplayıcı dizine ekleme eklentisiyle eşlemek için yapması gereken görevler hakkında bilgi bu kılavuzda yer almaz. Bu görevler hakkında bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.
Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisine genel bakış
Cloud Search, varsayılan olarak Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynak kurumsal web tarayıcı Norconex HTTP Collector için dizine ekleme eklentisini dağıtarak Google Cloud Search'in erişimini, kullanıcılarınıza web içeriği sunmayı da içerecek şekilde genişletebilirsiniz.
Yapılandırma özellikleri dosyaları
Dizine ekleme eklentisinin web taraması yapmasını ve dizine ekleme API'sine içerik yüklemesini sağlamak için dizine ekleme eklentisi yöneticisi olarak bu dokümanda Dağıtım adımları bölümünde açıklanan yapılandırma adımlarında belirli bilgileri sağlarsınız.
Dizine ekleme eklentisini kullanmak için iki yapılandırma dosyasında özellikleri ayarlamanız gerekir:
{gcs-crawl-config.xml}
: Norconex HTTP Toplayıcısı'nın ayarlarını içerir.sdk-configuration.properties
: Google Cloud Search ayarlarını içerir.
Her dosyanın özellikleri, Google Cloud Search dizine ekleme eklentisinin ve Norconex HTTP Toplayıcı'nın birbiriyle iletişim kurmasını sağlar.
Web'de tarama ve içerik yükleme
Yapılandırma dosyalarını doldurduktan sonra web taramasını başlatmak için gerekli ayarlara sahip olursunuz. Norconex HTTP Toplayıcı, web'i tarar, yapılandırmasıyla ilgili doküman içeriğini keşfeder ve doküman içeriğinin orijinal ikili (veya metin) sürümlerini Cloud Search dizine ekleme API'sine yükler. Burada içeriğin dizine eklenmesi ve nihayetinde kullanıcılarınıza sunulması sağlanır.
Desteklenen işletim sistemi
Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi Linux'a yüklenmiş olmalıdır.
Desteklenen Norconex HTTP Toplayıcı sürümü
Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi 2.8.0 sürümünü destekler.
EKL desteği
Dizine ekleme eklentisi, Erişim Kontrol Listeleri'ni (EKL'ler) kullanarak Google Workspace alanındaki dokümanlara erişimi kontrol etmeyi destekler.
Google Cloud Search eklentisi yapılandırmasında varsayılan ACL'ler etkinse (defaultAcl.mode
, none
dışında bir değere ayarlanmışsa ve defaultAcl.*
ile yapılandırılmışsa) dizine ekleme eklentisi önce varsayılan bir ACL oluşturup uygulamayı dener.
Varsayılan ACL'ler etkinleştirilmezse eklenti, Google Workspace alanının tamamına okuma izni verir.
ACL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.
Ön koşullar
Dizine ekleme eklentisini dağıtmadan önce aşağıdaki gerekli bileşenlere sahip olduğunuzdan emin olun:
- Dizine ekleme eklentisini çalıştıran bir bilgisayara Java JRE 1.8 yüklenmiş olmalıdır.
Cloud Search ile Norconex HTTP Toplayıcı arasında ilişki oluşturmak için gereken Google Workspace bilgileri:
- Google Workspace özel anahtarı (hizmet hesabı kimliğini içerir)
- Google Workspace veri kaynağı kimliği
Bu kimlik bilgilerini genellikle alanın Google Workspace yöneticisi sağlayabilir.
Dağıtım adımları
Dizine ekleme eklentisini dağıtmak için aşağıdaki adımları uygulayın:
- Norconex HTTP Toplayıcı'yı ve dizine ekleme eklentisi yazılımını yükleme
- Google Cloud Search'i yapılandırma
- Norconex HTTP Toplayıcı'yı yapılandırma
- Web taramasını yapılandırma
- Web tarama ve içerik yükleme işlemini başlatma
1. Adım: Norconex HTTP Toplayıcı'yı ve dizine ekleme eklentisi yazılımını yükleyin
- Norconex commiter yazılımını bu sayfadan indirin.
- İndirilen yazılımın sıkıştırmasını
~/norconex/
klasöründe açın - GitHub'dan commiter eklentisini klonlayın.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
ve ardındancd norconex-committer-plugin
- Taahhüt eklentisinin istediğiniz sürümüne göz atın ve ZIP dosyasını oluşturun:
git checkout tags/v1-0.0.3
vemvn package
(Bağlayıcıyı oluştururken testleri atlamak içinmvn package -DskipTests
kullanın.) cd target
- Oluşturulan eklenti jar dosyasını norconex lib dizinine kopyalayın.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Az önce oluşturduğunuz ZIP dosyasını ayıklayın ve dosyanın sıkıştırmasını açın:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Eklentinin .jar dosyasını ve gerekli tüm kitaplıkları http toplayıcının dizinine kopyalamak için yükleme komut dosyasını çalıştırın:
- Yukarıda sıkıştırılmış olarak çıkarılan commiter eklentisini değiştirin:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
$ sh install.sh
'ü yürütün ve istendiğinde hedef dizin olaraknorconex/norconex-collector-http-{version}/lib
'ın tam yolunu sağlayın.- Yinelenen jar dosyaları bulunursa
1
seçeneğini belirleyin (Yalnızca hedef jar'ı yeniden adlandırdıktan sonra hedef jar'dan daha yeni veya hedef jar ile aynı sürümse kaynak jar'ı kopyala).
- Yukarıda sıkıştırılmış olarak çıkarılan commiter eklentisini değiştirin:
2. Adım: Google Cloud Search'i yapılandırın
Dizine ekleme eklentisinin Norconex HTTP Toplayıcı'ya bağlanıp alakalı içeriği dizine eklemesi için Cloud Search yapılandırma dosyasını, Norconex HTTP Toplayıcı'nın yüklü olduğu Norconex dizininde oluşturmanız gerekir. Google, Cloud Search yapılandırma dosyasını sdk-configuration.properties
olarak adlandırmanızı önerir.
Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftleri içermelidir. Yapılandırma dosyası, Cloud Search veri kaynağına erişmek için gereken en az aşağıdaki parametreleri belirtmelidir.
Yer | Parametre |
Veri kaynağı kimliği | api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından ayarlanan Cloud Search kaynak kimliği. |
Hizmet hesabı | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Dizine ekleme eklentisi erişimi için Google Workspace yöneticisi tarafından oluşturulan Cloud Search hizmet hesabı anahtar dosyası. |
Aşağıdaki örnekte bir sdk-configuration.properties
dosyası gösterilmektedir.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
Yapılandırma dosyası, Google tarafından sağlanan yapılandırma parametrelerini de içerebilir.
Bu parametreler, bu eklentinin Google Cloud Search API'ye veri gönderme şeklini etkileyebilir. Örneğin, batch.*
parametre grubu, bağlayıcının istekleri nasıl birleştirdiğini tanımlar.
Yapılandırma dosyasında bir parametre tanımlamazsanız varsa varsayılan değer kullanılır. Her parametrenin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.
Dizine ekleme eklentisini, dizine eklenen içerik için meta verileri ve yapılandırılmış verileri dolduracak şekilde yapılandırabilirsiniz. Meta veri ve yapılandırılmış veri alanları için doldurulacak değerler, dizine eklenen HTML içeriğindeki meta etiketlerden çıkarılabilir veya yapılandırma dosyasında varsayılan değerler belirtilebilir.
Ayar | Parametre |
Başlık | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Varsayılan olarak, eklenti dizine eklenen dokümanın başlığı olarak HTML title değerini kullanır. Başlık eksikse doküman başlığına karşılık gelen değeri içeren meta veri özelliğini referans olarak kullanabilir veya varsayılan bir değer ayarlayabilirsiniz.
|
Oluşturma zaman damgası | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Belge oluşturma zaman damgasının değerini içeren meta veri özelliği. |
Son değiştirilme zamanı | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Belgenin son değiştirilme zaman damgasının değerini içeren meta veri özelliği. |
Belge dili | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen belgelerin içerik dili. |
Şema nesnesi türü | itemMetadata.objectType=movie
veri kaynağı şeması nesne tanımlarında tanımlandığı şekilde, site tarafından kullanılan nesne türü. Bu özellik belirtilmezse bağlayıcı hiçbir yapılandırılmış veriyi dizine eklemez.
Not: Bu yapılandırma mülkü, meta veri özelliği yerine bir değeri işaret eder ve |
Tarih ve saat biçimleri
Tarih/saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Bu parametre aşağıdaki tabloda gösterilmektedir.
Ayar
Parametre
Ek tarih/saat kalıpları
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Ek java.time.format.DateTimeFormatter kalıplarının noktalı virgülle ayrılmış listesi. Kalıplar, meta verilerdeki veya şemadaki herhangi bir tarih veya tarih-saat alanının dize değerleri ayrıştırılırken kullanılır. Varsayılan değer boş bir listedir ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.
3. Adım: Norconex HTTP Toplayıcı'yı yapılandırın
norconex-committer-google-cloud-search-{version}.zip
zip arşivi, minimum-config.xml
adlı örnek bir yapılandırma dosyası içerir.
Google, yapılandırma işlemine örnek dosyayı kopyalayarak başlamanızı önerir:
- Norconex HTTP Toplayıcı dizininde değişiklik yapın:
$ cd ~/norconex/norconex-collector-http-{version}/
- Yapılandırma dosyasını kopyalayın:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Yeni oluşturulan dosyayı (bu örnekte
gcs-crawl-config.xml
) düzenleyin ve aşağıdaki tabloda açıklandığı gibi mevcut<committer>
ve<tagger>
düğümlerini ekleyin veya değiştirin.
Yer | Parametre |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Zorunlu. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
İsteğe bağlı. Dizine ekleme eklentisinin, belge içeriğini Google Cloud Search dizine ekleme API'sine gönderdiği biçim. Geçerli değerler:
Varsayılan değer raw 'dir.
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise gereklidir. Bu durumda, dizine ekleme eklentisinin, belgenin ikili içerik alanının kullanılabilir olması gerekir.
BinaryContentTagger <tagger> düğümünü, <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.
|
Aşağıdaki örnekte,
gcs-crawl-config.xml
için gereken değişiklik gösterilmektedir.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
4. Adım: Web taramasını yapılandırın
Web taramasını başlatmadan önce, taramayı yalnızca kuruluşunuzun arama sonuçlarında sunmak istediği bilgileri içerecek şekilde yapılandırmanız gerekir. Web tarama için en önemli ayarlar <crawler>
düğümlerinin bir parçasıdır ve şunları içerebilir:
- Başlangıç URL'leri
- Taramanın maksimum derinliği
- Konu sayısı
Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Web taraması oluşturma hakkında daha ayrıntılı bilgi ve mevcut yapılandırma parametrelerinin tam listesi için HTTP Toplayıcı'nın Yapılandırma sayfasına bakın.
5. Adım: Web tarama ve içerik yükleme işlemini başlatın
Dizine ekleme eklentisini yükleyip ayarladıktan sonra yerel modda kendi başına çalıştırabilirsiniz.
Aşağıdaki örnekte, gerekli bileşenlerin bir Linux sistemindeki yerel dizinde bulunduğu varsayılmaktadır. Aşağıdaki komutu çalıştırın:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF Monitor ile tarayıcıyı izleme
Norconex JEF (İş Yürütme Çerçevesi) İzleyici, Norconex Web Tarayıcı (HTTP Toplayıcı) işlemlerinin ve işlerinin ilerleme durumunu izlemek için kullanılan grafik bir araçtır. Bu yardımcı programı ayarlamayla ilgili eksiksiz bir eğitim için JEF Monitor ile tarayıcınızın ilerleme durumunu izleme başlıklı makaleyi inceleyin.