Dateien unter Windows nach Bestandteilen des Inhalts finden

leknilk0815 · 14.01.2014, 20:51:49

Servus,
wozu schon wieder Software installieren, die es nicht braucht?
PHP- Dateien sind ganz normale Text- Dateien, die der Windows- Explorer problemlos findet, wenn man ihn läßt.
Jede Script- Datei, die man selbst geschrieben hat, enthält Wörter, an die man sich vielleicht erinnert, und wenns eine Kommentarzeile ist. Wenn man natürlich die ganze Zeile als Suchbegriff neingibt, wird das Ergebnis mager ausfallen. Ein kurzes Stichwort reicht.
@Heimfried:
auch die .reg- Dateien sind normale Textdateien, die man mit dem Editor öffnen kann. Enthalten sind nur die Registry- Keys, die praktischerweise bei Doppelklick installiert werden. Erspart die Handarbeit.

Holli · 14.01.2014, 22:07:54

Zitat von: TheWeather am 14.01.2014, 17:14:25
UTF-8 bedeutet ja meines Wissens, dass zwar ASCII-Zeichen verwendet werden, allerdings mit 2 Byte statt 1 Byte codiert.

Nein, das gilt nur für Umlaute und Sonderzeichen. Eine UTF-8-Datei ohne Sonderzeichen unterscheidet sich in keinem Bit von 7-Bit-ASCII oder einer anderen Codierung. Wenn man nicht sicher ist, wie eine Datei codiert ist, sollte man einfach ohne Umlaute suchen, dann paßt es immer.

TheWeather · 14.01.2014, 22:40:06

Zitat von: Holli am 14.01.2014, 22:07:54
... Nein, das gilt nur für Umlaute und Sonderzeichen...

Nein, so einfach ist es auch wieder nicht. ASCII ist im einfachsten Fall (bei eine 1-Byte Codierung) tatsächlich identisch mit den unteren 127 Byte bei UTF-8. Bei einer 2-Byte Codierung stehen alle ASCII-Zeichen im zweiten Byte, das erste Byte ist stets &00. Erst bei Sonderzeichen (zumindest bei 2-Byte Codierung für ASCII) hat das ertse Byte den Wert &C0, das zweite dann den Wert &00 bis &7F (entsprechend 0 bis 127), um des ASCII-Wert des Bereichs 128 bis 255 darzustellen.

Einfaches Beispiel: Die Dateieinformationen, welche man im Explorer bei rechtem Mausklick auf eine .exe-Datei und "Eigenschaften" und "Allgemein" oder "Versionsinformation" angezeigt bekommt, sind alle mit 2 Bytes UTF-8 codiert. Bei WinWord.exe steht da z.B. "Microsoft Word" im Anzeige-Fenster. Würde man nun mit der Suchfunktion des Explorers "Microsoft Word" als Inhalt aller *.exe suchen, würde man was finden? Keine einzige Datei! Obwohl's explizit drin steht, wie man mit einem HEX-Editor leicht nachvollziehen kann). Nur halt nicht als "Microsoft Word" sondern als " M i c r o s o f t W o r d", wobei jetzt jedes Leerzeichen hier im Beispiel eine Byte &00 ist. Da ich's schon mal haarklein auseinander gedröselt habe, bin ich mir recht sicher, warum eine Suchanfrage nichts findet, wenn sie nicht explizit ebenfalls ein 2-Byte codiertes UTF-8 verwendet.

Eine Suchanfrage wie "Hallo" würde nichts finden, wenn der gesuchte Begriff in Wirklichkeit als " H a l l o" irgendwo in der Datei steht. Da spielt es auch keinen Unterschied, ob die dateierweiterung .txt oder .xyz ist.

Tut man's dagegen (Suche mit 2-Byte Codierung), findet man die gesuchten Informationen und deren Speicherplatz selbst in *.exe-Dateien. Frage ist nur, welche Dateisuche (und Suche nach Datei-Inhalten) das tatsächlich unterstützt ... der Explorer zumindest nicht, soweit ich ihn kenne.

Gruß Hans

Nachtrag: Da habe ich "Käse" geschrieben.

Sorry!

Günter (heimfried) hat mich schon drauf aufmerksam gemacht und Chris hat's nachfolgend schon richtig beschrieben, weswegen ich meine Verfehlung nachträglich "~~gestrichen~~" habe. Danke Günter und Chris. Ich war gedanklich beim String-Typ WideChar ... Die Erklärung kann man im nachfolgenden Beitrag von Chris lesen.

Alloc · 15.01.2014, 00:21:21

Hi Hans,

was du meinst ist UTF-16 Unicode (was z.B. von Windows verwendet wird). Dort wird immer mit zwei Byte pro Zeichen codiert. UTF-8 funktioniert genau wie Dietmar beschrieben hat so, dass solange man die unteren 128 Zeichen verwendet eben auch nur ein Byte für diese Zeichen gespeichert wird. Gerade bei Quellcode sollte es dementsprechend egal sein, ob man hier nach ASCII oder UTF-8 sucht, da dort Umlaute und ähnliches eh nichts zu suchen haben

Grüße,
Chris

Holli · 15.01.2014, 19:13:59

Zitat von: Alloc am 15.01.2014, 00:21:21
Gerade bei Quellcode sollte es dementsprechend egal sein, ob man hier nach ASCII oder UTF-8 sucht, da dort Umlaute und ähnliches eh nichts zu suchen haben

... es sei denn, man macht dort Ausgaben mit Sonderzeichen oder speichert Strings, die woanders ausgegeben werden

Auch wenn es hier nicht zur Problemlösung beiträgt: Unter Windows gibt es bei Webanwendungen eine böse Falle, wenn man den eingebauten Editor nutzt: Das Byte Order Mark, kurz BOM. Die Zusammenhänge sind nicht ganz trivial, deshalb habe ich sie mal in einem länglichen, aber hoffentlich auch für Laien verständlichen Text ausführlich erklärt: http://joomla-geruechte.de/geruechte/61-windows-ist-boese.html

wneudeck · 15.01.2014, 19:32:25

Hallo,

Zitatdeshalb habe ich sie mal in einem länglichen, aber hoffentlich auch für Laien verständlichen Text ausführlich erklärt:

und genau deswegen benutze ich seit diesem Artikel Notepad++ als Editor, der auch noch andere Annehmlichkeiten bietet.

Wetterstationsforum.info - Archiv

Neuigkeiten:

Dateien unter Windows nach Bestandteilen des Inhalts finden

leknilk0815

Holli

TheWeather

Alloc

Holli

wneudeck